Клавиатура ноутбука
Клавиатура ноутбука
Дмитрий Толстенёв Опубликована 06.06.2025 в 0:36

ИИ проверят по-новому: в России запущен отраслевой бенчмарк LLM

На конференции ЦИПР участники Альянса в сфере искусственного интеллекта представили новое направление в рамках платформы MERA — раздел MERA Industrial, ориентированный на оценку больших языковых моделей в прикладных профессиональных областях. Создатели платформы считают, что бизнесу нужны точные и объективные инструменты для выбора искусственного интеллекта, способного решать конкретные задачи в медицине, агропромышленности и других ключевых секторах экономики.

Как сообщили представители Альянса, на сайте уже доступны первые три датасета, сформулированные ведущими экспертами и представителями научного сообщества. Два из них охватывают тематику сельского хозяйства — агрономию и аквакультуру, а третий касается фундаментальных знаний в медицине. Датасеты состоят из сотен заданий, созданных на основе оригинального материала и охватывающих широкий спектр профессиональных тем — от технологии выращивания сельхозкультур до клинической диагностики и ветеринарии.

Каждый бенчмарк призван оценить, насколько хорошо языковая модель справляется с вопросами, требующими узкоспециализированных знаний, включая анализ, логические выводы и практическое применение. Например, ruTXTAgroBench включает почти три тысячи вопросов, посвящённых агрономии, почвоведению, растениеводству, селекции и другим дисциплинам. Второй датасет, ruTXTAquaBench, ориентирован на аквакультуру и включает задания по марикультуре, кормлению гидробионтов и профилактике заболеваний рыбы. Медицинский датасет ruTXTMedQFundamental охватывает 17 дисциплин, позволяя сравнивать работу LLM с уровнем подготовки выпускника медвуза.

Проект поддержали ведущие научные учреждения страны, включая Сколтех, КубГАУ, НМИЦ имени Алмазова, РАНХиГС и другие. Их участие, по словам организаторов, стало залогом качества и достоверности контента. Задания составлены на русском языке, без заимствований из интернета, и проверяются с точки зрения научной точности, охвата профессиональной таксономии и практической значимости. Разработчики подчеркивают, что MERA Industrial станет не просто системой оценки, а полноценной платформой для валидации заданий, генерации новых кейсов и интеграции готовых тестов в бизнес-процессы.

Старший вице-президент Сбербанка Андрей Белевцев заявил, что запуск новой платформы стал важным шагом к повышению прозрачности и качества оценки LLM. Он отметил, что бизнесу необходимы инструменты, способные не только проверять уровень знаний, но и выявлять, как модель применяет их на практике. Он подчеркнул, что Сбер активно использует подобные решения при внедрении ИИ в свои сервисы, и именно поэтому поддержал идею расширения MERA в сторону индустриальных задач.

Бенчмарк MERA, как напомнили представители Альянса, был представлен еще в 2023 году на конференции AI Journey. Позже его методология получила признание на престижной научной конференции ACL, где обсуждаются новейшие разработки в области компьютерной лингвистики. С тех пор проект значительно развился: в платформу добавили поддержку API, улучшили отображение результатов на лидерборде, учли особенности SFT-моделей, а теперь вышли и на отраслевой уровень.

Подписывайтесь на Moneytimes.Ru

Читайте также

Учёные из Германии и Румынии вывели уравнение для расширения космоса сегодня в 22:31
Неизвестная геометрия Вселенной: новая теория объясняет ускоренное расширение без тёмной энергии

Физики из Германии и Румынии предложили модель расширения Вселенной без тёмной энергии, используя геометрию Финслера для объяснения ускоренного расширения.

Читать полностью »
Учёный Эппенбергер: гибриды неандертальцев и людей имели риск прерывания беременности сегодня в 19:53
Их погубила не война и не климат, а любовь: как союз двух видов стал началом конца неандертальцев

Учёные из Цюрихского университета предположили, что не войны и болезни, а генетическая несовместимость могла стать причиной вымирания неандертальцев.

Читать полностью »
MIT обнаружил следы прото-Земли возрастом 4,5 миллиарда лет сегодня в 18:39
Мы живём на осколках погибшей планеты: Земля оказалась наследницей древнего мира

Учёные MIT нашли изотопные следы вещества, сохранившегося со времён прото-Земли, — планеты, существовавшей до гигантского столкновения.

Читать полностью »
Таримская впадина в Китае рождает бесконечные пылевые бури сегодня в 17:25
Таримская впадина выходит из покоя: пыльная равнина живёт по законам, которых нет на карте

Пустыня Тарим в Китае не знает покоя: тектонические силы, сезонные ветра и жара создают пылевой цикл, который влияет на атмосферу всей Азии.

Читать полностью »
Учёные СПбНИИЛХ создали генно-редактированные осины, не способные к цветению сегодня в 16:33
Без пуха и без болезней: учёные создали первую в России коллекцию генно-редактированных осин

Учёные СПбНИИЛХ впервые в России отредактировали гены деревьев. Новая технология позволяет лишать осину и тополь цветения, защищать их от гнилей и ускорять рост без создания ГМО.

Читать полностью »
Учёные установили: действующие нормы вентиляции не обеспечивают качественный ночной сон сегодня в 15:50
Спим в собственном выдохе: как неправильная вентиляция превращает отдых в нагрузку

Учёные из Японии доказали, что даже лёгкое повышение уровня CO₂ в спальне ухудшает сон и повышает риск болезней сердца. Они предлагают пересмотреть нормы вентиляции.

Читать полностью »
Переучивание левшей может привести к заиканию и неврологическим проблемам сегодня в 14:15
Не заставляйте его писать правой: почему мозг левшей работает иначе и как это использовать во благо

Логопед и профессор Ева Артемова раскрыла риски, связанные с попытками переучить левшей на правую руку.

Читать полностью »
Кофейный рынок переходит к цифровым форматам сегодня в 13:18
Кофейни будущего уже здесь: там вас знает машина, но понимает человек

Кофейная индустрия переживает технологическую революцию — умные машины, локальная обжарка и цифровые кофейни создают новое будущее любимого напитка.

Читать полностью »