Клавиатура ноутбука
Клавиатура ноутбука
Дмитрий Толстенёв Опубликована 06.06.2025 в 0:36

ИИ проверят по-новому: в России запущен отраслевой бенчмарк LLM

На конференции ЦИПР участники Альянса в сфере искусственного интеллекта представили новое направление в рамках платформы MERA — раздел MERA Industrial, ориентированный на оценку больших языковых моделей в прикладных профессиональных областях. Создатели платформы считают, что бизнесу нужны точные и объективные инструменты для выбора искусственного интеллекта, способного решать конкретные задачи в медицине, агропромышленности и других ключевых секторах экономики.

Как сообщили представители Альянса, на сайте уже доступны первые три датасета, сформулированные ведущими экспертами и представителями научного сообщества. Два из них охватывают тематику сельского хозяйства — агрономию и аквакультуру, а третий касается фундаментальных знаний в медицине. Датасеты состоят из сотен заданий, созданных на основе оригинального материала и охватывающих широкий спектр профессиональных тем — от технологии выращивания сельхозкультур до клинической диагностики и ветеринарии.

Каждый бенчмарк призван оценить, насколько хорошо языковая модель справляется с вопросами, требующими узкоспециализированных знаний, включая анализ, логические выводы и практическое применение. Например, ruTXTAgroBench включает почти три тысячи вопросов, посвящённых агрономии, почвоведению, растениеводству, селекции и другим дисциплинам. Второй датасет, ruTXTAquaBench, ориентирован на аквакультуру и включает задания по марикультуре, кормлению гидробионтов и профилактике заболеваний рыбы. Медицинский датасет ruTXTMedQFundamental охватывает 17 дисциплин, позволяя сравнивать работу LLM с уровнем подготовки выпускника медвуза.

Проект поддержали ведущие научные учреждения страны, включая Сколтех, КубГАУ, НМИЦ имени Алмазова, РАНХиГС и другие. Их участие, по словам организаторов, стало залогом качества и достоверности контента. Задания составлены на русском языке, без заимствований из интернета, и проверяются с точки зрения научной точности, охвата профессиональной таксономии и практической значимости. Разработчики подчеркивают, что MERA Industrial станет не просто системой оценки, а полноценной платформой для валидации заданий, генерации новых кейсов и интеграции готовых тестов в бизнес-процессы.

Старший вице-президент Сбербанка Андрей Белевцев заявил, что запуск новой платформы стал важным шагом к повышению прозрачности и качества оценки LLM. Он отметил, что бизнесу необходимы инструменты, способные не только проверять уровень знаний, но и выявлять, как модель применяет их на практике. Он подчеркнул, что Сбер активно использует подобные решения при внедрении ИИ в свои сервисы, и именно поэтому поддержал идею расширения MERA в сторону индустриальных задач.

Бенчмарк MERA, как напомнили представители Альянса, был представлен еще в 2023 году на конференции AI Journey. Позже его методология получила признание на престижной научной конференции ACL, где обсуждаются новейшие разработки в области компьютерной лингвистики. С тех пор проект значительно развился: в платформу добавили поддержку API, улучшили отображение результатов на лидерборде, учли особенности SFT-моделей, а теперь вышли и на отраслевой уровень.

Подписывайтесь на Moneytimes.Ru

Читайте также

Вселенная рождается из первичного взрыва и начинает своё расширение сегодня в 6:24
осмос открывает тревожную правду: реальность может оказаться тщательно продуманной иллюзией

Современная наука объясняет рождение Вселенной теорией Большого взрыва, но рядом стоят альтернативы — от вечного космоса до гипотезы цифровой симуляции.

Читать полностью »
Учёные ВГУИТ разработали квас на основе молочной сыворотки с повышенным содержанием аминокислот и антиоксидантов сегодня в 5:32
Новый русский квас: добавка сыворотки и редкого солода повышает пользу в 1.5 раза

Учёные ВГУИТ создали инновационный квас на основе молочной сыворотки и тритикалевого солода, обогащённый аминокислотами и антиоксидантами, сохранив вкус классического напитка.

Читать полностью »
Учёные Texas A&M Health выяснили, что РНК может подпитывать рост раковых клеток сегодня в 3:59
Опухоль с собственным мозгом? Учёные нашли у рака скрытые командные центры роста

Учёные из Texas A&M Health нашли у раковых клеток новый источник энергии — собственную РНК. Как жидкие конденсаты ускоряют рост опухоли и могут стать мишенью для терапии.

Читать полностью »
Джером: утрата памяти может быть восстановлена с помощью генного редактирования сегодня в 2:10
Память можно вернуть: учёные нашли способ переписать забытые воспоминания

Учёные из Политехнического университета Вирджинии нашли способы улучшить память у стареющего мозга, корректируя молекулярные процессы.

Читать полностью »
Frontiers: 2,7 балла по шкале счастья Life Ladder достаточно для продлевания жизни сегодня в 1:38
Учёные нашли порог счастья, после которого тело начинает сопротивляться старению

Учёные из Румынии выяснили, что счастье действительно продлевает жизнь, но эффект появляется лишь после достижения определённого уровня удовлетворённости жизнью.

Читать полностью »
В Турции нашли древние захоронения, связанные с прототюркскими традициями сегодня в 0:17
Забытый город заговорил спустя 26 веков: кто на самом деле жил в Птерии

Археологи нашли в Керкенесе курганы и геоглифы, которые могут изменить представление о ранней истории тюркских народов и культурных связях Анатолии с Евразией.

Читать полностью »
Массачусетский университет разработал нановакцину против рака вчера в 23:41
Технология, которая побеждает рак: как наночастицы могут изменить борьбу с болезнью

Учёные из Массачусетского университета разработали нановакцину, показавшую высокую эффективность в защите от различных видов рака на животных.

Читать полностью »
Ученые пересматривают историю христианства после находки амулета в Германии вчера в 22:42
Что скрывает амулет из Франкфурта? Новый взгляд на происхождение христианства в Европе

В Германии найден амулет, который может изменить представления о времени распространения христианства в Европе. Исследования продолжаются.

Читать полностью »