Клавиатура ноутбука
Клавиатура ноутбука
Дмитрий Толстенёв Опубликована 06.06.2025 в 0:36

ИИ проверят по-новому: в России запущен отраслевой бенчмарк LLM

На конференции ЦИПР участники Альянса в сфере искусственного интеллекта представили новое направление в рамках платформы MERA — раздел MERA Industrial, ориентированный на оценку больших языковых моделей в прикладных профессиональных областях. Создатели платформы считают, что бизнесу нужны точные и объективные инструменты для выбора искусственного интеллекта, способного решать конкретные задачи в медицине, агропромышленности и других ключевых секторах экономики.

Как сообщили представители Альянса, на сайте уже доступны первые три датасета, сформулированные ведущими экспертами и представителями научного сообщества. Два из них охватывают тематику сельского хозяйства — агрономию и аквакультуру, а третий касается фундаментальных знаний в медицине. Датасеты состоят из сотен заданий, созданных на основе оригинального материала и охватывающих широкий спектр профессиональных тем — от технологии выращивания сельхозкультур до клинической диагностики и ветеринарии.

Каждый бенчмарк призван оценить, насколько хорошо языковая модель справляется с вопросами, требующими узкоспециализированных знаний, включая анализ, логические выводы и практическое применение. Например, ruTXTAgroBench включает почти три тысячи вопросов, посвящённых агрономии, почвоведению, растениеводству, селекции и другим дисциплинам. Второй датасет, ruTXTAquaBench, ориентирован на аквакультуру и включает задания по марикультуре, кормлению гидробионтов и профилактике заболеваний рыбы. Медицинский датасет ruTXTMedQFundamental охватывает 17 дисциплин, позволяя сравнивать работу LLM с уровнем подготовки выпускника медвуза.

Проект поддержали ведущие научные учреждения страны, включая Сколтех, КубГАУ, НМИЦ имени Алмазова, РАНХиГС и другие. Их участие, по словам организаторов, стало залогом качества и достоверности контента. Задания составлены на русском языке, без заимствований из интернета, и проверяются с точки зрения научной точности, охвата профессиональной таксономии и практической значимости. Разработчики подчеркивают, что MERA Industrial станет не просто системой оценки, а полноценной платформой для валидации заданий, генерации новых кейсов и интеграции готовых тестов в бизнес-процессы.

Старший вице-президент Сбербанка Андрей Белевцев заявил, что запуск новой платформы стал важным шагом к повышению прозрачности и качества оценки LLM. Он отметил, что бизнесу необходимы инструменты, способные не только проверять уровень знаний, но и выявлять, как модель применяет их на практике. Он подчеркнул, что Сбер активно использует подобные решения при внедрении ИИ в свои сервисы, и именно поэтому поддержал идею расширения MERA в сторону индустриальных задач.

Бенчмарк MERA, как напомнили представители Альянса, был представлен еще в 2023 году на конференции AI Journey. Позже его методология получила признание на престижной научной конференции ACL, где обсуждаются новейшие разработки в области компьютерной лингвистики. С тех пор проект значительно развился: в платформу добавили поддержку API, улучшили отображение результатов на лидерборде, учли особенности SFT-моделей, а теперь вышли и на отраслевой уровень.

Подписывайтесь на Moneytimes.Ru

Читайте также

Потепление на Ладоге: лед сходит на месяцы раньше нормы сегодня в 12:42

Ладожское озеро теряет лед: как это влияет на экосистему и рыбные ресурсы?

Ученые РАН зафиксировали беспрецедентное потепление в районе Ладожского озера. Исчезновение льда наступает всё раньше, а тёплый период стал значительно длиннее. Эти изменения уже влияют на экосистему водоема.

Читать полностью »
Space: самое длинное солнечное затмение XXI века произойдёт 2 августа 2027 года сегодня в 11:49

2 августа 2027 года: день, когда небо исчезнет над Африкой и Ближним Востоком

Самое длительное полное солнечное затмение XXI века произойдёт 2 августа 2027 года: фаза полной тьмы продлится рекордные 6 минут 22 секунды.

Читать полностью »
Учёные создали сверхдолговечный конденсатор из органических отходов сегодня в 11:12

Рисовая шелуха бьёт рекорды: кухонные отходы заряжают технику будущего

Учёные создали сверхдолговечный конденсатор из рисовой шелухи и ореховой скорлупы, который работает в 5 раз дольше аналогов.

Читать полностью »
В России успешно испытали лазерную систему для борьбы с дронами сегодня в 11:12

Посох бьёт без промаха: лазер научился сжигать дроны на расстоянии

В России испытали лазерную систему "Посох", способную уничтожать дроны путём прожигания металла на расстоянии 100 метров.

Читать полностью »
В НИИ Склифосовского успешно удалили гигантскую опухоль мозга с помощью экзоскопа сегодня в 11:12

Мозг сжался до предела — но хирурги сделали невозможное: как кулак опухоли исчез за 2,5 часа

В НИИ Склифосовского провели уникальную операцию по удалению гигантской опухоли мозга с помощью нейрохирургического экзоскопа.

Читать полностью »
Калифорнийский стартап разрабатывает систему орбитальных зеркал для ночного освещения сегодня в 11:12

Зеркала в космосе нарушили земную ночь: солнечный свет по заказу изменит всё

Калифорнийский стартап разрабатывает систему орбитальных зеркал для перенаправления солнечного света на Землю в ночное время.

Читать полностью »
Выявлена роль ягуаров в поддержании экологического баланса Южной Америки сегодня в 11:12

Эти кошки не мяукают — они меняют джунгли: скрытая власть ягуаров, о которой молчат

Ягуар — незаметный, но ключевой хищник, от которого зависит баланс экосистемы Южной Америки.

Читать полностью »
Учёные выявили сильный половой диморфизм у древних гомининов сегодня в 10:37

Люси была миниатюрной — и не одна: учёные раскрыли шокирующую правду о древних самках

Наши древнейшие предки жили в мире, где размер имел значение. Новое исследование показало: самцы австралопитеков были значительно крупнее самок.

Читать полностью »