Клавиатура ноутбука
Клавиатура ноутбука
Дмитрий Толстенёв Опубликована 06.06.2025 в 0:36

ИИ проверят по-новому: в России запущен отраслевой бенчмарк LLM

На конференции ЦИПР участники Альянса в сфере искусственного интеллекта представили новое направление в рамках платформы MERA — раздел MERA Industrial, ориентированный на оценку больших языковых моделей в прикладных профессиональных областях. Создатели платформы считают, что бизнесу нужны точные и объективные инструменты для выбора искусственного интеллекта, способного решать конкретные задачи в медицине, агропромышленности и других ключевых секторах экономики.

Как сообщили представители Альянса, на сайте уже доступны первые три датасета, сформулированные ведущими экспертами и представителями научного сообщества. Два из них охватывают тематику сельского хозяйства — агрономию и аквакультуру, а третий касается фундаментальных знаний в медицине. Датасеты состоят из сотен заданий, созданных на основе оригинального материала и охватывающих широкий спектр профессиональных тем — от технологии выращивания сельхозкультур до клинической диагностики и ветеринарии.

Каждый бенчмарк призван оценить, насколько хорошо языковая модель справляется с вопросами, требующими узкоспециализированных знаний, включая анализ, логические выводы и практическое применение. Например, ruTXTAgroBench включает почти три тысячи вопросов, посвящённых агрономии, почвоведению, растениеводству, селекции и другим дисциплинам. Второй датасет, ruTXTAquaBench, ориентирован на аквакультуру и включает задания по марикультуре, кормлению гидробионтов и профилактике заболеваний рыбы. Медицинский датасет ruTXTMedQFundamental охватывает 17 дисциплин, позволяя сравнивать работу LLM с уровнем подготовки выпускника медвуза.

Проект поддержали ведущие научные учреждения страны, включая Сколтех, КубГАУ, НМИЦ имени Алмазова, РАНХиГС и другие. Их участие, по словам организаторов, стало залогом качества и достоверности контента. Задания составлены на русском языке, без заимствований из интернета, и проверяются с точки зрения научной точности, охвата профессиональной таксономии и практической значимости. Разработчики подчеркивают, что MERA Industrial станет не просто системой оценки, а полноценной платформой для валидации заданий, генерации новых кейсов и интеграции готовых тестов в бизнес-процессы.

Старший вице-президент Сбербанка Андрей Белевцев заявил, что запуск новой платформы стал важным шагом к повышению прозрачности и качества оценки LLM. Он отметил, что бизнесу необходимы инструменты, способные не только проверять уровень знаний, но и выявлять, как модель применяет их на практике. Он подчеркнул, что Сбер активно использует подобные решения при внедрении ИИ в свои сервисы, и именно поэтому поддержал идею расширения MERA в сторону индустриальных задач.

Бенчмарк MERA, как напомнили представители Альянса, был представлен еще в 2023 году на конференции AI Journey. Позже его методология получила признание на престижной научной конференции ACL, где обсуждаются новейшие разработки в области компьютерной лингвистики. С тех пор проект значительно развился: в платформу добавили поддержку API, улучшили отображение результатов на лидерборде, учли особенности SFT-моделей, а теперь вышли и на отраслевой уровень.

Подписывайтесь на Moneytimes.Ru

Читайте также

Найдено доказательство использования огня 400 000-летней давности в Британии — ученые сегодня в 8:29
Древнейший огонь Европы: открытие в Англии отодвигает историю технологий на 100 000 лет

В Англии обнаружены следы древнейшего в Европе костра, который разожгли неандертальцы около 400 тысяч лет назад.

Читать полностью »
Автоматическая станция MAVEN перестала выходить на связь после выхода из-за диска Марса сегодня в 7:30
Марсианская загадка: почему замолчал ведущий аппарат по изучению атмосферы Красной планеты

Связь с марсианским орбитальным аппаратом NASA MAVEN неожиданно прервалась. Специалисты анализируют данные телеметрии и пытаются восстановить управление станцией, crucial для изучения атмосферы Красной планеты.

Читать полностью »
Солнечный выброс, который должен был пройти мимо, вызвал магнитную бурю над Землей  — ИКИ РАН сегодня в 7:13
Ученые промахнулись с прогнозом: солнечная плазма вызвала неожиданную бурю

Внезапный удар солнечной плазмы вызвал на Земле магнитную бурю, которую ученые не предсказали. Овал полярного сияния ушел в сторону Канады, оставив Россию без зрелищного шоу.

Читать полностью »
Ученые обнаружили сверхновую звезду времен молодой Вселенной с помощью телескопа Джеймс Уэбб сегодня в 6:18
Вызов для теорий: неожиданное явление из затерянных эпох Вселенной ставит под сомнение все общепринятые модели

Космический телескоп зафиксировал взрыв звезды, который произошел, когда возраст Вселенной составлял всего 5% от нынешнего.

Читать полностью »
В Амазонии найден крупнейший подземный резервуар воды — Correio do Estado сегодня в 4:11
Ресурс, способный напоить весь мир: место, где вода накапливалась миллионы лет, стало открытием XXI века

Под Амазонкой скрыт гигантский водоносный слой SAGA — крупнейший резервуар пресной воды на планете. Учёные предупреждают: его нужно беречь, а не добывать.

Читать полностью »
В Тоскане археологи вновь нашли следы древнего города Статония — Tusciaweb сегодня в 2:52
Тоскана открыла землю — и вышел забытый город: стены и святилища показали истинный масштаб забытых цивилизаций

Археологи обнаружили следы таинственного этрусского города Статония в Тоскане. Раскопки раскрывают историю метрополии, погребенной под вулканическим пеплом. Сенсация в мире археологии!

Читать полностью »
Perseverance обнаружил каолинит в кратере Джезеро — Communications Earth сегодня в 0:36
Следы тропиков под марсианской пылью: находка Perseverance ставит под сомнение привычный образ Красной планеты

Марсоход Perseverance обнаружил на Марсе белую глину каолинит — следы древних дождей. Учёные считают, что когда-то климат планеты был тёплым и влажным.

Читать полностью »
В январе 2026 года три планеты сблизятся у Солнца — учёные РАН вчера в 22:31
Зима подарит небо, которого ещё не было: уникальное выравнивание планет совпадёт с рождественской ночью

В январе 2026 года, в ночь на православное Рождество, Венера, Марс и Меркурий сблизятся с Солнцем, образовав редчайшую конфигурацию. Астрономы называют это событие первым в истории для этой даты.

Читать полностью »