Клавиатура ноутбука
Клавиатура ноутбука
Дмитрий Толстенёв Опубликована вчера в 0:36

ИИ проверят по-новому: в России запущен отраслевой бенчмарк LLM

На конференции ЦИПР участники Альянса в сфере искусственного интеллекта представили новое направление в рамках платформы MERA — раздел MERA Industrial, ориентированный на оценку больших языковых моделей в прикладных профессиональных областях. Создатели платформы считают, что бизнесу нужны точные и объективные инструменты для выбора искусственного интеллекта, способного решать конкретные задачи в медицине, агропромышленности и других ключевых секторах экономики.

Как сообщили представители Альянса, на сайте уже доступны первые три датасета, сформулированные ведущими экспертами и представителями научного сообщества. Два из них охватывают тематику сельского хозяйства — агрономию и аквакультуру, а третий касается фундаментальных знаний в медицине. Датасеты состоят из сотен заданий, созданных на основе оригинального материала и охватывающих широкий спектр профессиональных тем — от технологии выращивания сельхозкультур до клинической диагностики и ветеринарии.

Каждый бенчмарк призван оценить, насколько хорошо языковая модель справляется с вопросами, требующими узкоспециализированных знаний, включая анализ, логические выводы и практическое применение. Например, ruTXTAgroBench включает почти три тысячи вопросов, посвящённых агрономии, почвоведению, растениеводству, селекции и другим дисциплинам. Второй датасет, ruTXTAquaBench, ориентирован на аквакультуру и включает задания по марикультуре, кормлению гидробионтов и профилактике заболеваний рыбы. Медицинский датасет ruTXTMedQFundamental охватывает 17 дисциплин, позволяя сравнивать работу LLM с уровнем подготовки выпускника медвуза.

Проект поддержали ведущие научные учреждения страны, включая Сколтех, КубГАУ, НМИЦ имени Алмазова, РАНХиГС и другие. Их участие, по словам организаторов, стало залогом качества и достоверности контента. Задания составлены на русском языке, без заимствований из интернета, и проверяются с точки зрения научной точности, охвата профессиональной таксономии и практической значимости. Разработчики подчеркивают, что MERA Industrial станет не просто системой оценки, а полноценной платформой для валидации заданий, генерации новых кейсов и интеграции готовых тестов в бизнес-процессы.

Старший вице-президент Сбербанка Андрей Белевцев заявил, что запуск новой платформы стал важным шагом к повышению прозрачности и качества оценки LLM. Он отметил, что бизнесу необходимы инструменты, способные не только проверять уровень знаний, но и выявлять, как модель применяет их на практике. Он подчеркнул, что Сбер активно использует подобные решения при внедрении ИИ в свои сервисы, и именно поэтому поддержал идею расширения MERA в сторону индустриальных задач.

Бенчмарк MERA, как напомнили представители Альянса, был представлен еще в 2023 году на конференции AI Journey. Позже его методология получила признание на престижной научной конференции ACL, где обсуждаются новейшие разработки в области компьютерной лингвистики. С тех пор проект значительно развился: в платформу добавили поддержку API, улучшили отображение результатов на лидерборде, учли особенности SFT-моделей, а теперь вышли и на отраслевой уровень.

Подписывайтесь на Moneytimes.Ru

Читайте также

Ученые раскрыли тайны древних жителей Новой Гвинеи и их генетические связи сегодня в 8:08

Археологи и генетики раскрыли сложную генетическую структуру древних поселенцев Новой Гвинеи, показав позднее смешение с восточноазиатскими группами и новые данные о рационе прибрежных жителей.

Читать полностью »
Тайна Гималаев во Вселенной: обнаружена самая плотная цепочка квазаров сегодня в 7:14

Команда астрономов обнаружила уникальную структуру из одиннадцати квазаров, сконцентрированных в необычно плотной и вытянутой области космоса - "Космических Гималаях".

Читать полностью »
Российские ученые создали уникальный алгоритм для защиты зданий от сейсмов на Крайнем Севере сегодня в 7:07

Российские учёные разработали уникальный алгоритм для точного моделирования поведения зданий на свайных фундаментах в условиях Крайнего Севера при землетрясениях, что повысит безопасность и снизит финансовые риски.

Читать полностью »
Население Земли может быть на миллиарды больше официальных данных — ученые предупреждают сегодня в 7:06

Ученые предупреждают, что реальное население Земли может быть на миллиарды больше официальных данных из-за заниженного учета в сельских районах, что меняет представление о демографической ситуации и вызовах планеты.

Читать полностью »
Ученые бьют тревогу: скрытая болезнь печени угрожает миллионам, нужна срочная диагностика сегодня в 7:05

Эксперты призвали удвоить диагностику метаболически-ассоциированного стеатогепатита к 2027 году, подчеркивая важность раннего выявления и профилактики скрытой болезни печени.

Читать полностью »
Новое исследование доказывает: низкожировая диета снижает риск рака поджелудочной сегодня в 7:03

Исследование показало, что переход с высокожировой диеты на низкожировую у мышей снижает риск предраковых изменений поджелудочной железы, указывая на потенциал питания в профилактике рака.

Читать полностью »
Ученые из Цюриха раскрыли тайну глубин Земли — твердое течение под корой планеты сегодня в 7:02

Геофизики из Цюриха доказали существование горизонтального течения твердых пород в зоне D между мантией и ядром Земли, что меняет представления о внутреннем устройстве планеты и ее динамике.

Читать полностью »
Три загадочных сельдяных короля выбросило на берег — предвестники катастрофы или совпадение сегодня в 7:01

В Австралии и Новой Зеландии за неделю нашли трех редких сельдяных королей, считавшихся предвестниками катастроф, что вызвало новый виток обсуждений о связи между появлением этих рыб и природными бедствиями.

Читать полностью »
// Google Analytics