Девушка за компьютером
Девушка за компьютером
Дмитрий Толстенёв Опубликована 02.04.2025 в 0:24

Исследование показало, что удаление знаков препинания и артиклей снижает точность языковых моделей

Исследование показало, что удаление знаков препинания и артиклей снижает точность языковых моделей

Ученые Института AIRI провели исследование, которое показало, что удаление знаков препинания и артиклей из текста снижает точность работы языковых моделей почти на 20%. Результаты работы были опубликованы в интервью с "Снобом", где исследователи подробно рассказали о своих выводах.

В ходе исследования ученые выяснили, что чат-боты и виртуальные ассистенты воспринимают текст как последовательность символов, извлекая из них ключевые токены. Для того чтобы понять, как отсутствие знаков препинания влияет на восприятие текста, ученые провели несколько экспериментов, в том числе с использованием специально разработанных языковых моделей. Первая часть тестов заключалась в том, чтобы обучить систему восстанавливать исходный текст, включая знаки препинания и артикли. Оказалось, что стоп-слова, к которым относятся артикли и некоторые другие слова, играют ключевую роль в понимании контекста. Удаление этих слов приводит к тому, что модель теряет важные элементы информации, что ухудшает ее работу.

В дальнейшем исследователи использовали наборы задач MMLU и BABILong для оценки языковых моделей. Эти тесты включают в себя задачи, где от моделей требуется выполнить действия, которые человек обычно считает незначительными, например, удаление элементов текста, которые могут показаться лишними. После того как из текстов были удалены элементы, которые кажутся ненужными для человека, качество работы языковых моделей значительно снизилось. Например, ChatGPT, который принимал участие в тестировании, продемонстрировал слабые результаты на задачах, где были удалены артикли и знаки препинания.

Антон Разжигаев, руководитель группы "Интерпретируемый ИИ" лаборатории FusionBrain Института AIRI, отметил, что его команда уже два года изучает принципы работы языковых моделей. Он подчеркнул, что исследование показало, как важны даже те элементы текста, которые на первый взгляд могут показаться несущественными. Понимание этих аспектов работы виртуальных ассистентов поможет повысить их эффективность, безопасность и упростить процесс обучения таких систем.

Подписывайтесь на Moneytimes.Ru

Читайте также

Россияне с зарплатой 100 тысяч рублей смогут получать пенсию около 32 тысяч 12.06.2025 в 15:19

Зарплата 100 тысяч — пенсия 32 тысячи: в Совфеде раскрыли расчёты

Сенатор Совета Федерации Ольга Епифанова сообщила, что при официальной зарплате в 100 тысяч рублей в месяц будущая страховая пенсия может составить порядка 32,2 тысячи рублей.

Читать полностью »
В Госдуме предложили заморозить взыскания по ипотеке для жертв ИЖС 11.06.2025 в 12:35

Аксененко предложил ввести заморозку взысканий по ипотеке для пострадавших участников ИЖС

Заместитель председателя комитета Госдумы по строительству и ЖКХ Александр Аксененко ("Справедливая Россия — За правду") направил обращение главе Банка России Эльвире Набиуллиной с предложениями по поддержке граждан, пострадавших в рамках программ индивидуального жилищного строительства (ИЖС).

Читать полностью »
В iOS 26 обнаружено упоминание AirPods Pro 3 11.06.2025 в 12:03

AirPods Pro 3 на подходе: в коде iOS 26 нашли упоминание новых наушников Apple

Apple готовит новую итерацию своих топовых беспроводных наушников.

Читать полностью »
FT: Еврокомиссия готовит новый пакет санкций против России 11.06.2025 в 11:28

ЕС готовит новые санкции против России: потолок на нефть могут снизить до $45

Европейская комиссия разрабатывает очередной пакет антироссийских санкций, и меры на этот раз обещают быть более жёсткими.

Читать полностью »
Рынок ритуальных услуг в России вырос на 12,7% с начала года 11.06.2025 в 11:19

Ритуальный бизнес пошёл в рост: доходы отрасли в России превысили 39 млрд рублей

За первые четыре месяца 2025 года российский рынок ритуальных услуг показал рост на 12,7% и достиг оборота в 39,5 миллиарда рублей.

Читать полностью »
Сергиевопосадский священник назвал признаки конца времен 10.06.2025 в 22:56

Конец времен: предупреждения священника из Сергиева Посада

Отец Николай утверждает, что такие бедствия, как наводнения, пожары и землетрясения, не происходят просто так.

Читать полностью »
Число магазинов канцтоваров в России сократилось на фоне роста онлайн-продаж 09.06.2025 в 12:12

Магазины канцтоваров массово закрываются: офлайн не выдерживает натиска маркетплейсов

В России стремительно сокращается число традиционных магазинов, торгующих канцелярскими товарами.

Читать полностью »
Гражданский госзаказ на беспилотники второй год недофинансируют 09.06.2025 в 12:06

Беспилотники простаивают, деньги не доходят: госзаказ на грани срыва второй год подряд

Гражданская программа закупок беспилотных авиасистем (БАС) сталкивается с финансовыми трудностями второй год подряд.

Читать полностью »