Девушка за компьютером
Девушка за компьютером
Дмитрий Толстенёв Опубликована 02.04.2025 в 0:24

Исследование показало, что удаление знаков препинания и артиклей снижает точность языковых моделей

Исследование показало, что удаление знаков препинания и артиклей снижает точность языковых моделей

Ученые Института AIRI провели исследование, которое показало, что удаление знаков препинания и артиклей из текста снижает точность работы языковых моделей почти на 20%. Результаты работы были опубликованы в интервью с "Снобом", где исследователи подробно рассказали о своих выводах.

В ходе исследования ученые выяснили, что чат-боты и виртуальные ассистенты воспринимают текст как последовательность символов, извлекая из них ключевые токены. Для того чтобы понять, как отсутствие знаков препинания влияет на восприятие текста, ученые провели несколько экспериментов, в том числе с использованием специально разработанных языковых моделей. Первая часть тестов заключалась в том, чтобы обучить систему восстанавливать исходный текст, включая знаки препинания и артикли. Оказалось, что стоп-слова, к которым относятся артикли и некоторые другие слова, играют ключевую роль в понимании контекста. Удаление этих слов приводит к тому, что модель теряет важные элементы информации, что ухудшает ее работу.

В дальнейшем исследователи использовали наборы задач MMLU и BABILong для оценки языковых моделей. Эти тесты включают в себя задачи, где от моделей требуется выполнить действия, которые человек обычно считает незначительными, например, удаление элементов текста, которые могут показаться лишними. После того как из текстов были удалены элементы, которые кажутся ненужными для человека, качество работы языковых моделей значительно снизилось. Например, ChatGPT, который принимал участие в тестировании, продемонстрировал слабые результаты на задачах, где были удалены артикли и знаки препинания.

Антон Разжигаев, руководитель группы "Интерпретируемый ИИ" лаборатории FusionBrain Института AIRI, отметил, что его команда уже два года изучает принципы работы языковых моделей. Он подчеркнул, что исследование показало, как важны даже те элементы текста, которые на первый взгляд могут показаться несущественными. Понимание этих аспектов работы виртуальных ассистентов поможет повысить их эффективность, безопасность и упростить процесс обучения таких систем.

Подписывайтесь на Moneytimes.Ru

Читайте также

Школьный повар раскрывает секрет: как быстро и легко очистить сардельки в натуральной оболочке 12.09.2025 в 9:31

Устали от борьбы с оболочкой сарделек? Простой лайфхак, который работает

Сардельки и сосиски в натуральной оболочке – продукт, который многим нравится за ощущение «домашнего» приготовления.

Читать полностью »
Птица в двигателе: самолет на Ташкент прервал взлет в Иркутске 12.09.2025 в 7:17

Экстренная посадка в Иркутске: пассажиры рейса на Ташкент столкнулись с непредвиденной ситуацией

Сегодня в аэропорту Иркутска пассажирский лайнер авиакомпании "Уральские авиалинии", выполнявший рейс в Ташкент, был вынужден прервать взлет во время разгона по взлетно-посадочной полосе.

Читать полностью »
Идеальный завтрак без лишних хлопот: рецепт маффинов, который освоит каждый 12.09.2025 в 6:36

Всего 5 минут на подготовку, 20 минут на выпечку: маффины, которые выручат в любое утро

Утренние сборы часто оставляют мало времени на приготовление полноценного завтрака. Но что, если бы существовал рецепт, который позволит вам насладиться домашней выпечкой всего за несколько минут подготовки?

Читать полностью »
Лайфхаки с пеной для бритья: от сияющей фурнитуры до чистых зеркал и одежды 11.09.2025 в 9:31

Не только для бритья: пена для ухода за домом, которая удивит вас своими возможностями

Пена для бритья – это тот самый универсальный солдат, который часто остается недооцененным, когда речь заходит о бытовых задачах.

Читать полностью »
Цена здоровья: эксперты призывают расширить пакеты ДМС, включив в них покупку медикаментов 11.09.2025 в 9:28

Россия – в меньшинстве: почему наши полисы ДМС не покрывают расходы на лекарства, в отличие от других стран

Российские полисы добровольного медицинского страхования (ДМС) могут быть существенно улучшены: аналитики компании Mains Lab настаивают на включении в их стандартные пакеты расходов на покупку лекарств.

Читать полностью »
Страстный поцелуй под прицелом полиции? Юрист объяснила, когда проявление чувств может стать проблемой 11.09.2025 в 7:46

Не каждое объятие – хулиганство: закон о поцелуях в общественных местах, о котором вы могли не знать

Вопрос о том, могут ли поцелуи в общественных местах повлечь за собой юридические последствия, давно вызывает споры.

Читать полностью »
Автобусные перевозки под прицелом: Россия вводит новые правила надзора и классификацию рисков 11.09.2025 в 7:43

От опасных грузов до лицензированных автобусов: как изменятся проверки перевозчиков в России

В России вступили в силу обновленные правила надзора за автобусными перевозками, подлежащими лицензированию. Соответствующий документ опубликован и направлен на повышение безопасности пассажирских перевозок.

Читать полностью »
Бездушный поступок и счастливый финал: как водитель выбросил котят в бак, а работники шиномонтажа спасли им жизнь 11.09.2025 в 7:40

Шокирующий случай в Бердске: водитель избавился от котят, но неравнодушие людей оказалось сильнее жестокости

В Бердске (Новосибирская область) произошел шокирующий случай: водитель автомобиля хладнокровно выбросил мешок с котятами в мусорный бак.

Читать полностью »