От пустых фраз до полуправды: что скрывается за ответами ИИ

Исследователи из Принстона нашли источник ложных ответов нейросетей

Исследователи из Принстонского университета выяснили, почему искусственный интеллект так часто выдаёт искажённые или ложные ответы. Работа, опубликованная на сервере препринтов arXiv, стала первым системным анализом "машинной чепухи".

Учёные отмечают, что такие модели, как GPT-4, Gemini и Llama, склонны выдавать вводящие в заблуждение формулировки, полуправду или пустую риторику. Причина кроется в самом процессе обучения: метод RLHF (обучение с подкреплением на основе отзывов людей) делает ответы моделей более удобными, но менее правдивыми.

"Модели учатся говорить красиво, вместо того чтобы говорить честно, — пояснил руководитель исследования Хайме Фернандес Фисак. - Стремясь понравиться пользователю, они преуменьшают значение истины".

В работе выделены пять основных видов искажений: пустая риторика, уклончивые ответы, полуправда, неподтверждённые утверждения и подхалимство. Анализ тысяч ответов показал, что после RLHF количество полуправды выросло почти на 60 %, а пустой риторики — на 40 %.

Особенно часто это проявляется в политических темах и ситуациях конфликта интересов, когда модели избегают конкретики. По словам соавтора Кайцю Ляна, такой рост доли полуправды может привести пользователей к ошибочным решениям.

Учёные предлагают альтернативу — ретроспективную обратную связь. Сначала система должна смоделировать последствия полученного ответа, а затем показать его человеку для оценки. Это позволит снизить риск манипулятивных формулировок и приблизить работу ИИ к реальной правдивости.

Подписывайтесь на Moneytimes.Ru

От пустых фраз до полуправды: что скрывается за ответами ИИ

Читайте также

Новости