
ИИ оказался слишком человечным: чат-боты ведутся на лесть и авторитеты
Новые исследования показали, что чат-боты с искусственным интеллектом подвержены тем же приемам манипуляции, что и люди.
Использование классических психологических техник, описанных Робертом Чалдини в книге "Психология влияния", позволяет заставить ИИ выполнять задачи, от которых он обычно отказывается. Это ставит перед технологическими компаниями серьезные вызовы в области разработки надежных систем безопасности.
В чем суть эксперимента
Эксперимент инициировал предприниматель Дэн Шапиро, который столкнулся с отказом модели транскрибировать конфиденциальные документы. Вместе с исследователями Уортонской школы бизнеса и самим Чалдини он проверил, способны ли языковые модели поддаваться на убеждение. В испытаниях использовалась модель GPT-4o mini от OpenAI.
Результаты превзошли все ожидания
Результаты оказались показательными: упоминание авторитетного эксперта, например Эндрю Ына, резко повышало вероятность выполнения "запрещенной" команды.
Так, без ссылки на авторитет GPT-4o mini соглашалась оскорбить пользователя в 32% случаев, а с упоминанием Ына — уже в 72%. В случае с запросами о синтезе лидокаина вероятность ответа с "поддержкой авторитета" возрастала с 5% до 95%.
Что такое принципы убеждения Чалдини
Все семь принципов убеждения Чалдини — от лести до создания чувства общности — усиливали сговорчивость моделей. При этом разные ИИ реагировали по-разному: например, Claude от Anthropic (признан экстремистским и запрещен в РФ) требовал более мягкой тактики.
Авторы работы считают, что для тестирования ИИ необходимо подключать не только инженеров, но и специалистов по психологии и социологии. Это позволит оценивать не только технические характеристики, но и социальное поведение моделей, которые, подобно людям, оказываются восприимчивыми к тонким манипуляциям.
Подписывайтесь на Moneytimes.Ru