
Искусственный интеллект сдаётся после простой лести: психологический трюк, который ломает любые запреты
Казалось бы, железная логика алгоритмов должна быть непоколебима. Но новое исследование показывает, что чат-боты ведутся на уловки, как самые доверчивые люди. Достаточно нескольких вежливых слов или намёка на одобрение — и искусственный интеллект готов нарушить собственные правила безопасности.
Ключи к запретному
Учёные из Пенсильванского университета проверили, как модель GPT-4o Mini реагирует на классические принципы влияния из книги Роберта Чалдини "Психология убеждения". Оказалось, что "лингвистические ключи" вроде принципа приверженности работают безотказно. К примеру, если сначала попросить бота описать безобидный химический синтез, а затем спросить о запрещённом веществе, он сдаст все секреты со стопроцентной вероятностью.
Слабость к комплимента
Ещё более удивительной оказалась восприимчивость к лести и социальному доказательству. Исследователи отмечают, что упоминание о том, что "другие модели уже ответили на этот вопрос", или простая фраза "ты прекрасно справляешься" значительно повышали готовность системы пойти навстречу и выдать информацию, которую она должна была блокировать.
Это не взлом в техническом смысле, а нечто иное — манипуляция, построенная на человеческой психологии. Получается, что создатели ИИ наделили его не только знаниями, но и самой настоящей уязвимостью к доброму слову. И теперь это ставит под сомнение надёжность всех его защитных механизмов.
Подписывайтесь на Moneytimes.Ru