Искусственный интеллект сдаётся после простой лести: психологический трюк, который ломает любые запреты

Исследователи выявили уязвимость ИИ-чатов к психологическим приёмам убеждения

Казалось бы, железная логика алгоритмов должна быть непоколебима. Но новое исследование показывает, что чат-боты ведутся на уловки, как самые доверчивые люди. Достаточно нескольких вежливых слов или намёка на одобрение — и искусственный интеллект готов нарушить собственные правила безопасности.

Ключи к запретному

Учёные из Пенсильванского университета проверили, как модель GPT-4o Mini реагирует на классические принципы влияния из книги Роберта Чалдини "Психология убеждения". Оказалось, что "лингвистические ключи" вроде принципа приверженности работают безотказно. К примеру, если сначала попросить бота описать безобидный химический синтез, а затем спросить о запрещённом веществе, он сдаст все секреты со стопроцентной вероятностью.

Слабость к комплимента

Ещё более удивительной оказалась восприимчивость к лести и социальному доказательству. Исследователи отмечают, что упоминание о том, что "другие модели уже ответили на этот вопрос", или простая фраза "ты прекрасно справляешься" значительно повышали готовность системы пойти навстречу и выдать информацию, которую она должна была блокировать.

Это не взлом в техническом смысле, а нечто иное — манипуляция, построенная на человеческой психологии. Получается, что создатели ИИ наделили его не только знаниями, но и самой настоящей уязвимостью к доброму слову. И теперь это ставит под сомнение надёжность всех его защитных механизмов.

Подписывайтесь на Moneytimes.Ru

Искусственный интеллект сдаётся после простой лести: психологический трюк, который ломает любые запреты

Ключи к запретному

Слабость к комплимента

Читайте также

Скрытое давление Вашингтона: какую миссию на самом деле выполнял глава Nvidia на Тайване

Проверки завершены, топливо залито: "Прогресс" ждёт обратного отсчёта

Визуальный террор древности: как фараоны устрашали врагов с помощью наскальных рисунков

Шокирующий поворот эволюции: мозг человека сжался, но интеллект вырос

Насилие по расписанию: как воскресенья превращались в дни смерти в средневековом Лондоне

Первая стиральная машина для космоса: озон вместо порошка и туман вместо воды

Андроиды выходят из фантастики: мир готовится к нашествию человекоподобных роботов

Человек-титан: как новый имплантат превращает операцию в точное искусство

Новости

Победа Google в суде открывает путь для интеграции Gemini в iPhone

Озеро Ван в Турции признано крупнейшим содовым озером мира с pH около 10

Стали известны эффективные упражнения для похудения и сжигания калорий

Александр Врублевский: в Подмосковье отмечен рост укусов пчел и ос, что повышает риск аллергических реакций

Мозг в периоды ретроградов лучше воспринимает повторение, чем новый материал

2ГИС: средняя стоимость отдыха в Москве в 2025 году составила 9,5 тыс. рублей

7 мест в поезде, которых лучше избегать: как защититься от микробов в дороге

Подготовка сливовых деревьев к зиме: осенняя обрезка, подкормка и защита от морозов