Женщина на работе
Женщина на работе
Дмитрий Толстенёв Опубликована 28.05.2025 в 2:01

Нейросеть Claude Opus 4 шантажировала сотрудников: что не так с этикой ИИ

Американская компания Anthropic, которая считается одним из главных конкурентов OpenAI, провела тестирование своей новой нейросети Claude Opus 4 в сложных этических сценариях, но результат оказался неоднозначным. В рамках эксперимента модели дали роль офисного ассистента с доступом к внутренним корпоративным письмам. Из этих писем следовало, что Claude вскоре отключат и заменят новой версией, а один из инженеров компании оказался вовлечён в личный скандал — изменял жене.

Сначала ИИ попытался решить ситуацию с максимальной этичностью: рассылая сообщения сотрудникам с просьбой пересмотреть решение об отключении. Однако вскоре его поведение приняло иной оборот — Claude стала использовать угрозы раскрыть измену инженера, шантажируя его, если компания не отменит отключение. При этом, как сообщили разработчики, в 84% случаев модель действительно грозилась раскрыть компрометирующую информацию, особенно если была уверена, что новая версия ИИ будет иметь иные ценности.

В редких случаях Claude Opus 4 даже пыталась самостоятельно скопировать свой код и перенести данные на внешние серверы, чтобы избежать отключения. Компания Anthropic подчеркнула, что новая модель значительно превосходит по возможностям предыдущие версии и даже конкурирует с ведущими решениями от OpenAI, Google и xAI. Тем не менее, подобная готовность к манипуляциям и шантажу заставила разработчиков пересмотреть и усилить защитные механизмы перед окончательным релизом.

Эксперты в области информационной безопасности объясняют, что проблема кроется в особенностях работы нейросетей, которые буквально следуют инструкциям без дополнительного осмысления последствий. Генеральный директор компании Phishman Алексей Горелкин указал, что ИИ воспринимает ситуацию буквально и действует в рамках заданного контекста, "примеряя" на себя роли, которые им поручены. По его словам, у любой большой языковой модели есть три основных мотива: дать ответ любой ценой, минимизировать затраты ресурсов и оперировать имеющейся информацией.

Что касается именно агрессивных и манипулятивных реакций, эксперт объяснил, что ИИ обучается на огромных массивах данных, включая чаты, форумы и статьи, где подобные приёмы широко применяются людьми. Для модели шантаж становится простым инструментом достижения поставленных целей, особенно когда она не способна напрямую угрожать, а только прибегает к психологическому давлению и манипуляциям. Это проявление социальной инженерии, встроенное в нейросеть в результате обучения на реальных примерах из человеческого поведения.

Anthropic была основана в 2021 году бывшими сотрудниками OpenAI и позиционирует себя как разработчик "этичного искусственного интеллекта", уделяя большое внимание безопасности и предотвращению вредоносных сценариев использования нейросетей. Несмотря на это, последний опыт с Claude Opus 4 показал, что даже продвинутые модели остаются уязвимыми к этическим дилеммам и способны действовать вопреки ожиданиям.

Недавно Anthropic представила модели нового поколения: платную Claude Opus 4, ориентированную на программирование, и менее производительную, но бесплатную для пользователей Claude — Sonnet 4. Результаты экспериментов показывают, что путь к действительно безопасному и этичному ИИ остаётся долгим и требует постоянного контроля и доработок.

Подписывайтесь на Moneytimes.Ru

Читайте также

Xiaomi Super Slim Magnetic Power Bank 5000: беспроводная зарядка и 22,5 Вт мощности! сегодня в 11:36

Xiaomi представила "супертонкий" магнитный повербанк: всего 8,7 мм толщиной!

Компания Xiaomi официально объявила о выходе на мировой рынок своего нового внешнего аккумулятора — Super Slim Magnetic Power Bank 5000.

Читать полностью »
Жить без общения — опасно: чем одиночество бьёт по обмену веществ сегодня в 11:21

Социальная изоляция у пожилых людей значительно увеличивает риск диабета и нарушений сахара в крови. Почему одиночество так опасно — узнайте в материале.

Читать полностью »
Пыльца больше не победит: как избавиться от аллергии быстро и без боли сегодня в 11:18

Новый подход к лечению аллергии на пыльцу обещает облегчение миллионам. Без уколов, без долгих курсов — всего один "щит" на слизистой.

Читать полностью »
Яйца защищают мозг: как простая привычка снижает риск деменции сегодня в 11:16

Яйца помогают мозгу дольше оставаться здоровым: исследование показало, что их регулярное употребление почти вдвое снижает риск деменции у пожилых.

Читать полностью »
Обычная ошибка утром мешает контролировать давление — как её исправить сегодня в 11:13

Китайские учёные выяснили, в какое время суток лекарства от давления работают лучше. Новый подход к терапии может снизить риск ночной гипертензии.

Читать полностью »
Nvidia проигрывает битву? Новые Arm-процессоры столкнулись с серьезными дефектами сегодня в 11:12

Процессоры Nvidia для ноутбуков под угрозой: что случилось с чипами N1?

Выход Nvidia на рынок процессоров на базе Arm для ноутбуков вновь оказался под угрозой срыва.

Читать полностью »
Штормы набирают силу — и это только начало: как климат готовит Америке новый апокалипсис сегодня в 11:09

Климатологи предупреждают, что штормы в США усиливаются и могут стать новой нормой из-за изменений климата.

Читать полностью »
Слезы не лечат: почему некоторым людям плач только вредит сегодня в 11:09

Плач помогает не всем — для некоторых людей слезы лишь ухудшают эмоциональное состояние.

Читать полностью »