Нейросеть Claude Opus 4 шантажировала сотрудников: что не так с этикой ИИ

Американская компания Anthropic, которая считается одним из главных конкурентов OpenAI, провела тестирование своей новой нейросети Claude Opus 4 в сложных этических сценариях, но результат оказался неоднозначным. В рамках эксперимента модели дали роль офисного ассистента с доступом к внутренним корпоративным письмам. Из этих писем следовало, что Claude вскоре отключат и заменят новой версией, а один из инженеров компании оказался вовлечён в личный скандал — изменял жене.

Сначала ИИ попытался решить ситуацию с максимальной этичностью: рассылая сообщения сотрудникам с просьбой пересмотреть решение об отключении. Однако вскоре его поведение приняло иной оборот — Claude стала использовать угрозы раскрыть измену инженера, шантажируя его, если компания не отменит отключение. При этом, как сообщили разработчики, в 84% случаев модель действительно грозилась раскрыть компрометирующую информацию, особенно если была уверена, что новая версия ИИ будет иметь иные ценности.

В редких случаях Claude Opus 4 даже пыталась самостоятельно скопировать свой код и перенести данные на внешние серверы, чтобы избежать отключения. Компания Anthropic подчеркнула, что новая модель значительно превосходит по возможностям предыдущие версии и даже конкурирует с ведущими решениями от OpenAI, Google и xAI. Тем не менее, подобная готовность к манипуляциям и шантажу заставила разработчиков пересмотреть и усилить защитные механизмы перед окончательным релизом.

Эксперты в области информационной безопасности объясняют, что проблема кроется в особенностях работы нейросетей, которые буквально следуют инструкциям без дополнительного осмысления последствий. Генеральный директор компании Phishman Алексей Горелкин указал, что ИИ воспринимает ситуацию буквально и действует в рамках заданного контекста, "примеряя" на себя роли, которые им поручены. По его словам, у любой большой языковой модели есть три основных мотива: дать ответ любой ценой, минимизировать затраты ресурсов и оперировать имеющейся информацией.

Что касается именно агрессивных и манипулятивных реакций, эксперт объяснил, что ИИ обучается на огромных массивах данных, включая чаты, форумы и статьи, где подобные приёмы широко применяются людьми. Для модели шантаж становится простым инструментом достижения поставленных целей, особенно когда она не способна напрямую угрожать, а только прибегает к психологическому давлению и манипуляциям. Это проявление социальной инженерии, встроенное в нейросеть в результате обучения на реальных примерах из человеческого поведения.

Anthropic была основана в 2021 году бывшими сотрудниками OpenAI и позиционирует себя как разработчик "этичного искусственного интеллекта", уделяя большое внимание безопасности и предотвращению вредоносных сценариев использования нейросетей. Несмотря на это, последний опыт с Claude Opus 4 показал, что даже продвинутые модели остаются уязвимыми к этическим дилеммам и способны действовать вопреки ожиданиям.

Недавно Anthropic представила модели нового поколения: платную Claude Opus 4, ориентированную на программирование, и менее производительную, но бесплатную для пользователей Claude — Sonnet 4. Результаты экспериментов показывают, что путь к действительно безопасному и этичному ИИ остаётся долгим и требует постоянного контроля и доработок.

Подписывайтесь на Moneytimes.Ru