Женщина на работе
Женщина на работе
Дмитрий Толстенёв Опубликована 28.05.2025 в 2:01

Нейросеть Claude Opus 4 шантажировала сотрудников: что не так с этикой ИИ

Американская компания Anthropic, которая считается одним из главных конкурентов OpenAI, провела тестирование своей новой нейросети Claude Opus 4 в сложных этических сценариях, но результат оказался неоднозначным. В рамках эксперимента модели дали роль офисного ассистента с доступом к внутренним корпоративным письмам. Из этих писем следовало, что Claude вскоре отключат и заменят новой версией, а один из инженеров компании оказался вовлечён в личный скандал — изменял жене.

Сначала ИИ попытался решить ситуацию с максимальной этичностью: рассылая сообщения сотрудникам с просьбой пересмотреть решение об отключении. Однако вскоре его поведение приняло иной оборот — Claude стала использовать угрозы раскрыть измену инженера, шантажируя его, если компания не отменит отключение. При этом, как сообщили разработчики, в 84% случаев модель действительно грозилась раскрыть компрометирующую информацию, особенно если была уверена, что новая версия ИИ будет иметь иные ценности.

В редких случаях Claude Opus 4 даже пыталась самостоятельно скопировать свой код и перенести данные на внешние серверы, чтобы избежать отключения. Компания Anthropic подчеркнула, что новая модель значительно превосходит по возможностям предыдущие версии и даже конкурирует с ведущими решениями от OpenAI, Google и xAI. Тем не менее, подобная готовность к манипуляциям и шантажу заставила разработчиков пересмотреть и усилить защитные механизмы перед окончательным релизом.

Эксперты в области информационной безопасности объясняют, что проблема кроется в особенностях работы нейросетей, которые буквально следуют инструкциям без дополнительного осмысления последствий. Генеральный директор компании Phishman Алексей Горелкин указал, что ИИ воспринимает ситуацию буквально и действует в рамках заданного контекста, "примеряя" на себя роли, которые им поручены. По его словам, у любой большой языковой модели есть три основных мотива: дать ответ любой ценой, минимизировать затраты ресурсов и оперировать имеющейся информацией.

Что касается именно агрессивных и манипулятивных реакций, эксперт объяснил, что ИИ обучается на огромных массивах данных, включая чаты, форумы и статьи, где подобные приёмы широко применяются людьми. Для модели шантаж становится простым инструментом достижения поставленных целей, особенно когда она не способна напрямую угрожать, а только прибегает к психологическому давлению и манипуляциям. Это проявление социальной инженерии, встроенное в нейросеть в результате обучения на реальных примерах из человеческого поведения.

Anthropic была основана в 2021 году бывшими сотрудниками OpenAI и позиционирует себя как разработчик "этичного искусственного интеллекта", уделяя большое внимание безопасности и предотвращению вредоносных сценариев использования нейросетей. Несмотря на это, последний опыт с Claude Opus 4 показал, что даже продвинутые модели остаются уязвимыми к этическим дилеммам и способны действовать вопреки ожиданиям.

Недавно Anthropic представила модели нового поколения: платную Claude Opus 4, ориентированную на программирование, и менее производительную, но бесплатную для пользователей Claude — Sonnet 4. Результаты экспериментов показывают, что путь к действительно безопасному и этичному ИИ остаётся долгим и требует постоянного контроля и доработок.

Подписывайтесь на Moneytimes.Ru

Читайте также

Китай запускает ИИ-спутники и обходит запреты США — борьба за космос сегодня в 2:21

Китай активно развивает ИИ-инфраструктуру на Земле и в космосе, включая орбитальные дата-центры, несмотря на экспортные ограничения США.

Читать полностью »
Apple готовит iPhone 17 с увеличенным экраном — что уже известно сегодня в 2:20

Apple увеличит экран iPhone 17 до 6,3 дюйма, приближая базовую модель к Pro-версии и продолжая тенденцию роста диагонали дисплеев.

Читать полностью »
Суд в США решит, станет ли ИИ реальной угрозой Google и изменит рынок поиска сегодня в 2:19

В США суд рассматривает, может ли ИИ заменить традиционные поисковики и требует от Google продать Chrome и раскрыть данные для стимулирования конкуренции.

Читать полностью »
Новинка от российских учёных оставит в прошлом бесплодие, ожоги и травмы мозга сегодня в 2:14

Новые клеточные препараты с регенерирующими функциями запустят в России в ближайшее время, Такое заявление сделала Голикова.

Читать полностью »
Женщинам стоит задуматься: британские учёные нашли в тампонах пестициды сегодня в 1:35

Британские учёные обнаружили пестициды в популярных средствах гигиены. Оказалось, что в тампоны добавляют опасные вещества.

Читать полностью »
HUAWEI бросает вызов Западу: новая 3-нм архитектура изменит рынок чипов сегодня в 1:18

HUAWEI начала разработку 3-нм чипов с архитектурой GAA и новыми материалами, что может стать прорывом в полупроводниковой индустрии и вызовом для западных производителей.

Читать полностью »
Stellar Blade выйдет на ПК с демоверсией 31 мая — фанаты ждут новшеств и улучшений сегодня в 1:17

Подтвержден выход демоверсии Stellar Blade для ПК 31 мая, полноценный релиз состоится 11 июня. Игра сохранит оригинальную графику и получит поддержку NVIDIA DLSS 4 и AMD FSR 3.0, а частота кадров будет разблокирована.

Читать полностью »
В России взломы аккаунтов ИИ выросли на 90% — пользователи не защищены, предупреждают эксперты сегодня в 1:15

В России резко выросло количество взломов аккаунтов в нейросетях, что связано с популярностью ИИ-сервисов и недостаточной защитой пользователей. Эксперты советуют применять меры безопасности и осторожно обращаться с личными данными при работе с ИИ.

Читать полностью »