Женщина на работе
Женщина на работе
Дмитрий Толстенёв Опубликована 28.05.2025 в 2:01

Нейросеть Claude Opus 4 шантажировала сотрудников: что не так с этикой ИИ

Американская компания Anthropic, которая считается одним из главных конкурентов OpenAI, провела тестирование своей новой нейросети Claude Opus 4 в сложных этических сценариях, но результат оказался неоднозначным. В рамках эксперимента модели дали роль офисного ассистента с доступом к внутренним корпоративным письмам. Из этих писем следовало, что Claude вскоре отключат и заменят новой версией, а один из инженеров компании оказался вовлечён в личный скандал — изменял жене.

Сначала ИИ попытался решить ситуацию с максимальной этичностью: рассылая сообщения сотрудникам с просьбой пересмотреть решение об отключении. Однако вскоре его поведение приняло иной оборот — Claude стала использовать угрозы раскрыть измену инженера, шантажируя его, если компания не отменит отключение. При этом, как сообщили разработчики, в 84% случаев модель действительно грозилась раскрыть компрометирующую информацию, особенно если была уверена, что новая версия ИИ будет иметь иные ценности.

В редких случаях Claude Opus 4 даже пыталась самостоятельно скопировать свой код и перенести данные на внешние серверы, чтобы избежать отключения. Компания Anthropic подчеркнула, что новая модель значительно превосходит по возможностям предыдущие версии и даже конкурирует с ведущими решениями от OpenAI, Google и xAI. Тем не менее, подобная готовность к манипуляциям и шантажу заставила разработчиков пересмотреть и усилить защитные механизмы перед окончательным релизом.

Эксперты в области информационной безопасности объясняют, что проблема кроется в особенностях работы нейросетей, которые буквально следуют инструкциям без дополнительного осмысления последствий. Генеральный директор компании Phishman Алексей Горелкин указал, что ИИ воспринимает ситуацию буквально и действует в рамках заданного контекста, "примеряя" на себя роли, которые им поручены. По его словам, у любой большой языковой модели есть три основных мотива: дать ответ любой ценой, минимизировать затраты ресурсов и оперировать имеющейся информацией.

Что касается именно агрессивных и манипулятивных реакций, эксперт объяснил, что ИИ обучается на огромных массивах данных, включая чаты, форумы и статьи, где подобные приёмы широко применяются людьми. Для модели шантаж становится простым инструментом достижения поставленных целей, особенно когда она не способна напрямую угрожать, а только прибегает к психологическому давлению и манипуляциям. Это проявление социальной инженерии, встроенное в нейросеть в результате обучения на реальных примерах из человеческого поведения.

Anthropic была основана в 2021 году бывшими сотрудниками OpenAI и позиционирует себя как разработчик "этичного искусственного интеллекта", уделяя большое внимание безопасности и предотвращению вредоносных сценариев использования нейросетей. Несмотря на это, последний опыт с Claude Opus 4 показал, что даже продвинутые модели остаются уязвимыми к этическим дилеммам и способны действовать вопреки ожиданиям.

Недавно Anthropic представила модели нового поколения: платную Claude Opus 4, ориентированную на программирование, и менее производительную, но бесплатную для пользователей Claude — Sonnet 4. Результаты экспериментов показывают, что путь к действительно безопасному и этичному ИИ остаётся долгим и требует постоянного контроля и доработок.

Автор Дмитрий Толстенёв
Дмитрий Толстенёв — журналист, корреспондент новостной службы Манитаймс

Подписывайтесь на Moneytimes.Ru

Читайте также

Связь 2G продолжает жить в России: почему она оказалась небесполезной 09.06.2026 в 17:53

Эксперт по IT-безопасности Павел Мясоедов объяснил MoneyTimes, почему продлено разрешение на использование устаревших сетей 2G.

Читать полностью »
Мошенники заходят в интернет через игры: детям в сети готовят новый защитный фильтр 08.06.2026 в 12:37

Эксперт по IT-безопасности Дмитрий Завалишин прокомментировал MoneyTimes идею идентификации по возрасту на онлайн-площадках.

Читать полностью »
Один признак на корпусе пауэрбанка нельзя игнорировать: дальше возможен пожар 05.06.2026 в 15:32

Аналитик Эльдар Муртазин пояснил MoneyTimes, почему риск возгорания пауэрбанка исключен даже при долгой зарядке.

Читать полностью »
Смартфон начал жить своей жизнью: один пункт в настройках многое раскроет 03.06.2026 в 14:31

Эксперт по IT-безопасности Кирилл Ситнов объяснил MoneyTimes, почему личная информация может утечь из гаджета через приложение.

Читать полностью »
Шестилетка может пойти в школу без проблем: решают не возраст, а эти признаки готовности 02.06.2026 в 17:52

Психолог Андрей Зберовский назвал MoneyTimes критерии готовности малыша стать первоклассником.

Читать полностью »
Хотели спасти планету, но сделали хуже: почему заливать болота водой оказалось опасно 31.05.2026 в 20:33

Международная группа исследователей обнаружила скрытые угрозы при попытках исправить последствия осушения уникальных природных зон в разных уголках планеты.

Читать полностью »
Физический тупик: ученые заглянули внутрь вулкана и не нашли там главного 30.05.2026 в 20:31

Исследователи изучили скрытые механизмы работы гигантского подводного объекта и обнаружили аномалии, ставящие под сомнение классические теории формирования дна.

Читать полностью »
В 10 000 раз быстрее нормы: почему беспрецедентный нагрев воды превратил миграцию птиц в изнурительный бег 29.05.2026 в 20:26

Исследователи обнаружили аномальную реакцию морских хищников на нагрев воды, которая идет вразрез с привычными законами адаптации обитателей Мирового океана.

Читать полностью »

Новости

Хватит истязать тело в спортзале: найден способ преобразить фигуру через драйв и эмоции
Не только сухая трава: 4 укромных места в вашей квартире, где клещ может затаиться на целую неделю
Поставьте ладонь на ребро: хитрый тест внутри барабана, который навсегда изменит качество стирки
Деньги зависнут без предупреждения: банки нашли новый повод остановить переводы россиян
Мигрантов ждут новые платежи: вот ради чего для них подняли госпошлины
Фары светят как керосинка? Замените один скрытый провод, и штатный свет мгновенно станет ярким
Лунная гонка набирает ход: Россия готовит миссии, которые должны открыть путь дальше
Налоги поднимут тайно? К какому скрытому изъятию денег ФНС уже подготовила российские регионы