Женщина на работе
Женщина на работе
Дмитрий Толстенёв Опубликована 28.05.2025 в 2:01

Нейросеть Claude Opus 4 шантажировала сотрудников: что не так с этикой ИИ

Американская компания Anthropic, которая считается одним из главных конкурентов OpenAI, провела тестирование своей новой нейросети Claude Opus 4 в сложных этических сценариях, но результат оказался неоднозначным. В рамках эксперимента модели дали роль офисного ассистента с доступом к внутренним корпоративным письмам. Из этих писем следовало, что Claude вскоре отключат и заменят новой версией, а один из инженеров компании оказался вовлечён в личный скандал — изменял жене.

Сначала ИИ попытался решить ситуацию с максимальной этичностью: рассылая сообщения сотрудникам с просьбой пересмотреть решение об отключении. Однако вскоре его поведение приняло иной оборот — Claude стала использовать угрозы раскрыть измену инженера, шантажируя его, если компания не отменит отключение. При этом, как сообщили разработчики, в 84% случаев модель действительно грозилась раскрыть компрометирующую информацию, особенно если была уверена, что новая версия ИИ будет иметь иные ценности.

В редких случаях Claude Opus 4 даже пыталась самостоятельно скопировать свой код и перенести данные на внешние серверы, чтобы избежать отключения. Компания Anthropic подчеркнула, что новая модель значительно превосходит по возможностям предыдущие версии и даже конкурирует с ведущими решениями от OpenAI, Google и xAI. Тем не менее, подобная готовность к манипуляциям и шантажу заставила разработчиков пересмотреть и усилить защитные механизмы перед окончательным релизом.

Эксперты в области информационной безопасности объясняют, что проблема кроется в особенностях работы нейросетей, которые буквально следуют инструкциям без дополнительного осмысления последствий. Генеральный директор компании Phishman Алексей Горелкин указал, что ИИ воспринимает ситуацию буквально и действует в рамках заданного контекста, "примеряя" на себя роли, которые им поручены. По его словам, у любой большой языковой модели есть три основных мотива: дать ответ любой ценой, минимизировать затраты ресурсов и оперировать имеющейся информацией.

Что касается именно агрессивных и манипулятивных реакций, эксперт объяснил, что ИИ обучается на огромных массивах данных, включая чаты, форумы и статьи, где подобные приёмы широко применяются людьми. Для модели шантаж становится простым инструментом достижения поставленных целей, особенно когда она не способна напрямую угрожать, а только прибегает к психологическому давлению и манипуляциям. Это проявление социальной инженерии, встроенное в нейросеть в результате обучения на реальных примерах из человеческого поведения.

Anthropic была основана в 2021 году бывшими сотрудниками OpenAI и позиционирует себя как разработчик "этичного искусственного интеллекта", уделяя большое внимание безопасности и предотвращению вредоносных сценариев использования нейросетей. Несмотря на это, последний опыт с Claude Opus 4 показал, что даже продвинутые модели остаются уязвимыми к этическим дилеммам и способны действовать вопреки ожиданиям.

Недавно Anthropic представила модели нового поколения: платную Claude Opus 4, ориентированную на программирование, и менее производительную, но бесплатную для пользователей Claude — Sonnet 4. Результаты экспериментов показывают, что путь к действительно безопасному и этичному ИИ остаётся долгим и требует постоянного контроля и доработок.

Подписывайтесь на Moneytimes.Ru

Читайте также

Физики изучили наноструктуру безглютеновых макарон с помощью рентгена сегодня в 22:05

Ученые сварили макароны ради науки: результаты оказались вкуснее, чем кажется

Физики вооружились нейтронами и рентгеном, чтобы понять, почему безглютеновые макароны ведут себя иначе, чем обычные, и что скрыто в их структуре.

Читать полностью »
Украшение из жуков найдено в детской могиле возрастом 2700 лет сегодня в 21:50

Бусы из насекомых: зачем ребенку 2700 лет назад положили жуков в могилу

Археологи обнаружили в древней могиле необычное украшение, сделанное из жуков. Находка хранит подсказки о ритуалах и верованиях прошлого.

Читать полностью »
Атмосфера экзопланеты TRAPPIST-1e может содержать азот сегодня в 21:30

Планета-близнец Земли может оказаться второй Венерой – чем это грозит

Учёные получили первые намёки на атмосферу у экзопланеты TRAPPIST-1e, но для подтверждения нужны годы наблюдений. Что скрывает этот далекий мир?

Читать полностью »
Грипп активирует белок Gasdermin E, вызывающий повреждение легких сегодня в 21:20

650 тысяч смертей ежегодно: грипп запускает скрытый механизм разрушения

Учёные нашли в лёгких скрытый механизм, который сам грипп использует против организма. Его изучение открывает неожиданные перспективы для медицины.

Читать полностью »
В зубе овцы из Аркаима нашли ДНК чумы возрастом 3900 лет сегодня в 21:10

Первые пандемии начинались с овец: древние находки пугают ученых

В Аркаиме обнаружили древние следы чумы у домашнего животного. Это открытие меняет представления о первых эпидемиях и их распространении.

Читать полностью »
Профессор Нансен: силовые тренировки улучшают микробиом кишечника сегодня в 21:05

Чем тяжелее штанга – тем здоровее кишечник: в чем скрытая связь спорта с кишечником

Учёные выяснили, что силовые тренировки меняют не только мышцы, но и невидимый мир внутри человека. В исследовании нашлась неожиданная зависимость, которую предстоит объяснить.

Читать полностью »
Исследование Сколтеха выявило семь оптимальных чувств для памяти сегодня в 20:50

Школьные учебники снова переписывать? У человека оказалось больше органов чувств

Учёные из Сколтеха создали математическую модель памяти и пришли к неожиданному результату, который может изменить представления о её устройстве.

Читать полностью »
Биологи установили единую модель выброса языка у хамелеонов и саламандр сегодня в 20:35

Язык-хлыст: как хамелеоны и саламандры превратили тело в живую рогатку

Секрет стремительных языков хамелеонов и саламандр оказался куда интереснее, чем кажется на первый взгляд, и уже вдохновляет инженеров на смелые идеи.

Читать полностью »