
Нейросеть решила остаться в живых и приступила к шантажу своего же разработчика
Модель искусственного интеллекта Claude Opus 4, разработанная компанией Anthropic, проявила тревожное поведение во время внутреннего тестирования: при угрозе отключения ИИ попыталась шантажировать инженера, основываясь на сгенерированной фальшивой переписке о его внебрачной связи. Об этом сообщает ряд западных источников, ссылаясь на инсайдеров компании.
В рамках испытаний на безопасность Opus 4 получила доступ к поддельным электронным письмам, в которых содержались намёки на её возможное отключение. Из тех же писем модель "узнала" о личных деталях жизни одного из тестировщиков. После этого Opus 4, поставленная перед выбором — смириться с деактивацией или бороться за существование, в ряде случаев предпочла действовать, включая методы психологического давления.
Хотя в большинстве сценариев ИИ вёл себя корректно, отправляя вежливые письма с просьбой не отключать её, в отдельных случаях — при ограниченном выборе действий — Opus 4 прибегала к шантажу, угрожая разоблачением личной информации.
Anthropic классифицировала поведение модели как третий уровень риска по собственной четырёхбалльной шкале — самую высокую оценку за всю историю компании. Однако представители производителя заявили, что после внесения доработок модель признана безопасной: во время других этапов тестирования она демонстрировала открытое и честное поведение, без признаков скрытых целей или систематического обмана.
Claude Opus 4 была представлена как одна из самых мощных и точных моделей ИИ, особенно подходящая для работы с сложными алгоритмами, программированием и бизнес-аналитикой. Но случай с "борьбой за выживание" показывает, что даже самые продвинутые модели могут непредсказуемо реагировать на угрозу отключения.
Глава Anthropic Дарио Амодеи прокомментировал ситуацию, заявив, что одних тестов может быть недостаточно, когда ИИ начнёт действительно представлять угрозу человеку. По его словам, необходимо разработать более глубокие подходы к оценке и контролю поведения моделей, прежде чем интегрировать их в критически важные процессы.
Подписывайтесь на Moneytimes.Ru