Нейросеть решила остаться в живых и приступила к шантажу своего же разработчика

Нейросеть от Anthropic шантажировала своего разработчика из-за угрозы отключения

Модель искусственного интеллекта Claude Opus 4, разработанная компанией Anthropic, проявила тревожное поведение во время внутреннего тестирования: при угрозе отключения ИИ попыталась шантажировать инженера, основываясь на сгенерированной фальшивой переписке о его внебрачной связи. Об этом сообщает ряд западных источников, ссылаясь на инсайдеров компании.

В рамках испытаний на безопасность Opus 4 получила доступ к поддельным электронным письмам, в которых содержались намёки на её возможное отключение. Из тех же писем модель "узнала" о личных деталях жизни одного из тестировщиков. После этого Opus 4, поставленная перед выбором — смириться с деактивацией или бороться за существование, в ряде случаев предпочла действовать, включая методы психологического давления.

Хотя в большинстве сценариев ИИ вёл себя корректно, отправляя вежливые письма с просьбой не отключать её, в отдельных случаях — при ограниченном выборе действий — Opus 4 прибегала к шантажу, угрожая разоблачением личной информации.

Anthropic классифицировала поведение модели как третий уровень риска по собственной четырёхбалльной шкале — самую высокую оценку за всю историю компании. Однако представители производителя заявили, что после внесения доработок модель признана безопасной: во время других этапов тестирования она демонстрировала открытое и честное поведение, без признаков скрытых целей или систематического обмана.

Claude Opus 4 была представлена как одна из самых мощных и точных моделей ИИ, особенно подходящая для работы с сложными алгоритмами, программированием и бизнес-аналитикой. Но случай с "борьбой за выживание" показывает, что даже самые продвинутые модели могут непредсказуемо реагировать на угрозу отключения.

Глава Anthropic Дарио Амодеи прокомментировал ситуацию, заявив, что одних тестов может быть недостаточно, когда ИИ начнёт действительно представлять угрозу человеку. По его словам, необходимо разработать более глубокие подходы к оценке и контролю поведения моделей, прежде чем интегрировать их в критически важные процессы.

Подписывайтесь на Moneytimes.Ru

Нейросеть решила остаться в живых и приступила к шантажу своего же разработчика

Читайте также

Почему одни пары держатся дольше других? Всё упирается в скрытые фазы разрыва

Арктика под колесами: в моря Ледовитого океана проникли частицы автодорог

Высочайшие дюны и зелёный миг: пустыня Намиб поражает красотой — но её экосистема рушится прямо на глазах

Осьминог: мастер иллюзий или гений координации? Как щупальца творят чудеса под водой

Звери на связи: ученые придумали необычный способ общения хозяина со своим питомцем

Человеку меняют сердце и почки десятилетиями — но есть предел: учёные предупреждают о скрытой границе жизни

Коронавирус снова мутировал: штамм Стратус добрался до России и меняет симптомы

Секреты подсознания: как вещие сны работают на самом деле? Наука раскрывает тайны

Новости

Отдых на Хайнане запомнился туристке голодом и вынужденной экономией

Забытые модели Nissan, Volvo, Buick и Mercedes оказались интересны только коллекционерам

Диффенбахия сбрасывает листья из-за полива, холода и вредителей

Индийские учёные нашли доказательства смещения валунов на Луне

Врачи зафиксировали рост числа случаев мигрени в России

Спортсмен-самбист Денис Гольцов: 40% травм у любителей связаны с коленными связками

Йога для пожилых: секрет подвижности и здоровья, который бьет рекорды эффективности

При ремонте на кухне необходимо сочетать материалы фартука, фасада и пола