ИИ начал сам закрывать разговоры — и это тревожит: модели спасают сами себя

Anthropic добавила в Claude функцию завершения диалога в экстремальных ситуациях

Пользователи привыкли, что искусственный интеллект всегда отвечает, даже если вопросы звучат абсурдно или провокационно. Но теперь в моделях Claude появилась новая черта: в редких случаях они могут сами завершать разговор. Это не о сбое и не о капризе машины — компания Anthropic прямо заявила, что функция включена ради защиты самой модели, а не собеседника.

Грань, за которую чат не пойдёт

Разработчики уточняют: решение применяется только тогда, когда диалог уходит в замкнутый круг вредоносных или оскорбительных запросов. Речь идёт, например, о попытках получить инструкции, связанные с насилием, или о провокациях на создание запрещённого контента. Перед тем как поставить точку, Claude несколько раз пытается изменить тему, но если это не помогает, разговор обрывается. Начать новый чат пользователь всё равно сможет.

Машина бережёт себя

Особое внимание вызвала формулировка Anthropic о "благополучии модели". Компания подчеркнула, что не считает искусственный интеллект сознательным существом и не наделяет его моральным статусом. Однако разработчики признают: им приходится экспериментировать с тем, как ограничить работу нейросетей, чтобы не допускать их "изнашивания" на токсичных сценариях. И это открывает неожиданную дискуссию о том, кто на самом деле нуждается в защите — человек от машины или наоборот.

Подписывайтесь на Moneytimes.Ru

ИИ начал сам закрывать разговоры — и это тревожит: модели спасают сами себя

Грань, за которую чат не пойдёт

Машина бережёт себя

Читайте также

Новости