Ваш голос теперь не ваш: как 3 секунды записи меняют правила игры

Microsoft представила нейросеть DragonV2.1 для синтеза голоса

Microsoft выпустила обновлённую версию своей нейросети DragonV2.1Neural, способную создавать реалистичный голосовой профиль всего за несколько секунд записи. Технология zero-shot уже умеет имитировать речь на сотне языков, причём с улучшенной артикуляцией и без прежних проблем с именами собственными. Теперь чат-бот может говорить как ваш друг, а фильм — дублироваться голосом актёра, даже если он не участвовал в записи. Но за этим удобством скрывается и тревожный вопрос: где грань между инновацией и вторжением в личное пространство?

Как работает новый синтезатор?

DragonV2.1 использует SSML-теги и пользовательские фонемные словари, чтобы точнее передавать акценты и интонации. Система стала на 12,8% точнее предшественника, а её предустановленные голоса (Andrew, Ava и Brian) звучат почти как живые. Microsoft уверяет, что теперь синтезированная речь неотличима от человеческой — но тут же признаёт: именно это и создаёт риски. Ведь если нейросеть может скопировать любой голос, кто помешает злоумышленникам использовать её для мошенничества?

Дипфейки под контролем?

Компания пытается снизить опасности: все пользователи обязаны подтверждать согласие носителя голоса, маркировать искусственный контент и избегать имитации реальных людей. Цифровой водяной знак с точностью 99,7% должен помогать выявлять подделки — даже после редактирования аудио. Но эксперты сомневаются: хватит ли этих мер в мире, где фейковые записи уже используются в преступных схемах? Пока DragonV2.1 доступен только в тестовом режиме через Speech Studio, но конкуренты (ElevenLabs, Google) уже дышат в спину.

Что дальше?

Технология синтеза голоса развивается стремительно — и скоро, возможно, мы перестанем верить даже телефонным звонкам от близких. Microsoft первой попыталась поставить барьеры на пути злоупотреблений, но станет ли это нормой для всей отрасли? Пока ясно одно: эпоха, когда голос был уникальной биометрической меткой, подходит к концу.

Подписывайтесь на Moneytimes.Ru

Ваш голос теперь не ваш: как 3 секунды записи меняют правила игры

Как работает новый синтезатор?

Дипфейки под контролем?

Что дальше?

Читайте также

Новости