
Ваш голос теперь не ваш: как 3 секунды записи меняют правила игры
Microsoft выпустила обновлённую версию своей нейросети DragonV2.1Neural, способную создавать реалистичный голосовой профиль всего за несколько секунд записи. Технология zero-shot уже умеет имитировать речь на сотне языков, причём с улучшенной артикуляцией и без прежних проблем с именами собственными. Теперь чат-бот может говорить как ваш друг, а фильм — дублироваться голосом актёра, даже если он не участвовал в записи. Но за этим удобством скрывается и тревожный вопрос: где грань между инновацией и вторжением в личное пространство?
Как работает новый синтезатор?
DragonV2.1 использует SSML-теги и пользовательские фонемные словари, чтобы точнее передавать акценты и интонации. Система стала на 12,8% точнее предшественника, а её предустановленные голоса (Andrew, Ava и Brian) звучат почти как живые. Microsoft уверяет, что теперь синтезированная речь неотличима от человеческой — но тут же признаёт: именно это и создаёт риски. Ведь если нейросеть может скопировать любой голос, кто помешает злоумышленникам использовать её для мошенничества?
Дипфейки под контролем?
Компания пытается снизить опасности: все пользователи обязаны подтверждать согласие носителя голоса, маркировать искусственный контент и избегать имитации реальных людей. Цифровой водяной знак с точностью 99,7% должен помогать выявлять подделки — даже после редактирования аудио. Но эксперты сомневаются: хватит ли этих мер в мире, где фейковые записи уже используются в преступных схемах? Пока DragonV2.1 доступен только в тестовом режиме через Speech Studio, но конкуренты (ElevenLabs, Google) уже дышат в спину.
Что дальше?
Технология синтеза голоса развивается стремительно — и скоро, возможно, мы перестанем верить даже телефонным звонкам от близких. Microsoft первой попыталась поставить барьеры на пути злоупотреблений, но станет ли это нормой для всей отрасли? Пока ясно одно: эпоха, когда голос был уникальной биометрической меткой, подходит к концу.
Подписывайтесь на Moneytimes.Ru