
Ошибки в речи исчезают наполовину: как нейросети учатся понимать русский
Голосовые помощники обычно звучат уверенно, но стоит заговорить на русском быстрее или сбивчивее — и техника превращает речь в хаос. В Сбере решили, что пора научить машины слышать по-настоящему, а не угадывать по кусочкам. Для этого инженеры взяли старую схему распознавания и заставили её смотреть не на отдельные звуки, а на смысл целиком.
Когда ошибки тают
В новой системе ключевую роль играют переменные из CTC-модели, которые помогают строить более "умные" семантические образы. В тестах это дало эффект, которого никто не ожидал: количество ошибок в распознавании сократилось сразу на 50%. Машины начали лучше понимать контекст, а не цепляться за буквы.
Скачок, а не шажок
Технический директор GigaChat Федор Минькин пояснил, что это не очередное "улучшение на пару процентов", а именно переломный момент. Новая архитектура оказалась гибкой и быстрой, ломая барьеры, которые тормозили технологии для языков с небольшими базами данных. По его словам, подход может стать новым стандартом в индустрии и открыть путь к голосовым интерфейсам следующего поколения.
Взгляд в будущее
Пока метод только презентовали на международной конференции Interspeech 2025, но в кулуарах уже обсуждают, что он способен изменить рынок голосовых технологий. Если раньше голосовые помощники ошибались в самых простых фразах, то теперь им, возможно, удастся услышать даже сарказм или намёк.
Подписывайтесь на Moneytimes.Ru