
"Яндекс" совершил прорыв: теперь "Алиса" понимает вас даже в самом шумном месте!
Инженеры "Яндекса" представили научную публикацию, в которой описана новая технология распознавания речи в сложной акустической обстановке. Речь идёт о системе, способной корректно воспринимать голосовые команды, даже если в помещении одновременно звучит музыка, работает бытовая техника или слышны уличные шумы. Эта разработка уже применяется в "умных" устройствах компании, а теперь ею смогут воспользоваться и сторонние разработчики.
Научная работа будет представлена на международной конференции Interspeech, которая состоится с 17 по 21 августа в Роттердаме. Среди участников также значатся такие технологические гиганты, как Microsoft, Google DeepMind и Google AR.
Новая технология особенно актуальна для устройств с голосовым помощником "Алиса", установленных в колонках и телевизионных приставках "Яндекса". Она позволяет пользователю отдавать команды, не отвлекаясь на фоновые помехи и не повышая голос. Система точно интерпретирует речь, даже если в комнате громко играет музыка, шумит пылесос или на фоне слышны разговоры.
Ранее для решения подобных задач применялись методы эхоподавления и шумоподавления. Однако последний подход часто ухудшает разборчивость самой речи, особенно при сильных и нестабильных помехах. В "Яндексе" подошли к задаче иначе: инженеры разработали attention-механизм, основанный на нейросетевой архитектуре. Он анализирует сразу два сигнала — один с эхоподавлением, другой с шумоподавлением — и в режиме реального времени выбирает наиболее понятный фрагмент. Такой подход позволяет системе адаптироваться к различным типам шумов и повышает точность распознавания команд.
Открытая публикация технологии открывает возможности для её интеграции в другие голосовые ассистенты и "умные" устройства, работающие с ИИ. Это позволит повысить удобство использования подобных систем в повседневной жизни и сократить количество ложных срабатываний.
Подписывайтесь на Moneytimes.Ru