Нейросеть Яндекса улучшает распознавание речи в шумной обстановке — технология будет представлена на Interspeech 2025

2025-07-30 485 комментарии
Исследователи Яндекса раскрыли принципы работы нейросети для распознавания голосовых команд на фоне шума, которая применяется в устройствах с Алисой. Технология будет представлена на конференции Interspeech 2025 и доступна всем разработчикам

Команда исследователей Яндекса представила подробную научную публикацию, раскрывающую работу нейросетевой технологии, способной эффективно распознавать голосовые команды даже в условиях сильного фонового шума. Технология уже используется в устройствах компании — таких как умные колонки и ТВ Станции с Алисой — и теперь доступна для изучения и внедрения разработчиками по всему миру.

Научную работу приняли на престижную международную конференцию Interspeech 2025, которая пройдёт с 17 по 21 августа в Роттердаме, Нидерланды. Это крупнейшее ежегодное событие в области речевых технологий, организованное Международной ассоциацией речевой коммуникации (ISCA), где также будут представлены исследования Microsoft, Google DeepMind, Google AR и других ведущих научных и технологических организаций.

Как работает технология

Разработка Яндекса позволяет устройствам с голосовым ассистентом улавливать команды даже на фоне шумов: работающего пылесоса, текущей воды, громкой музыки, звуков стройки или вечеринки. Это избавляет пользователя от необходимости перекрикивать окружающий шум — достаточно просто сказать команду, и устройство её распознает.

Традиционно для обработки звука в ассистентах применяются алгоритмы эхоподавления и шумоподавления. Однако последние, несмотря на эффективность в снижении фонового шума, часто искажают человеческую речь. Исследователи Яндекса предложили новый подход: использование attention-механизма, основанного на нейросети, которая одновременно получает два потока звука — один после шумоподавления, другой после эхоподавления — и в каждый момент времени выбирает наиболее чистый сигнал для последующего анализа.

Преимущества для разработчиков и пользователей

  • Технология уже доказала свою эффективность в реальных условиях эксплуатации умных устройств.
  • Снижается вероятность ложных срабатываний ассистента и повышается точность распознавания.
  • Разработчики могут использовать опубликованную методику для ускорения внедрения голосового управления в свои продукты.
  • Публикация снижает порог входа в область речевых интерфейсов для исследовательского и коммерческого сообщества.

Комментарий Яндекса

До сих пор не существовало единого подхода к распознаванию голоса в шумной среде, который был бы одинаково надёжен в лабораторных тестах и в реальных условиях. Многие компании и исследователи сталкиваются с похожими проблемами, но не имеют доступа к промышленным решениям и вынуждены тратить ресурсы на их разработку с нуля. Надеемся, что публикация нашего метода ускорит прогресс в области голосовых интерфейсов, поможет избежать типичных ошибок и приведёт к появлению большего количества удобных и надёжных голосовых устройств.

Дмитрий Солодуха, руководитель направления голосовой активации

Материалы и конференция

Научная статья Яндекса будет представлена на Interspeech 2025 — ключевом событии в области речевых технологий, где обсуждаются последние достижения в распознавании речи, синтезе, диалоговых системах и аудиообработке. Конференция объединяет специалистов из академических, исследовательских и индустриальных сфер.

Ознакомиться с публикацией и результатами исследования можно будет на официальном сайте конференции после начала мероприятия.

© .
Комментарии и отзывы

Нашли ошибку?

Новое на сайте