Нейросеть Яндекса улучшает распознавание речи в шумной обстановке — технология будет представлена на Interspeech 2025

Команда исследователей Яндекса представила подробную научную публикацию, раскрывающую работу нейросетевой технологии, способной эффективно распознавать голосовые команды даже в условиях сильного фонового шума. Технология уже используется в устройствах компании — таких как умные колонки и ТВ Станции с Алисой — и теперь доступна для изучения и внедрения разработчиками по всему миру.

Научную работу приняли на престижную международную конференцию Interspeech 2025, которая пройдёт с 17 по 21 августа в Роттердаме, Нидерланды. Это крупнейшее ежегодное событие в области речевых технологий, организованное Международной ассоциацией речевой коммуникации (ISCA), где также будут представлены исследования Microsoft, Google DeepMind, Google AR и других ведущих научных и технологических организаций.

Как работает технология

Разработка Яндекса позволяет устройствам с голосовым ассистентом улавливать команды даже на фоне шумов: работающего пылесоса, текущей воды, громкой музыки, звуков стройки или вечеринки. Это избавляет пользователя от необходимости перекрикивать окружающий шум — достаточно просто сказать команду, и устройство её распознает.

Традиционно для обработки звука в ассистентах применяются алгоритмы эхоподавления и шумоподавления. Однако последние, несмотря на эффективность в снижении фонового шума, часто искажают человеческую речь. Исследователи Яндекса предложили новый подход: использование attention-механизма, основанного на нейросети, которая одновременно получает два потока звука — один после шумоподавления, другой после эхоподавления — и в каждый момент времени выбирает наиболее чистый сигнал для последующего анализа.

Преимущества для разработчиков и пользователей

Технология уже доказала свою эффективность в реальных условиях эксплуатации умных устройств.
Снижается вероятность ложных срабатываний ассистента и повышается точность распознавания.
Разработчики могут использовать опубликованную методику для ускорения внедрения голосового управления в свои продукты.
Публикация снижает порог входа в область речевых интерфейсов для исследовательского и коммерческого сообщества.

Комментарий Яндекса

До сих пор не существовало единого подхода к распознаванию голоса в шумной среде, который был бы одинаково надёжен в лабораторных тестах и в реальных условиях. Многие компании и исследователи сталкиваются с похожими проблемами, но не имеют доступа к промышленным решениям и вынуждены тратить ресурсы на их разработку с нуля. Надеемся, что публикация нашего метода ускорит прогресс в области голосовых интерфейсов, поможет избежать типичных ошибок и приведёт к появлению большего количества удобных и надёжных голосовых устройств.

Дмитрий Солодуха, руководитель направления голосовой активации

Материалы и конференция

Научная статья Яндекса будет представлена на Interspeech 2025 — ключевом событии в области речевых технологий, где обсуждаются последние достижения в распознавании речи, синтезе, диалоговых системах и аудиообработке. Конференция объединяет специалистов из академических, исследовательских и индустриальных сфер.

Ознакомиться с публикацией и результатами исследования можно будет на официальном сайте конференции после начала мероприятия.

Обновления программ, что нового

• Android 17 QPR1 Beta 8 убрала громкий треск в динамиках Pixel
• Google Chrome будет получать два обновления безопасности в неделю и устанавливать исправления без перезапуска
• Omdia: Xiaomi потеряла 26%, OPPO – 17%, Samsung и Apple укрепили позиции на мировом рынке смартфонов
• В Galaxy S26 FE оставили 50-Мп ISOCELL S5KGN3 от Galaxy S25 FE
• Claude Mythos 5 опубликовал вредоносный пакет в каталоге PyPI
• Релиз Comodo Internet Security 2027: HIPS переименован в EDR, исправлена проверка обновлений

Автор: Comss.one