Команда исследователей Яндекса представила подробную научную публикацию, раскрывающую работу нейросетевой технологии, способной эффективно распознавать голосовые команды даже в условиях сильного фонового шума. Технология уже используется в устройствах компании — таких как умные колонки и ТВ Станции с Алисой — и теперь доступна для изучения и внедрения разработчиками по всему миру.
Научную работу приняли на престижную международную конференцию Interspeech 2025, которая пройдёт с 17 по 21 августа в Роттердаме, Нидерланды. Это крупнейшее ежегодное событие в области речевых технологий, организованное Международной ассоциацией речевой коммуникации (ISCA), где также будут представлены исследования Microsoft, Google DeepMind, Google AR и других ведущих научных и технологических организаций.
Как работает технология
Разработка Яндекса позволяет устройствам с голосовым ассистентом улавливать команды даже на фоне шумов: работающего пылесоса, текущей воды, громкой музыки, звуков стройки или вечеринки. Это избавляет пользователя от необходимости перекрикивать окружающий шум — достаточно просто сказать команду, и устройство её распознает.
Традиционно для обработки звука в ассистентах применяются алгоритмы эхоподавления и шумоподавления. Однако последние, несмотря на эффективность в снижении фонового шума, часто искажают человеческую речь. Исследователи Яндекса предложили новый подход: использование attention-механизма, основанного на нейросети, которая одновременно получает два потока звука — один после шумоподавления, другой после эхоподавления — и в каждый момент времени выбирает наиболее чистый сигнал для последующего анализа.
Преимущества для разработчиков и пользователей
- Технология уже доказала свою эффективность в реальных условиях эксплуатации умных устройств.
- Снижается вероятность ложных срабатываний ассистента и повышается точность распознавания.
- Разработчики могут использовать опубликованную методику для ускорения внедрения голосового управления в свои продукты.
- Публикация снижает порог входа в область речевых интерфейсов для исследовательского и коммерческого сообщества.
Комментарий Яндекса
До сих пор не существовало единого подхода к распознаванию голоса в шумной среде, который был бы одинаково надёжен в лабораторных тестах и в реальных условиях. Многие компании и исследователи сталкиваются с похожими проблемами, но не имеют доступа к промышленным решениям и вынуждены тратить ресурсы на их разработку с нуля. Надеемся, что публикация нашего метода ускорит прогресс в области голосовых интерфейсов, поможет избежать типичных ошибок и приведёт к появлению большего количества удобных и надёжных голосовых устройств.
Дмитрий Солодуха, руководитель направления голосовой активации
Материалы и конференция
Научная статья Яндекса будет представлена на Interspeech 2025 — ключевом событии в области речевых технологий, где обсуждаются последние достижения в распознавании речи, синтезе, диалоговых системах и аудиообработке. Конференция объединяет специалистов из академических, исследовательских и индустриальных сфер.
Ознакомиться с публикацией и результатами исследования можно будет на официальном сайте конференции после начала мероприятия.
Обновления программ, что нового
• Новый бюджетник Samsung Galaxy A17 4G: характеристики и цена
• AMD Radeon Software Adrenalin 25.9.2 Non-WHQL. Поддержка AMD Radeon RX 7700 (16 ГБ)
• One UI 8 для серии Samsung Galaxy S25: стабильное обновление стало доступно в новых странах
• Релиз Vivaldi 7.6: Улучшенное управление вкладками
• POCO C85 вышел в России: большой экран 6,9", аккумулятор 6000 мАч и быстрая зарядка
• Релиз ColorOS 16 на базе Android 16: дата, что нового и список поддерживаемых устройств