Яндекс создал нейросеть размером 200 КБ для умных часов, наушников и других ИИ-устройств

Яндекс разработал ультракомпактную нейросетевую модель для голосового управления в носимых устройствах с поддержкой искусственного интеллекта. Размер модели составляет около 200 КБ — это меньше, чем занимает одна фотография на современном смартфоне. При этом разработчикам удалось сохранить качество распознавания голосовых команд на уровне более крупных решений.

Яндекс показал наушники Яндекс Дропс и работу функции «Моя память»

О разработке рассказал руководитель направления голосовой активации в Яндексе Дмитрий Солодуха. По его словам, новая технология предназначена для устройств, где особенно важны экономия энергии и минимальные требования к аппаратным ресурсам — например, для умных часов, беспроводных наушников и других компактных гаджетов.

Почему это важно для носимых устройств

В отличие от смартфонов и умных колонок, носимые устройства обладают значительно более скромными вычислительными возможностями. Они ограничены ёмкостью аккумулятора, объёмом памяти и производительностью процессора. При этом система голосового управления должна постоянно прослушивать окружающий звук в ожидании команды активации, не разряжая батарею и не создавая заметной нагрузки на устройство.

Чтобы решить эту проблему, инженеры Яндекса оптимизировали всю цепочку обработки речи — от аппаратной платформы до самой нейросетевой модели.

Двухэтапная система обработки речи

Разработчики использовали двухуровневую схему анализа звука. На первом этапе работает сверхлёгкая модель, которая определяет наличие человеческой речи в аудиопотоке. Она потребляет минимум ресурсов и может функционировать постоянно.

Если система обнаруживает речь, запускается вторая нейросеть, которая анализирует фразу и проверяет наличие ключевой команды активации. Благодаря этому основная модель не работает непрерывно, что существенно снижает энергопотребление устройства.

Такой подход позволяет уменьшить нагрузку на процессор и увеличить время автономной работы гаджета.

Нейросеть уменьшили в десять раз

Одной из главных задач стала оптимизация самой модели распознавания. Именно постоянное ожидание голосовой команды обычно является одним из основных источников расхода энергии в подобных системах.

Команда Яндекса сократила количество параметров нейросети примерно в десять раз благодаря использованию более компактной архитектуры. В результате модель требует значительно меньше вычислительных ресурсов, сохраняя высокую точность распознавания.

Это позволяет выполнять обработку голосовых команд непосредственно на устройстве без постоянной передачи аудиоданных в облако. Такой подход уменьшает задержки при выполнении команд, повышает уровень конфиденциальности и дополнительно снижает энергопотребление.

Ставка на нейропроцессоры NPU

Для повышения эффективности разработка также ориентирована на использование современных чипов с нейронными процессорами (NPU). Такие специализированные блоки предназначены для выполнения задач искусственного интеллекта и позволяют запускать нейросетевые модели значительно экономичнее по сравнению с традиционными центральными процессорами.

По словам Дмитрия Солодухи, созданная технология может найти применение в самых разных устройствах с функциями обработки речи в реальном времени — от умных наушников до часов и других компактных ИИ-гаджетов следующего поколения.