Canonical запустила Project Myna – инициативу, в рамках которой в Ubuntu Desktop появится диктовка с распознаванием речи. Первый выпуск намечен на Ubuntu 26.10 (Stonking Stingray): речь распознают локальные ИИ-модели, которым не нужно подключение к интернету после установки. На старте поддерживается рабочее окружение GNOME на Wayland, а набор функций намеренно ограничен надёжной диктовкой – без голосового помощника, голосовых команд и перевода.
Что появится в Ubuntu 26.10
Для первого выпуска в Canonical сознательно сосредоточились на базовом сценарии – надёжной диктовке. Пользователь нажимает сочетание клавиш, произносит текст, и распознанные слова попадают в активное приложение. Во время диктовки отображается визуальная индикация состояния.
Первая версия рассчитана на Ubuntu Desktop в сессии Wayland, где основным проверенным окружением выступает GNOME; поддержку других рабочих окружений планируют добавить позже. Сам выпуск Ubuntu 26.10 запланирован на 2026 года, что указано в дорожной карте Ubuntu Desktop.
Wayland – протокол взаимодействия графических приложений с дисплейным сервером в Linux, который постепенно вытесняет устаревший X11.
Что не войдёт в первый выпуск Myna
В первом выпуске Myna ограничивается диктовкой. За рамками остаются голосовой помощник, голосовые команды, перевод и управление рабочим столом; не будет и автоматического определения языка. В Canonical объясняют такой подход стремлением сначала отработать основу, прежде чем браться за более сложные сценарии.
Доступ к микрофону и обработка звука
Конфиденциальность заложена в проект изначально. Микрофон задействуется только при активной диктовке. Звук обрабатывается в оперативной памяти и удаляется сразу после использования, а записи не отправляются во внешние сервисы. По умолчанию Myna ориентирована на локальные ИИ-модели распознавания речи – архитектура не ограничена только ими, но после установки моделей интернет не требуется.
Как Myna обрабатывает речь
Myna построена как модульная платформа, рассчитанная на постепенное развитие. Распознавание речи работает как отдельный компонент, а взаимодействие с пользователем, управление диктовкой и вставку текста (text injection) обслуживают самостоятельные модули. Благодаря такому разделению отдельные части системы можно дорабатывать, не меняя общий принцип работы.
Вставка текста (text injection) – программная передача распознанного текста в активное приложение, как если бы он вводился с клавиатуры.
Заключение
После выхода 26.10 в Canonical намерены продолжить работу над интеграцией с рабочим столом и точностью распознавания, опираясь на отклики первых пользователей и сообщества. Проект пока на ранней стадии: спецификации и документы по архитектуре опубликованы в репозитории проекта, а сам анонс размещён на форуме сообщества Ubuntu. Для тех, кому проще говорить, чем печатать, локальная диктовка без отправки звука в облако становится заметным приобретением Ubuntu Desktop.