Microsoft выпустила три собственные ИИ-модели

Компания Microsoft представила три собственные ИИ-модели, созданные без участия OpenAI: MAI-Transcribe-1 для распознавания речи, MAI-Voice-1 для синтеза речи и MAI-Image-2 для генерации изображений. Модели доступны через платформу Microsoft Foundry и площадку MAI Playground. Над каждой из них работали команды численностью менее 10 человек, а ресурсы GPU сократились вдвое по сравнению с конкурентами. Выпуск стал первым результатом работы подразделения MAI Superintelligence, которое возглавляет Мустафа Сулейман.

MAI-Transcribe-1: распознавание речи с рекордной точностью

MAI-Transcribe-1 — модель преобразования речи в текст, показавшая лучший средний коэффициент ошибок на уровне слов (Word Error Rate, WER) среди 25 языков на бенчмарке FLEURS. Средний WER составил 3,8%. По данным Microsoft, модель превзошла Whisper-large-v3 от OpenAI на всех 25 языках, Gemini 3.1 Flash от Google — на 22 из 25, а ElevenLabs Scribe v2 и GPT-Transcribe от OpenAI — на 15 из 25.

FLEURS (Few-shot Learning Evaluation of Universal Representations of Speech) — мультиязычный бенчмарк для оценки моделей распознавания речи, охватывающий 102 языка. Создан на основе корпуса FLoRes-101 и содержит около 12 часов размеченных аудиозаписей на каждый язык.

Архитектура MAI-Transcribe-1 сочетает текстовый декодер на основе трансформера с двунаправленным аудиокодировщиком. Модель принимает файлы MP3, WAV и FLAC размером до 200 МБ. Пакетная транскрибация работает в 2,5 раза быстрее, чем существующий сервис Microsoft Azure Fast. Диаризация (разделение речи по говорящим), контекстное смещение и потоковый режим обозначены как функции, которые появятся позже.

Диаризация — процесс автоматического определения и разделения реплик разных говорящих в аудиозаписи. Применяется при транскрибации совещаний, интервью и телефонных переговоров.

MAI-Transcribe-1 уже тестируется в голосовом режиме Copilot и в Microsoft Teams для транскрибации разговоров. Это означает, что Microsoft планирует заменить сторонние и более старые собственные модели распознавания речи на MAI-Transcribe-1 внутри своих продуктов.

MAI-Voice-1: синтез речи за доли секунды

MAI-Voice-1 — модель синтеза речи, способная генерировать 60 секунд естественно звучащего аудио за одну секунду. Модель сохраняет идентичность говорящего в длинных текстах и позволяет создавать пользовательские голоса из нескольких секунд образца через Microsoft Foundry. Стоимость — $22 за 1 млн символов.

MAI-Voice-1 напрямую конкурирует с ElevenLabs, Resemble AI и растущей экосистемой голосовых ИИ-стартапов. При этом у Microsoft есть преимущество дистрибуции: любой разработчик на Foundry может использовать эту модель через тот же API, что и GPT-4 или Claude.

MAI-Image-2: генерация изображений в тройке лидеров

MAI-Image-2 вошла в тройку лидеров на площадке Arena.ai и генерирует изображения как минимум вдвое быстрее предшественника MAI-Image-1. Стоимость — $5 за 1 млн токенов на входе (текст) и $33 за 1 млн токенов на выходе (изображения). Модель уже внедряется в Bing и PowerPoint.

Одним из первых корпоративных партнёров стала WPP — крупнейший в мире рекламный холдинг, получивший API-доступ для работы с MAI-Image-2 в масштабе.

Команды по 10 человек и вдвое меньше GPU

Самая неожиданная деталь запуска — размер команд. По словам Сулеймана, модель распознавания речи создали 10 человек, а команда по генерации изображений насчитывает менее 10 специалистов. Основной прирост скорости, эффективности и точности обеспечили архитектура модели и данные для обучения, а не количество инженеров.

Моя философия всегда заключалась в том, что нам нужно меньше людей, но с большими полномочиями. Поэтому мы работаем в предельно плоской структуре.

Для сравнения: Meta, по словам Сулеймана, делает ставку на массовый набор, предлагая отдельным исследователям компенсации от $100 до $200 млн. Малые команды, производящие модели мирового уровня, радикально меняют экономику: если можно построить лучшую в классе транскрибацию силами 10 инженеров и половины стандартного количества GPU, структура маржинальности ИИ-бизнеса Microsoft фундаментально отличается от конкурентов.

Контракт с OpenAI и путь к независимости

До пересмотра соглашения с OpenAI в октябре 2025 года Microsoft не имела права самостоятельно разрабатывать AGI (искусственный общий интеллект) или суперинтеллект. Первоначальный договор 2019 года давал Microsoft лицензию на модели OpenAI в обмен на облачную инфраструктуру. Когда OpenAI начала расширять вычислительные мощности за пределы Microsoft, заключая сделки с SoftBank и другими компаниями, стороны пересмотрели условия.

Новые условия позволили Microsoft создавать собственные передовые модели, сохранив при этом лицензионные права на всё, что разрабатывает OpenAI, до 2032 года. Партнёрство продолжается, но подтекст очевиден: Microsoft строит возможность работать самостоятельно.

Передовая модель (frontier model) — модель ИИ, находящаяся на переднем крае возможностей по одной или нескольким модальностям (текст, изображения, аудио, рассуждения). Определяется не фиксированным порогом, а положением относительно лучших существующих систем.

Ценовая стратегия: ниже Amazon и Google

Microsoft намеренно установила цены ниже, чем у Amazon и Google. MAI-Voice-1 стоит $22 за миллион символов, MAI-Image-2 — $5 за миллион входных токенов. Сулейман назвал это осознанным решением.

Стратегия имеет смысл для Microsoft, которая может распределять затраты на разработку моделей среди огромной базы корпоративных клиентов. Одновременно модели, работающие на половине GPU конкурентов, снижают себестоимость собственных продуктов Microsoft — Teams, Copilot, Bing, PowerPoint. Акции компании упали примерно на 17% с начала года, и инвесторы всё настойчивее требуют доказательств того, что сотни миллиардов долларов, вложенных в ИИ-инфраструктуру, принесут возврат.

Следующий шаг — собственная большая языковая модель

Сулейман прямо заявил, что транскрибация, голос и изображения — только начало. На вопрос о создании большой языковой модели, способной конкурировать с GPT на передовом уровне, он ответил однозначно: Microsoft будет создавать модели мирового уровня по всем модальностям и стремится к полной независимости.

Подразделение MAI Superintelligence было формально создано осенью 2025 года. Сулейман описал многолетнюю дорожную карту по масштабированию GPU-кластеров, а Сатья Наделла лично прилетел на встречу команды в Майами, чтобы обсудить план ИИ-независимости на ближайшие 2–4 года.

Создание конкурентоспособной передовой LLM — задача принципиально иного масштаба по сложности, объёму данных и вычислительным затратам. Представленные модели специализированы: они работают с аудио и изображениями, но не с общими рассуждениями и генерацией текста, которые лежат в основе ChatGPT и Copilot. У Сулеймана есть организационный мандат, поддержка Наделлы и контрактная свобода. Чего пока нет — подтверждённого результата в самой сложной задаче ИИ в рамках Microsoft.

В марте 2026 года Сулейман был освобождён от оперативного управления Copilot — эту роль занял Джейкоб Андреу, бывший топ-менеджер Snap, назначенный исполнительным вице-президентом по потребительскому и коммерческому направлениям Copilot.

Microsoft выпустила три собственные ИИ-модели – дешевле, чем у Amazon и Google