Китайский стартап DeepSeek выпустил предварительную версию большой языковой модели V4 в двух вариантах — DeepSeek-V4-Pro на 1,6 трлн параметров и DeepSeek-V4-Flash на 284 млрд параметров. Обе модели используют архитектуру Mixture-of-Experts (MoE) и поддерживают контекст в 1 млн токенов. Веса опубликованы на Hugging Face под лицензией MIT. Релиз совпал с подтверждением Huawei, что кластер на базе ускорителей Ascend полностью совместим с V4.
Две модели: Pro и Flash
DeepSeek-V4-Pro содержит 1,6 трлн параметров, из которых активируется 49 млрд на токен. Flash — 284 млрд общих параметров и 13 млрд активируемых. Контекст у обеих моделей — 1 млн токенов, максимальная длина вывода — 384 тыс. токенов. Веса моделей используют смешанную точность: параметры экспертов MoE хранятся в FP4, остальные — в FP8.
Mixture-of-Experts — архитектура, при которой модель состоит из множества специализированных подсетей-экспертов, но на каждый токен активируется лишь их часть. Это снижает вычислительную нагрузку при инференсе без пропорционального сокращения качества.
Обе модели поддерживают три режима рассуждений: Non-think (быстрый ответ без видимой цепочки), Think High (логический анализ со средним бюджетом на размышление) и Think Max (максимальное усилие). В режиме Think Max разработчики рекомендуют задавать окно контекста не менее 384 тыс. токенов.
Архитектура: гибридное внимание и оптимизатор Muon
Главное изменение относительно V3.2 — гибридный механизм внимания Hybrid Attention Architecture, сочетающий Compressed Sparse Attention (CSA) и Heavily Compressed Attention (HCA). По данным технического отчёта, в сценарии с контекстом 1 млн токенов V4-Pro требует 27% от числа операций с плавающей точкой на один токен и 10% объёма KV-кэша по сравнению с V3.2.
Разработчики также внедрили Manifold-Constrained Hyper-Connections (mHC) — усовершенствованные остаточные связи, повышающие стабильность распространения сигнала между слоями. Для обучения применялся оптимизатор Muon. Предобучение провели на 32 трлн токенов с последующим постобучением по двухэтапной схеме: сначала независимая подготовка экспертов по доменам через SFT и RL с алгоритмом GRPO, затем консолидация навыков в единой модели через on-policy дистилляцию.
Codeforces 3206 и LiveCodeBench 93,5% у V4-Pro Max
В техническом отчёте DeepSeek-V4-Pro-Max (режим максимального усилия) сравнивается с ведущими закрытыми моделями и открытыми китайскими конкурентами. На бенчмарке LiveCodeBench результат V4-Pro Max — 93,5% против 91,7 у Gemini 3.1 Pro, 89,6 у Kimi K2.6 Thinking и 88,8 у Opus 4.6 Max. На Codeforces рейтинг V4-Pro Max составляет 3206 — выше, чем у GPT-5.4 xHigh с 3168. На IMOAnswerBench — 89,8%, уступая GPT-5.4 xHigh с 91,4, но опережая Gemini 3.1 Pro (81,0), Kimi K2.6 Thinking (86,0) и Opus 4.6 Max (75,3). По общим знаниям (MMLU-Pro, GPQA Diamond) Gemini 3.1 Pro с результатами 91,0 и 94,3 удерживает первенство, V4-Pro Max показывает 87,5 и 90,1.
| Бенчмарк | Opus 4.6 Max | GPT-5.4 xHigh | Gemini 3.1 Pro | Kimi K2.6 Thinking | GLM-5.1 Thinking | V4-Pro Max |
|---|---|---|---|---|---|---|
| MMLU-Pro | 89,1 | 87,5 | 91,0 | 87,1 | 86,0 | 87,5 |
| GPQA Diamond | 91,3 | 93,0 | 94,3 | 90,5 | 86,2 | 90,1 |
| LiveCodeBench | 88,8 | - | 91,7 | 89,6 | - | 93,5 |
| Codeforces (рейтинг) | - | 3168 | 3052 | - | - | 3206 |
| HMMT 2026 Feb | 96,2 | 97,7 | 94,7 | 92,7 | 89,4 | 95,2 |
| IMOAnswerBench | 75,3 | 91,4 | 81,0 | 86,0 | 83,8 | 89,8 |
| SWE Verified | 80,8 | - | 80,6 | 80,2 | - | 80,6 |
| SWE Pro | 57,3 | 57,7 | 54,2 | 58,6 | 58,4 | 55,4 |
| MRCR 1M (длинный контекст) | 92,9 | - | 76,3 | - | - | 83,5 |
| GDPval-AA (Elo) | 1619 | 1674 | 1314 | 1482 | 1535 | 1554 |
На бенчмарке MRCR с длиной контекста 1 млн токенов, ориентированном на извлечение информации, лидерство остаётся за Opus 4.6 Max с 92,9% против 83,5 у V4-Pro Max. Аналогичная картина на CorpusQA 1M: 71,7 против 62,0. На экономическом бенчмарке GDPval-AA, оценивающем полезность в задачах интеллектуального труда, результат V4-Pro Max — 1554 балла Elo против 1674 у GPT-5.4 xHigh и 1619 у Opus 4.6 Max. Среди открытых китайских моделей V4-Pro Max опережает Kimi K2.6 Thinking (1482) и GLM-5.1 Thinking (1535), но на бенчмарке SWE Pro уступает обоим (55,4 против 58,6 и 58,4 соответственно).
Цены API и миграция с V3
Модели доступны через API DeepSeek в формате OpenAI по адресу api.deepseek.com и в формате Anthropic по адресу api.deepseek.com/anthropic. Стоимость V4-Pro при промахе кэша — ,74 за 1 млн входных токенов и ,48 за 1 млн выходных. При попадании в кэш входные токены дешевеют до {PAGE_TEXT},145 за 1 млн. Flash обходится в {PAGE_TEXT},14 за входные токены при промахе кэша и {PAGE_TEXT},28 за выходные. Имена deepseek-chat и deepseek-reasoner, которые ранее указывали на V3.2, теперь маршрутизируются на V4-Flash в режимах без рассуждений и с рассуждениями соответственно; по информации разработчиков, эти имена будут признаны устаревшими.
В V4 разработчики провели оптимизацию под популярные агентские инструменты для разработки: Claude Code от Anthropic, OpenClaw, OpenCode и CodeBuddy.
Huawei Ascend и рост акций SMIC и Hua Hong
Одновременно с релизом Huawei подтвердили, что супернод Ascend на базе ускорителей Ascend 950 полностью совместим с V4. В техническом отчёте DeepSeek указали на использование ускорителей и NVIDIA, и Huawei без разделения ролей на обучение и инференс. По сообщению Reuters от , подготовку V4 вели с опорой на новейшие ускорители Huawei, а Alibaba, ByteDance и Tencent заранее размещали крупные заказы на эти ускорители суммарным объёмом в сотни тысяч единиц.
На Гонконгской бирже в пятницу котировки китайских контрактных производителей чипов выросли: SMIC — на 8,9%, Hua Hong Semiconductor — на 15,2%. При этом акции других китайских разработчиков моделей снижались: MiniMax и Zhipu (Knowledge Atlas Technology) потеряли около 8%, Manycore Tech — 9%.
Заключение
Релиз V4 стал первым крупным выпуском модели верхнего эшелона у DeepSeek после R1 и вывел компанию в прямые конкуренты закрытым лидерам в задачах программирования и рассуждений при отставании на бенчмарках с длинным контекстом и в оценках экономической ценности интеллектуального труда. Открытая лицензия MIT, совместимость с агентскими инструментами уровня Claude Code и цена ,74 за 1 млн входных токенов у Pro ставят модель в один ряд с китайскими открытыми аналогами — GLM и Kimi K2.6. Вариант Flash с 13 млрд активных параметров и ценой {PAGE_TEXT},14 за входные токены рассчитан на задачи, где избыточен Pro: классификация, суммаризация, агентские сценарии среднего уровня.