DeepSeek представила модель V4-Pro: 93,5% LiveCodeBench и 3206 Codeforces

Китайский стартап DeepSeek 24 апреля выпустил предварительную версию большой языковой модели V4 в двух вариантах — DeepSeek-V4-Pro на 1,6 трлн параметров и DeepSeek-V4-Flash на 284 млрд параметров. Обе модели используют архитектуру Mixture-of-Experts (MoE) и поддерживают контекст в 1 млн токенов. Веса опубликованы на Hugging Face под лицензией MIT. Релиз совпал с подтверждением Huawei, что кластер на базе ускорителей Ascend полностью совместим с V4.

Две модели: Pro и Flash

DeepSeek-V4-Pro содержит 1,6 трлн параметров, из которых активируется 49 млрд на токен. Flash — 284 млрд общих параметров и 13 млрд активируемых. Контекст у обеих моделей — 1 млн токенов, максимальная длина вывода — 384 тыс. токенов. Веса моделей используют смешанную точность: параметры экспертов MoE хранятся в FP4, остальные — в FP8.

Mixture-of-Experts — архитектура, при которой модель состоит из множества специализированных подсетей-экспертов, но на каждый токен активируется лишь их часть. Это снижает вычислительную нагрузку при инференсе без пропорционального сокращения качества.

Обе модели поддерживают три режима рассуждений: Non-think (быстрый ответ без видимой цепочки), Think High (логический анализ со средним бюджетом на размышление) и Think Max (максимальное усилие). В режиме Think Max разработчики рекомендуют задавать окно контекста не менее 384 тыс. токенов.

Архитектура: гибридное внимание и оптимизатор Muon

Главное изменение относительно V3.2 — гибридный механизм внимания Hybrid Attention Architecture, сочетающий Compressed Sparse Attention (CSA) и Heavily Compressed Attention (HCA). По данным технического отчёта, в сценарии с контекстом 1 млн токенов V4-Pro требует 27% от числа операций с плавающей точкой на один токен и 10% объёма KV-кэша по сравнению с V3.2.

Разработчики также внедрили Manifold-Constrained Hyper-Connections (mHC) — усовершенствованные остаточные связи, повышающие стабильность распространения сигнала между слоями. Для обучения применялся оптимизатор Muon. Предобучение провели на 32 трлн токенов с последующим постобучением по двухэтапной схеме: сначала независимая подготовка экспертов по доменам через SFT и RL с алгоритмом GRPO, затем консолидация навыков в единой модели через on-policy дистилляцию.

Codeforces 3206 и LiveCodeBench 93,5% у V4-Pro Max

В техническом отчёте DeepSeek-V4-Pro-Max (режим максимального усилия) сравнивается с ведущими закрытыми моделями и открытыми китайскими конкурентами. На бенчмарке LiveCodeBench результат V4-Pro Max — 93,5% против 91,7 у Gemini 3.1 Pro, 89,6 у Kimi K2.6 Thinking и 88,8 у Opus 4.6 Max. На Codeforces рейтинг V4-Pro Max составляет 3206 — выше, чем у GPT-5.4 xHigh с 3168. На IMOAnswerBench — 89,8%, уступая GPT-5.4 xHigh с 91,4, но опережая Gemini 3.1 Pro (81,0), Kimi K2.6 Thinking (86,0) и Opus 4.6 Max (75,3). По общим знаниям (MMLU-Pro, GPQA Diamond) Gemini 3.1 Pro с результатами 91,0 и 94,3 удерживает первенство, V4-Pro Max показывает 87,5 и 90,1.

Бенчмарк	Opus 4.6 Max	GPT-5.4 xHigh	Gemini 3.1 Pro	Kimi K2.6 Thinking	GLM-5.1 Thinking	V4-Pro Max
MMLU-Pro	89,1	87,5	91,0	87,1	86,0	87,5
GPQA Diamond	91,3	93,0	94,3	90,5	86,2	90,1
LiveCodeBench	88,8	-	91,7	89,6	-	93,5
Codeforces (рейтинг)	-	3168	3052	-	-	3206
HMMT 2026 Feb	96,2	97,7	94,7	92,7	89,4	95,2
IMOAnswerBench	75,3	91,4	81,0	86,0	83,8	89,8
SWE Verified	80,8	-	80,6	80,2	-	80,6
SWE Pro	57,3	57,7	54,2	58,6	58,4	55,4
MRCR 1M (длинный контекст)	92,9	-	76,3	-	-	83,5
GDPval-AA (Elo)	1619	1674	1314	1482	1535	1554

На бенчмарке MRCR с длиной контекста 1 млн токенов, ориентированном на извлечение информации, лидерство остаётся за Opus 4.6 Max с 92,9% против 83,5 у V4-Pro Max. Аналогичная картина на CorpusQA 1M: 71,7 против 62,0. На экономическом бенчмарке GDPval-AA, оценивающем полезность в задачах интеллектуального труда, результат V4-Pro Max — 1554 балла Elo против 1674 у GPT-5.4 xHigh и 1619 у Opus 4.6 Max. Среди открытых китайских моделей V4-Pro Max опережает Kimi K2.6 Thinking (1482) и GLM-5.1 Thinking (1535), но на бенчмарке SWE Pro уступает обоим (55,4 против 58,6 и 58,4 соответственно).

Цены API и миграция с V3

Модели доступны через API DeepSeek в формате OpenAI по адресу api.deepseek.com и в формате Anthropic по адресу api.deepseek.com/anthropic. Стоимость V4-Pro при промахе кэша — ,74 за 1 млн входных токенов и ,48 за 1 млн выходных. При попадании в кэш входные токены дешевеют до {PAGE_TEXT},145 за 1 млн. Flash обходится в {PAGE_TEXT},14 за входные токены при промахе кэша и {PAGE_TEXT},28 за выходные. Имена deepseek-chat и deepseek-reasoner, которые ранее указывали на V3.2, теперь маршрутизируются на V4-Flash в режимах без рассуждений и с рассуждениями соответственно; по информации разработчиков, эти имена будут признаны устаревшими.

В V4 разработчики провели оптимизацию под популярные агентские инструменты для разработки: Claude Code от Anthropic, OpenClaw, OpenCode и CodeBuddy.

Huawei Ascend и рост акций SMIC и Hua Hong

Одновременно с релизом Huawei подтвердили, что супернод Ascend на базе ускорителей Ascend 950 полностью совместим с V4. В техническом отчёте DeepSeek указали на использование ускорителей и NVIDIA, и Huawei без разделения ролей на обучение и инференс. По сообщению Reuters от 3 апреля, подготовку V4 вели с опорой на новейшие ускорители Huawei, а Alibaba, ByteDance и Tencent заранее размещали крупные заказы на эти ускорители суммарным объёмом в сотни тысяч единиц.

На Гонконгской бирже в пятницу котировки китайских контрактных производителей чипов выросли: SMIC — на 8,9%, Hua Hong Semiconductor — на 15,2%. При этом акции других китайских разработчиков моделей снижались: MiniMax и Zhipu (Knowledge Atlas Technology) потеряли около 8%, Manycore Tech — 9%.

Заключение

Релиз V4 стал первым крупным выпуском модели верхнего эшелона у DeepSeek после R1 и вывел компанию в прямые конкуренты закрытым лидерам в задачах программирования и рассуждений при отставании на бенчмарках с длинным контекстом и в оценках экономической ценности интеллектуального труда. Открытая лицензия MIT, совместимость с агентскими инструментами уровня Claude Code и цена ,74 за 1 млн входных токенов у Pro ставят модель в один ряд с китайскими открытыми аналогами — GLM и Kimi K2.6. Вариант Flash с 13 млрд активных параметров и ценой {PAGE_TEXT},14 за входные токены рассчитан на задачи, где избыточен Pro: классификация, суммаризация, агентские сценарии среднего уровня.