DeepSeek представила модель V4-Pro: 93,5% LiveCodeBench и 3206 Codeforces

222 комментарии
DeepSeek представила открытую модель V4-Pro-Max: 93,5% на LiveCodeBench (бенчмарк соревновательного программирования) против 88,8 у Opus 4.6 Max и рейтинг 3206 на Codeforces против 3168 у GPT-5.4 xHigh

Китайский стартап DeepSeek выпустил предварительную версию большой языковой модели V4 в двух вариантах — DeepSeek-V4-Pro на 1,6 трлн параметров и DeepSeek-V4-Flash на 284 млрд параметров. Обе модели используют архитектуру Mixture-of-Experts (MoE) и поддерживают контекст в 1 млн токенов. Веса опубликованы на Hugging Face под лицензией MIT. Релиз совпал с подтверждением Huawei, что кластер на базе ускорителей Ascend полностью совместим с V4.

Две модели: Pro и Flash

DeepSeek-V4-Pro содержит 1,6 трлн параметров, из которых активируется 49 млрд на токен. Flash — 284 млрд общих параметров и 13 млрд активируемых. Контекст у обеих моделей — 1 млн токенов, максимальная длина вывода — 384 тыс. токенов. Веса моделей используют смешанную точность: параметры экспертов MoE хранятся в FP4, остальные — в FP8.

Mixture-of-Experts — архитектура, при которой модель состоит из множества специализированных подсетей-экспертов, но на каждый токен активируется лишь их часть. Это снижает вычислительную нагрузку при инференсе без пропорционального сокращения качества.

Обе модели поддерживают три режима рассуждений: Non-think (быстрый ответ без видимой цепочки), Think High (логический анализ со средним бюджетом на размышление) и Think Max (максимальное усилие). В режиме Think Max разработчики рекомендуют задавать окно контекста не менее 384 тыс. токенов.

Архитектура: гибридное внимание и оптимизатор Muon

Главное изменение относительно V3.2 — гибридный механизм внимания Hybrid Attention Architecture, сочетающий Compressed Sparse Attention (CSA) и Heavily Compressed Attention (HCA). По данным технического отчёта, в сценарии с контекстом 1 млн токенов V4-Pro требует 27% от числа операций с плавающей точкой на один токен и 10% объёма KV-кэша по сравнению с V3.2.

Разработчики также внедрили Manifold-Constrained Hyper-Connections (mHC) — усовершенствованные остаточные связи, повышающие стабильность распространения сигнала между слоями. Для обучения применялся оптимизатор Muon. Предобучение провели на 32 трлн токенов с последующим постобучением по двухэтапной схеме: сначала независимая подготовка экспертов по доменам через SFT и RL с алгоритмом GRPO, затем консолидация навыков в единой модели через on-policy дистилляцию.

Codeforces 3206 и LiveCodeBench 93,5% у V4-Pro Max

В техническом отчёте DeepSeek-V4-Pro-Max (режим максимального усилия) сравнивается с ведущими закрытыми моделями и открытыми китайскими конкурентами. На бенчмарке LiveCodeBench результат V4-Pro Max — 93,5% против 91,7 у Gemini 3.1 Pro, 89,6 у Kimi K2.6 Thinking и 88,8 у Opus 4.6 Max. На Codeforces рейтинг V4-Pro Max составляет 3206 — выше, чем у GPT-5.4 xHigh с 3168. На IMOAnswerBench — 89,8%, уступая GPT-5.4 xHigh с 91,4, но опережая Gemini 3.1 Pro (81,0), Kimi K2.6 Thinking (86,0) и Opus 4.6 Max (75,3). По общим знаниям (MMLU-Pro, GPQA Diamond) Gemini 3.1 Pro с результатами 91,0 и 94,3 удерживает первенство, V4-Pro Max показывает 87,5 и 90,1.

Бенчмарк Opus 4.6 Max GPT-5.4 xHigh Gemini 3.1 Pro Kimi K2.6 Thinking GLM-5.1 Thinking V4-Pro Max
MMLU-Pro 89,1 87,5 91,0 87,1 86,0 87,5
GPQA Diamond 91,3 93,0 94,3 90,5 86,2 90,1
LiveCodeBench 88,8 - 91,7 89,6 - 93,5
Codeforces (рейтинг) - 3168 3052 - - 3206
HMMT 2026 Feb 96,2 97,7 94,7 92,7 89,4 95,2
IMOAnswerBench 75,3 91,4 81,0 86,0 83,8 89,8
SWE Verified 80,8 - 80,6 80,2 - 80,6
SWE Pro 57,3 57,7 54,2 58,6 58,4 55,4
MRCR 1M (длинный контекст) 92,9 - 76,3 - - 83,5
GDPval-AA (Elo) 1619 1674 1314 1482 1535 1554

На бенчмарке MRCR с длиной контекста 1 млн токенов, ориентированном на извлечение информации, лидерство остаётся за Opus 4.6 Max с 92,9% против 83,5 у V4-Pro Max. Аналогичная картина на CorpusQA 1M: 71,7 против 62,0. На экономическом бенчмарке GDPval-AA, оценивающем полезность в задачах интеллектуального труда, результат V4-Pro Max — 1554 балла Elo против 1674 у GPT-5.4 xHigh и 1619 у Opus 4.6 Max. Среди открытых китайских моделей V4-Pro Max опережает Kimi K2.6 Thinking (1482) и GLM-5.1 Thinking (1535), но на бенчмарке SWE Pro уступает обоим (55,4 против 58,6 и 58,4 соответственно).

Цены API и миграция с V3

Модели доступны через API DeepSeek в формате OpenAI по адресу api.deepseek.com и в формате Anthropic по адресу api.deepseek.com/anthropic. Стоимость V4-Pro при промахе кэша — ,74 за 1 млн входных токенов и ,48 за 1 млн выходных. При попадании в кэш входные токены дешевеют до {PAGE_TEXT},145 за 1 млн. Flash обходится в {PAGE_TEXT},14 за входные токены при промахе кэша и {PAGE_TEXT},28 за выходные. Имена deepseek-chat и deepseek-reasoner, которые ранее указывали на V3.2, теперь маршрутизируются на V4-Flash в режимах без рассуждений и с рассуждениями соответственно; по информации разработчиков, эти имена будут признаны устаревшими.

В V4 разработчики провели оптимизацию под популярные агентские инструменты для разработки: Claude Code от Anthropic, OpenClaw, OpenCode и CodeBuddy.

Huawei Ascend и рост акций SMIC и Hua Hong

Одновременно с релизом Huawei подтвердили, что супернод Ascend на базе ускорителей Ascend 950 полностью совместим с V4. В техническом отчёте DeepSeek указали на использование ускорителей и NVIDIA, и Huawei без разделения ролей на обучение и инференс. По сообщению Reuters от , подготовку V4 вели с опорой на новейшие ускорители Huawei, а Alibaba, ByteDance и Tencent заранее размещали крупные заказы на эти ускорители суммарным объёмом в сотни тысяч единиц.

На Гонконгской бирже в пятницу котировки китайских контрактных производителей чипов выросли: SMIC — на 8,9%, Hua Hong Semiconductor — на 15,2%. При этом акции других китайских разработчиков моделей снижались: MiniMax и Zhipu (Knowledge Atlas Technology) потеряли около 8%, Manycore Tech — 9%.

Заключение

Релиз V4 стал первым крупным выпуском модели верхнего эшелона у DeepSeek после R1 и вывел компанию в прямые конкуренты закрытым лидерам в задачах программирования и рассуждений при отставании на бенчмарках с длинным контекстом и в оценках экономической ценности интеллектуального труда. Открытая лицензия MIT, совместимость с агентскими инструментами уровня Claude Code и цена ,74 за 1 млн входных токенов у Pro ставят модель в один ряд с китайскими открытыми аналогами — GLM и Kimi K2.6. Вариант Flash с 13 млрд активных параметров и ценой {PAGE_TEXT},14 за входные токены рассчитан на задачи, где избыточен Pro: классификация, суммаризация, агентские сценарии среднего уровня.

Автор:
Комментарии и отзывы

Нашли ошибку?

Новое на сайте