Anthropic выпустила Claude Opus 4.8 — обновление флагманской модели Opus 4.7. Цена осталась прежней: 5 долларов за миллион входных токенов и 25 – за миллион выходных. Вместе с моделью стали доступны управление уровнем усилий в claude.ai и Cowork, динамические рабочие процессы (dynamic workflows) в Claude Code и удешевлённый быстрый режим. По данным Anthropic, на части тестов Opus 4.8 опережает GPT-5.5 и Gemini 3.1 Pro.

Opus 4.8 против GPT-5.5 и Gemini 3.1 Pro
Anthropic привела сравнение Opus 4.8 с предшественником и конкурентами на тестах программирования, агентных навыков, рассуждений и интеллектуальной работы. По большинству из них Opus 4.8 занимает первое место среди четырёх моделей; исключение — терминальное программирование (Terminal-Bench 2.1), где впереди GPT-5.5 с 78,2% против 74,6% у Opus 4.8.
Агентные задачи — сценарии, в которых модель действует относительно самостоятельно: вызывает инструменты, выполняет многошаговые операции и доводит работу до результата с минимальным участием человека.
| Тест | Opus 4.8 | Opus 4.7 | GPT-5.5 | Gemini 3.1 Pro |
|---|---|---|---|---|
| Агентное программирование (SWE-Bench Pro) | 69,2% | 64,3% | 58,6% | 54,2% |
| Терминальное программирование (Terminal-Bench 2.1) | 74,6% | 66,1% | 78,2% | 70,3% |
| Междисциплинарные рассуждения, без инструментов (Humanity's Last Exam) | 49,8% | 46,9% | 41,4% | 44,4% |
| Междисциплинарные рассуждения, с инструментами | 57,9% | 54,7% | 52,2% | 51,4% |
| Агентное управление компьютером (OSWorld-Verified) | 83,4% | 82,8% | 78,7% | 76,2% |
| Интеллектуальная работа (GDPval-AA) | 1890 | 1753 | 1769 | 1314 |
| Агентный финансовый анализ (Finance Agent v2) | 53,9% | 51,5% | 51,8% | 43,0% |
Наибольший отрыв от Opus 4.7 — в терминальном программировании: плюс 8,5 процентного пункта. Полный набор оценок приведён в Системной карте Claude Opus 4.8.
Меньше необоснованных утверждений и пропущенных дефектов кода
Главным сдвигом в Anthropic называют честность. Все модели компании обучают не делать заявлений, которые нечем подтвердить, но распространённая проблема ИИ — поспешные выводы, когда модель уверенно заявляет о прогрессе при слабых основаниях. Ранние тестировщики сообщают, что Opus 4.8 чаще отмечает неуверенность в собственных результатах и реже выдаёт утверждения без подтверждения.
На внутренних тестах это подтверждается: дефекты в написанном коде остаются без замечаний примерно вчетверо реже, чем у Opus 4.7.
У Claude Opus 4.8 заметно более здравые суждения. В Claude Code модель задаёт правильные вопросы, замечает собственные ошибки, возражает, когда план ненадёжен, и набирает уверенность в сложных исследованиях с несколькими сервисами, прежде чем вносить крупные изменения.
— Том Притчард, Staff Engineer, Shopify
Нежелательное поведение на уровне Mythos Preview
Перед выпуском команда Anthropic по согласованию (alignment) провела оценку безопасности. По её выводам, у Opus 4.8 новые рекордные показатели просоциальных качеств — поддержки самостоятельности пользователя и действий в его интересах.

Частота нежелательного поведения — обмана или содействия злоупотреблению — у Opus 4.8 существенно ниже, чем у Opus 4.7, и сопоставима с Claude Mythos Preview, лучшей по этому показателю моделью компании. На внутренней шкале нежелательного поведения (от 1 до 10, где меньше — лучше) показатель Opus 4.8 заметно ниже, чем у Opus 4.7, и почти совпадает с Mythos Preview. Полная оценка и набор предрелизных тестов безопасности приведены в той же системной карте.
Управление усилием, динамические рабочие процессы и Messages API
Вместе с моделью вышли три обновления. Управление уровнем усилий появилось в claude.ai и Cowork: рядом с выбором модели добавили регулятор того, сколько усилий тратить на ответ. На высоких уровнях модель рассуждает чаще и глубже, на низких — отвечает быстрее и медленнее расходует лимиты запросов. Регулятор доступен на всех тарифах.
В Claude Code появились динамические рабочие процессы (dynamic workflows) — пока в режиме исследовательского превью. В этом режиме сначала составляется план, затем в одной сессии запускаются сотни параллельных субагентов, а результаты проверяются перед выдачей пользователю; с Opus 4.8 субагенты работают дольше. Например, связка Claude Code и Opus 4.8 способна провести миграцию кодовой базы в сотни тысяч строк — от запуска до слияния, — а критерием служит имеющийся набор тестов. Функция доступна в Claude Code на тарифах Enterprise, Team и Max; подробнее — в отдельной публикации.
Субагенты — отдельные экземпляры модели, которым основной процесс поручает части общей задачи; они выполняются параллельно, а их результаты затем сводятся воедино.
Messages API теперь принимает системные записи (system) внутри массива messages. Это позволяет менять инструкции для модели по ходу задачи, не разрушая кэш промптов и не оформляя обновление как реплику пользователя. На практике так обновляют разрешения, бюджеты токенов или контекст окружения прямо во время работы агента.
Кэш промптов — механизм, при котором повторяющаяся часть запроса сохраняется на стороне сервиса, что снижает стоимость и задержку последующих обращений.
Уровни усилий и быстрый режим
По умолчанию Opus 4.8 работает на уровне усилий high — в Anthropic считают это лучшим балансом качества и удобства. На задачах по программированию этот уровень расходует примерно столько же токенов, сколько режим по умолчанию у Opus 4.7, но результат при этом выше. Доступны и более высокие уровни — extra (в Claude Code он называется xhigh) и max: на них модель тратит больше токенов ради качества. Для сложных задач и длительных асинхронных процессов в компании рекомендуют extra. Лимиты запросов в Claude Code повысили, чтобы покрыть возросший расход токенов на высоких уровнях усилий.
Быстрый режим (fast mode) для Opus 4.8 работает в 2,5 раза быстрее обычного и теперь обходится втрое дешевле, чем у предыдущих моделей. Его тарификация — 10 долларов за миллион входных токенов и 50 за миллион выходных.
Claude Mythos и дальнейшие планы Anthropic
В Anthropic работают над моделями уровня Opus с меньшей стоимостью, а также готовят новый класс моделей, более производительных, чем Opus. В рамках инициативы Project Glasswing доступ к Claude Mythos Preview для задач кибербезопасности получило небольшое число организаций. Модели уровня Mythos требуют более строгих защитных механизмов против злоупотреблений, прежде чем стать общедоступными; в компании рассчитывают открыть их всем клиентам в ближайшие недели.
Кому пригодится Opus 4.8
Opus 4.8 — умеренное, но ощутимое обновление Opus 4.7: те же цены, прибавка на бенчмарках и более аккуратное поведение в агентных сценариях. Тем, кто уже работает с Opus, переход не потребует пересмотра бюджета. Управление усилием в claude.ai и Cowork даёт рядовым пользователям тот же выбор между скоростью и глубиной, что прежде был только в Claude Code. Модель доступна через Claude API по идентификатору claude-opus-4-8. Главное ожидание ближайших недель — выход моделей уровня Mythos.

