Anthropic выпустила Claude Opus 4.8: новый флагман с улучшенными рассуждениями и агентными возможностями

Anthropic выпустила Claude Opus 4.8 — обновление флагманской модели Opus 4.7. Цена осталась прежней: 5 долларов за миллион входных токенов и 25 – за миллион выходных. Вместе с моделью 28 мая стали доступны управление уровнем усилий в claude.ai и Cowork, динамические рабочие процессы (dynamic workflows) в Claude Code и удешевлённый быстрый режим. По данным Anthropic, на части тестов Opus 4.8 опережает GPT-5.5 и Gemini 3.1 Pro.

Opus 4.8 против GPT-5.5 и Gemini 3.1 Pro

Anthropic привела сравнение Opus 4.8 с предшественником и конкурентами на тестах программирования, агентных навыков, рассуждений и интеллектуальной работы. По большинству из них Opus 4.8 занимает первое место среди четырёх моделей; исключение — терминальное программирование (Terminal-Bench 2.1), где впереди GPT-5.5 с 78,2% против 74,6% у Opus 4.8.

Агентные задачи — сценарии, в которых модель действует относительно самостоятельно: вызывает инструменты, выполняет многошаговые операции и доводит работу до результата с минимальным участием человека.

Тест	Opus 4.8	Opus 4.7	GPT-5.5	Gemini 3.1 Pro
Агентное программирование (SWE-Bench Pro)	69,2%	64,3%	58,6%	54,2%
Терминальное программирование (Terminal-Bench 2.1)	74,6%	66,1%	78,2%	70,3%
Междисциплинарные рассуждения, без инструментов (Humanity's Last Exam)	49,8%	46,9%	41,4%	44,4%
Междисциплинарные рассуждения, с инструментами	57,9%	54,7%	52,2%	51,4%
Агентное управление компьютером (OSWorld-Verified)	83,4%	82,8%	78,7%	76,2%
Интеллектуальная работа (GDPval-AA)	1890	1753	1769	1314
Агентный финансовый анализ (Finance Agent v2)	53,9%	51,5%	51,8%	43,0%

Наибольший отрыв от Opus 4.7 — в терминальном программировании: плюс 8,5 процентного пункта. Полный набор оценок приведён в Системной карте Claude Opus 4.8.

Меньше необоснованных утверждений и пропущенных дефектов кода

Главным сдвигом в Anthropic называют честность. Все модели компании обучают не делать заявлений, которые нечем подтвердить, но распространённая проблема ИИ — поспешные выводы, когда модель уверенно заявляет о прогрессе при слабых основаниях. Ранние тестировщики сообщают, что Opus 4.8 чаще отмечает неуверенность в собственных результатах и реже выдаёт утверждения без подтверждения.

На внутренних тестах это подтверждается: дефекты в написанном коде остаются без замечаний примерно вчетверо реже, чем у Opus 4.7.

У Claude Opus 4.8 заметно более здравые суждения. В Claude Code модель задаёт правильные вопросы, замечает собственные ошибки, возражает, когда план ненадёжен, и набирает уверенность в сложных исследованиях с несколькими сервисами, прежде чем вносить крупные изменения.

— Том Притчард, Staff Engineer, Shopify

Нежелательное поведение на уровне Mythos Preview

Перед выпуском команда Anthropic по согласованию (alignment) провела оценку безопасности. По её выводам, у Opus 4.8 новые рекордные показатели просоциальных качеств — поддержки самостоятельности пользователя и действий в его интересах.

Частота нежелательного поведения — обмана или содействия злоупотреблению — у Opus 4.8 существенно ниже, чем у Opus 4.7, и сопоставима с Claude Mythos Preview, лучшей по этому показателю моделью компании. На внутренней шкале нежелательного поведения (от 1 до 10, где меньше — лучше) показатель Opus 4.8 заметно ниже, чем у Opus 4.7, и почти совпадает с Mythos Preview. Полная оценка и набор предрелизных тестов безопасности приведены в той же системной карте.

Управление усилием, динамические рабочие процессы и Messages API

Вместе с моделью вышли три обновления. Управление уровнем усилий появилось в claude.ai и Cowork: рядом с выбором модели добавили регулятор того, сколько усилий тратить на ответ. На высоких уровнях модель рассуждает чаще и глубже, на низких — отвечает быстрее и медленнее расходует лимиты запросов. Регулятор доступен на всех тарифах.

В Claude Code появились динамические рабочие процессы (dynamic workflows) — пока в режиме исследовательского превью. В этом режиме сначала составляется план, затем в одной сессии запускаются сотни параллельных субагентов, а результаты проверяются перед выдачей пользователю; с Opus 4.8 субагенты работают дольше. Например, связка Claude Code и Opus 4.8 способна провести миграцию кодовой базы в сотни тысяч строк — от запуска до слияния, — а критерием служит имеющийся набор тестов. Функция доступна в Claude Code на тарифах Enterprise, Team и Max; подробнее — в отдельной публикации.

Субагенты — отдельные экземпляры модели, которым основной процесс поручает части общей задачи; они выполняются параллельно, а их результаты затем сводятся воедино.

Messages API теперь принимает системные записи (system) внутри массива messages. Это позволяет менять инструкции для модели по ходу задачи, не разрушая кэш промптов и не оформляя обновление как реплику пользователя. На практике так обновляют разрешения, бюджеты токенов или контекст окружения прямо во время работы агента.

Кэш промптов — механизм, при котором повторяющаяся часть запроса сохраняется на стороне сервиса, что снижает стоимость и задержку последующих обращений.

Уровни усилий и быстрый режим

По умолчанию Opus 4.8 работает на уровне усилий high — в Anthropic считают это лучшим балансом качества и удобства. На задачах по программированию этот уровень расходует примерно столько же токенов, сколько режим по умолчанию у Opus 4.7, но результат при этом выше. Доступны и более высокие уровни — extra (в Claude Code он называется xhigh) и max: на них модель тратит больше токенов ради качества. Для сложных задач и длительных асинхронных процессов в компании рекомендуют extra. Лимиты запросов в Claude Code повысили, чтобы покрыть возросший расход токенов на высоких уровнях усилий.

Быстрый режим (fast mode) для Opus 4.8 работает в 2,5 раза быстрее обычного и теперь обходится втрое дешевле, чем у предыдущих моделей. Его тарификация — 10 долларов за миллион входных токенов и 50 за миллион выходных.

Claude Mythos и дальнейшие планы Anthropic

В Anthropic работают над моделями уровня Opus с меньшей стоимостью, а также готовят новый класс моделей, более производительных, чем Opus. В рамках инициативы Project Glasswing доступ к Claude Mythos Preview для задач кибербезопасности получило небольшое число организаций. Модели уровня Mythos требуют более строгих защитных механизмов против злоупотреблений, прежде чем стать общедоступными; в компании рассчитывают открыть их всем клиентам в ближайшие недели.

Кому пригодится Opus 4.8

Opus 4.8 — умеренное, но ощутимое обновление Opus 4.7: те же цены, прибавка на бенчмарках и более аккуратное поведение в агентных сценариях. Тем, кто уже работает с Opus, переход не потребует пересмотра бюджета. Управление усилием в claude.ai и Cowork даёт рядовым пользователям тот же выбор между скоростью и глубиной, что прежде был только в Claude Code. Модель доступна через Claude API по идентификатору claude-opus-4-8. Главное ожидание ближайших недель — выход моделей уровня Mythos.

Anthropic выпустила Claude Opus 4.8: новый флагман с улучшенными рассуждениями и агентными возможностями

Opus 4.8 против GPT-5.5 и Gemini 3.1 Pro

Меньше необоснованных утверждений и пропущенных дефектов кода

Нежелательное поведение на уровне Mythos Preview

Управление усилием, динамические рабочие процессы и Messages API

Уровни усилий и быстрый режим

Claude Mythos и дальнейшие планы Anthropic

Кому пригодится Opus 4.8

Как получить доступ к Claude в России

Настройка Comss.one DNS:

Проверка работы Comss.one DNS:

Использование Claude Sonnet:

Обновления программ, что нового

Новое на сайте