Anthropic выпустила Claude Opus 4.8: новый флагман с улучшенными рассуждениями и агентными возможностями

279 комментарии
Anthropic обновила флагманскую модель до Claude Opus 4.8 по цене Opus 4.7. На большинстве тестов программирования, рассуждений и интеллектуальной работы новая версия опережает GPT-5.5 и Gemini 3.1 Pro, а её поведение в агентных сценариях стало аккуратнее и честнее

Anthropic выпустила Claude Opus 4.8 — обновление флагманской модели Opus 4.7. Цена осталась прежней: 5 долларов за миллион входных токенов и 25 – за миллион выходных. Вместе с моделью стали доступны управление уровнем усилий в claude.ai и Cowork, динамические рабочие процессы (dynamic workflows) в Claude Code и удешевлённый быстрый режим. По данным Anthropic, на части тестов Opus 4.8 опережает GPT-5.5 и Gemini 3.1 Pro.

comss img 2026 05 29 082538

Opus 4.8 против GPT-5.5 и Gemini 3.1 Pro

Anthropic привела сравнение Opus 4.8 с предшественником и конкурентами на тестах программирования, агентных навыков, рассуждений и интеллектуальной работы. По большинству из них Opus 4.8 занимает первое место среди четырёх моделей; исключение — терминальное программирование (Terminal-Bench 2.1), где впереди GPT-5.5 с 78,2% против 74,6% у Opus 4.8.

Агентные задачи — сценарии, в которых модель действует относительно самостоятельно: вызывает инструменты, выполняет многошаговые операции и доводит работу до результата с минимальным участием человека.

Тест Opus 4.8 Opus 4.7 GPT-5.5 Gemini 3.1 Pro
Агентное программирование (SWE-Bench Pro)69,2%64,3%58,6%54,2%
Терминальное программирование (Terminal-Bench 2.1)74,6%66,1%78,2%70,3%
Междисциплинарные рассуждения, без инструментов (Humanity's Last Exam)49,8%46,9%41,4%44,4%
Междисциплинарные рассуждения, с инструментами57,9%54,7%52,2%51,4%
Агентное управление компьютером (OSWorld-Verified)83,4%82,8%78,7%76,2%
Интеллектуальная работа (GDPval-AA)1890175317691314
Агентный финансовый анализ (Finance Agent v2)53,9%51,5%51,8%43,0%

Наибольший отрыв от Opus 4.7 — в терминальном программировании: плюс 8,5 процентного пункта. Полный набор оценок приведён в Системной карте Claude Opus 4.8.

Меньше необоснованных утверждений и пропущенных дефектов кода

Главным сдвигом в Anthropic называют честность. Все модели компании обучают не делать заявлений, которые нечем подтвердить, но распространённая проблема ИИ — поспешные выводы, когда модель уверенно заявляет о прогрессе при слабых основаниях. Ранние тестировщики сообщают, что Opus 4.8 чаще отмечает неуверенность в собственных результатах и реже выдаёт утверждения без подтверждения.

На внутренних тестах это подтверждается: дефекты в написанном коде остаются без замечаний примерно вчетверо реже, чем у Opus 4.7.

У Claude Opus 4.8 заметно более здравые суждения. В Claude Code модель задаёт правильные вопросы, замечает собственные ошибки, возражает, когда план ненадёжен, и набирает уверенность в сложных исследованиях с несколькими сервисами, прежде чем вносить крупные изменения.

— Том Притчард, Staff Engineer, Shopify

Нежелательное поведение на уровне Mythos Preview

Перед выпуском команда Anthropic по согласованию (alignment) провела оценку безопасности. По её выводам, у Opus 4.8 новые рекордные показатели просоциальных качеств — поддержки самостоятельности пользователя и действий в его интересах.

comss img 2026 05 29 082626

Частота нежелательного поведения — обмана или содействия злоупотреблению — у Opus 4.8 существенно ниже, чем у Opus 4.7, и сопоставима с Claude Mythos Preview, лучшей по этому показателю моделью компании. На внутренней шкале нежелательного поведения (от 1 до 10, где меньше — лучше) показатель Opus 4.8 заметно ниже, чем у Opus 4.7, и почти совпадает с Mythos Preview. Полная оценка и набор предрелизных тестов безопасности приведены в той же системной карте.

Управление усилием, динамические рабочие процессы и Messages API

Вместе с моделью вышли три обновления. Управление уровнем усилий появилось в claude.ai и Cowork: рядом с выбором модели добавили регулятор того, сколько усилий тратить на ответ. На высоких уровнях модель рассуждает чаще и глубже, на низких — отвечает быстрее и медленнее расходует лимиты запросов. Регулятор доступен на всех тарифах.

В Claude Code появились динамические рабочие процессы (dynamic workflows) — пока в режиме исследовательского превью. В этом режиме сначала составляется план, затем в одной сессии запускаются сотни параллельных субагентов, а результаты проверяются перед выдачей пользователю; с Opus 4.8 субагенты работают дольше. Например, связка Claude Code и Opus 4.8 способна провести миграцию кодовой базы в сотни тысяч строк — от запуска до слияния, — а критерием служит имеющийся набор тестов. Функция доступна в Claude Code на тарифах Enterprise, Team и Max; подробнее — в отдельной публикации.

Субагенты — отдельные экземпляры модели, которым основной процесс поручает части общей задачи; они выполняются параллельно, а их результаты затем сводятся воедино.

Messages API теперь принимает системные записи (system) внутри массива messages. Это позволяет менять инструкции для модели по ходу задачи, не разрушая кэш промптов и не оформляя обновление как реплику пользователя. На практике так обновляют разрешения, бюджеты токенов или контекст окружения прямо во время работы агента.

Кэш промптов — механизм, при котором повторяющаяся часть запроса сохраняется на стороне сервиса, что снижает стоимость и задержку последующих обращений.

Уровни усилий и быстрый режим

По умолчанию Opus 4.8 работает на уровне усилий high — в Anthropic считают это лучшим балансом качества и удобства. На задачах по программированию этот уровень расходует примерно столько же токенов, сколько режим по умолчанию у Opus 4.7, но результат при этом выше. Доступны и более высокие уровни — extra (в Claude Code он называется xhigh) и max: на них модель тратит больше токенов ради качества. Для сложных задач и длительных асинхронных процессов в компании рекомендуют extra. Лимиты запросов в Claude Code повысили, чтобы покрыть возросший расход токенов на высоких уровнях усилий.

Быстрый режим (fast mode) для Opus 4.8 работает в 2,5 раза быстрее обычного и теперь обходится втрое дешевле, чем у предыдущих моделей. Его тарификация — 10 долларов за миллион входных токенов и 50 за миллион выходных.

Claude Mythos и дальнейшие планы Anthropic

В Anthropic работают над моделями уровня Opus с меньшей стоимостью, а также готовят новый класс моделей, более производительных, чем Opus. В рамках инициативы Project Glasswing доступ к Claude Mythos Preview для задач кибербезопасности получило небольшое число организаций. Модели уровня Mythos требуют более строгих защитных механизмов против злоупотреблений, прежде чем стать общедоступными; в компании рассчитывают открыть их всем клиентам в ближайшие недели.

Кому пригодится Opus 4.8

Opus 4.8 — умеренное, но ощутимое обновление Opus 4.7: те же цены, прибавка на бенчмарках и более аккуратное поведение в агентных сценариях. Тем, кто уже работает с Opus, переход не потребует пересмотра бюджета. Управление усилием в claude.ai и Cowork даёт рядовым пользователям тот же выбор между скоростью и глубиной, что прежде был только в Claude Code. Модель доступна через Claude API по идентификатору claude-opus-4-8. Главное ожидание ближайших недель — выход моделей уровня Mythos.

Как получить доступ к Claude в России

Comss.one DNS предоставляет бесплатный доступ к популярным зарубежным сервисам, которые ограничили свою работу в России. В том числе вы сможете использовать все популярные ИИ-сервисы (ChatGPT и Sora, Microsoft Copilot, Google Gemini и Google ImageFX, xAI Grok), а также выполнять установку антивирусов и их обновлений, инсайдерских сборок и обновлений Windows.

Примечание. Стоит учитывать, что хотя Comss.one DNS может помочь в получении доступа к сайту, будет невозможно получить доступ к заблокированным учетным записям.

Примечание. Comss.one DNS не позволяет получать доступ к сайтам и сервисам, заблокированным Роскомнадзором (РКН) на территории России.

Настройка Comss.one DNS:

Проверка работы Comss.one DNS:

  • Для проверки корректности настройки DNS перейдите на страницу Comss.one DNS. Вы должны увидеть, что Comss.one DNS настроен.

  • Если проверка не пройдена, убедитесь, что в вашей ОС или браузере не настроен другой DNS-over-HTTPS.
  • После проверки перезагрузите устройство, чтобы изменения вступили в силу.

Использование Claude Sonnet:

Автор:
Комментарии и отзывы

Нашли ошибку?

Новое на сайте