OpenAI выпустила GPT-5.5 — модель обошла Claude Opus 4.7 и Gemini 3.1 Pro

296 комментарии
Флагман OpenAI набрал 82,7% на Terminal-Bench 2.0 против 69,4% у Opus 4.7 и 75,1% у GPT-5.4. Задержка на токен осталась на уровне предшественника, а на Graphwalks с окном 1 миллион токенов точность выросла с 9,4% до 45,4%

Компания OpenAI представила новую флагманскую модель GPT-5.5, которая обошла Claude Opus 4.7 и Gemini 3.1 Pro по большинству стандартных тестов. На Terminal-Bench 2.0 модель показала результат 82,7% против 69,4% у Opus 4.7 и 75,1% у предшественницы GPT-5.4. GPT-5.5 становится доступна подписчикам Plus, Pro, Business и Enterprise в ChatGPT и Codex, вариант GPT-5.5 Pro — только в ChatGPT для тарифов Pro, Business и Enterprise. Доступ через API заявлен на ближайшее время по тарифу за миллион входных токенов и за выходных, а вариант Pro обойдётся в шесть раз дороже. Ключевая особенность релиза — задержка на токен сохранена на уровне GPT-5.4 при заметно более высокой точности на длинных задачах.

Скачок автономности и понимание архитектуры кода

По словам президента и сооснователя OpenAI Грега Брокмана, GPT-5.5 задумана как шаг к агентным вычислениям в промышленном масштабе. На пресс-брифинге Брокман подчеркнул, что модели требуется меньше указаний: она способна взять расплывчатую задачу и спланировать ближайшие шаги без подробного инструктажа.

Это новый класс интеллекта. Большой шаг в сторону более агентных и интуитивно понятных вычислений.

— Грег Брокман, президент и сооснователь OpenAI

В OpenAI сделали ставку на три прикладные области: программирование, работа с компьютером и ранние этапы научных исследований. В прежних поколениях требовалось дробить процесс на мелкие шаги и подробно описывать каждый, иначе терялся контекст. В GPT-5.5 команда усилила автономность: модель анализирует запутанный запрос, переключается между документами и таблицами, ведёт поиск в интернете и отлаживает обширные репозитории без прямого вмешательства оператора.

Сильнее всего прирост виден в Codex — агентном интерфейсе OpenAI для программирования. Ведущие инженеры, получившие ранний доступ, отметили, что GPT-5.5 ощутимо сильнее GPT-5.4 и Claude Opus 4.7 в рассуждениях и автономной работе: модель замечает потенциальные проблемы заранее и предсказывает, какие тесты и проверки понадобятся, без явных указаний. В одном из сценариев инженер попросил переработать архитектуру системы комментариев в редакторе Markdown для совместной работы и получил стек из 12 диффов почти в готовом виде.

Основатель и CEO Every Дэн Шиппер описал новую модель как первую, у которой есть концептуальная ясность в программировании. Он воспроизвёл ранее решённую задачу по отладке приложения после запуска: над ней несколько дней работал один из его лучших инженеров, прежде чем переписать часть системы. Когда Шиппер дал GPT-5.5 тот же сломанный код, модель предложила ту же переработку, на которую в итоге вышел инженер вручную. GPT-5.4 этот же сценарий пройти не смогла. CEO MagicPath Пьетро Скирано зафиксировал аналогичный сдвиг при слиянии ветки с сотнями frontend-изменений и рефакторингов в основную ветку — работа уложилась в один проход длительностью около 20 минут.

Скорость инференса и аппаратная связка с NVIDIA

Главный технический результат релиза — отсутствие замедления при росте интеллекта. Обычно более крупные модели выдают токены медленнее, но в реальной эксплуатации GPT-5.5 сохраняет ту же задержку на токен, что и GPT-5.4. В OpenAI объясняют это тем, что модель проектировали, обучали и обслуживают на системах NVIDIA GB200 и GB300 NVL72. Разбиение и балансировку запросов между ядрами GPU выполняют эвристические алгоритмы, которые сама GPT-5.5 в паре с Codex написала после анализа нескольких недель реального трафика. По данным OpenAI, эта оптимизация подняла скорость генерации токенов более чем на 20%.

В ChatGPT доступен режим GPT-5.5 Thinking с более глубокими рассуждениями: модели отводится дополнительное внутреннее время на перепроверку собственных предположений. Заметнее всего это проявляется на внутреннем тесте Expert-SWE — наборе задач по программированию с длинным горизонтом, медианное время решения которых у человека оценивается примерно в 20 часов. На этом тесте GPT-5.5 набрала 73,1% против 68,5% у GPT-5.4, причём при меньшем расходе токенов.

Expert-SWE — внутренний тест OpenAI для длинных задач программной инженерии. От модели требуется держать контекст всей задачи, проверять предположения с помощью инструментов и доводить изменения до состояния, которое проходит тесты. Медианное время выполнения теми же задачами у инженера-человека — около 20 часов.

Бенчмарки: где GPT-5.5 лидирует и где уступает Opus 4.7

Неделю назад, 16 апреля 2026 года, Anthropic открыла публичный доступ к Claude Opus 4.7, и эта модель ненадолго возглавила лидерборды по числу бенчмарков с рекордным результатом. С выходом GPT-5.5 лидерство вернулось к OpenAI: по официальной сводной таблице компании, новая модель получает лучший результат на большинстве тестов из подборки.

Тест GPT-5.5 GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro
Terminal-Bench 2.082,7%75,1%69,4%68,5%
SWE-Bench Pro58,6%57,7%64,3%*54,2%
Expert-SWE (внутренний)73,1%68,5%
GDPval84,9%83,0%80,3%67,3%
OSWorld-Verified78,7%75,0%78,0%
BrowseComp84,4%82,7%79,3%85,9%
FrontierMath Tier 1—351,7%47,6%43,8%36,9%
FrontierMath Tier 435,4%27,1%22,9%16,7%
ARC-AGI-2 (Verified)85,0%73,3%75,8%77,1%
CyberGym81,8%79,0%73,1%
GPQA Diamond93,6%92,8%94,2%94,3%
Humanity's Last Exam (без инструментов)41,4%39,8%46,9%44,4%
Tau2-bench Telecom98,0%92,8%

* Звёздочка у SWE-Bench Pro для Opus 4.7 в официальной таблице OpenAI означает: есть свидетельства запоминания задач моделями, поэтому сравнение на этом тесте нужно воспринимать с оговоркой. На практике это означает, что отрыв Anthropic в программной инженерии не стоит считать однозначно подтверждённым.

GPT-5.5 доминирует в агентной работе с компьютером (OSWorld-Verified), интеллектуальном труде (GDPval), сложной математике (FrontierMath), кибербезопасности (CyberGym) и абстрактных рассуждениях (ARC-AGI-2). Claude Opus 4.7 удерживает чистые академические рассуждения без инструментов (Humanity's Last Exam) и формально лидирует на SWE-Bench Pro с оговоркой о возможном запоминании задач. Gemini 3.1 Pro лучше в поиске по вебу на BrowseComp.

Главный структурный сдвиг — в поведении на длинных контекстах. На тесте Graphwalks с обходом в ширину на последовательностях до 1 миллиона токенов GPT-5.5 набрала 45,4% против 9,4% у GPT-5.4 и 41,2% у Opus 4.6. На OpenAI MRCR v2 с восемью целевыми фрагментами в диапазоне 512K—1M токенов результат GPT-5.5 составил 74,0% против 36,6% у GPT-5.4 и 32,2% у Opus 4.7. Именно рост точности в окнах свыше 256 тысяч токенов отличает GPT-5.5 от предшественницы сильнее всего.

Цены API: вход вдвое дороже, Pro — в шесть раз

Рост возможностей сопровождается заметным пересмотром тарифов для разработчиков.

Модель Вход, за 1M токенов Выход, за 1M токенов Окно контекста
GPT-5.42,50 долларов15,00 долларов1M
GPT-5.55,00 долларов30,00 долларов1M
GPT-5.5 Pro30,00 долларов180,00 долларов1M

Входной тариф GPT-5.5 ровно вдвое выше GPT-5.4, выходной — тоже вдвое. Вариант Pro стоит дороже базовой GPT-5.5 в шесть раз и нацелен на задачи с максимальными требованиями к точности. OpenAI предлагает два стандартных пути экономии: тарифы Batch и Flex идут за половину обычного, зато Priority processing с ускоренной обработкой стоит 2,5x стандартного. Контекстное окно в API — 1 миллион токенов.

В качестве компенсации роста цены в OpenAI делают ставку на токен-эффективность: GPT-5.5 решает ту же задачу меньшим числом токенов по сравнению с GPT-5.4. На трёх ключевых тестах — Terminal-Bench 2.0, SWE-Bench Pro и Expert-SWE — GPT-5.5 одновременно обгоняет GPT-5.4 по точности и расходует меньше токенов. В Codex по словам команды настройки подобраны так, чтобы для большинства пользователей GPT-5.5 выдавала результат дешевле GPT-5.4 за счёт сокращения числа повторных попыток.

В Codex GPT-5.5 доступна подписчикам Plus, Pro, Business, Enterprise, Edu и Go с контекстным окном 400 тысяч токенов. Отдельный режим Fast в Codex генерирует токены в 1,5 раза быстрее при наценке 2,5x. Предыдущая модель GPT-5.4 остаётся в каталоге по прежней цене — ровно вдвое дешевле нового флагмана. Запуск GPT-5.5 и GPT-5.5 Pro в API OpenAI обещает «очень скоро», без конкретной даты.

Кибербезопасность уровня High и программа Trusted Access for Cyber

В Preparedness Framework OpenAI обе профильные способности GPT-5.5 — биологические/химические и кибер — отнесены к уровню High. Уровня Critical по кибербезопасности модель не достигла, но её возможности, по оценке OpenAI, выросли относительно GPT-5.4. До релиза модель прошла полный цикл проверки: внутреннее и внешнее red-team-тестирование, доменно-специфические оценки и обратную связь от почти 200 доверенных партнёров с ранним доступом.

Для снижения рисков в OpenAI ввели более строгие классификаторы потенциально опасных запросов в массовом ChatGPT, усилили защиту от повторных попыток обхода и отдельно отстроили контроль сценариев с высоким риском. Параллельно запущена программа Trusted Access for Cyber: верифицированные специалисты по защите критической инфраструктуры — от энергосетей и водоснабжения до систем обработки налоговых данных — получают расширенный доступ с меньшим числом отказов на запросы, связанные с безопасностью. Старт программы — в Codex с расширенным доступом к кибервозможностям GPT-5.5. Отдельная модель GPT-5.4-Cyber с ослабленными ограничениями доступна организациям, ответственным за защиту критической инфраструктуры, при соблюдении жёстких требований к безопасности. Заявку можно подать на chatgpt.com/cyber.

Preparedness Framework — внутренняя методология OpenAI для оценки потенциально опасных возможностей моделей с градацией риска. Уровень High означает, что модель способна заметно ускорить работу специалиста в чувствительной области (кибератаки, биология), но ещё не даёт качественно новых возможностей. Уровень Critical предполагает такой прирост, который OpenAI считает несовместимым с публичным релизом без дополнительных ограничений.

Как OpenAI использует GPT-5.5 у себя

Более 85% сотрудников OpenAI пользуются Codex еженедельно — от программной инженерии до финансов, коммуникаций, маркетинга, аналитики данных и продакт-менеджмента. В релизе приведено три конкретных внутренних кейса.

  • Команда коммуникаций на базе GPT-5.5 в Codex проанализировала полгода заявок на публичные выступления, построила систему скоринга и оценки рисков и валидировала Slack-агента, который автоматически обрабатывает безопасные заявки, а спорные отправляет на проверку человеку.
  • Финансовая команда за счёт Codex разобрала 24 771 налоговую форму K-1 общим объёмом 71 637 страниц (персональные данные из рабочего процесса исключили) — задача выполнена на две недели быстрее, чем в прошлом году.
  • Сотрудник команды go-to-market автоматизировал подготовку еженедельных бизнес-отчётов, сэкономив 5—10 часов в неделю.

Биоинформатика, математика и экономия месяцев работы

GPT-5.5 показала улучшения на задачах научного и технического анализа. На GeneBench — новом тесте для многоэтапного анализа данных в генетике и количественной биологии — результат вырос с 19,0% у GPT-5.4 до 25,0% у GPT-5.5, а GPT-5.5 Pro доходит до 33,2%. На BixBench, ориентированном на реальные задачи биоинформатики, GPT-5.5 набрала 80,5% против 74,0% у GPT-5.4.

Внутренняя версия GPT-5.5 с собственной обвязкой помогла найти новое асимптотическое доказательство относительно внедиагональных чисел Рамсея — одного из центральных объектов комбинаторики. Полученное доказательство впоследствии проверили в системе Lean. Это конкретный пример, когда модель предложила не код и не объяснение, а математический аргумент в основной области исследований.

Профессор иммунологии и исследователь Jackson Laboratory for Genomic Medicine Дерья Унутмаз использовал GPT-5.5 Pro для анализа набора данных экспрессии генов из 62 образцов и почти 28 тысяч генов. Подробный научный отчёт, на который у его команды ушли бы месяцы, модель подготовила за минуты. Доцент математики Университета Адама Мицкевича в Познани Бартош Наскренцкий через один промпт в Codex построил за 11 минут веб-приложение для алгебраической геометрии, визуализирующее пересечение квадратичных поверхностей и переводящее получившуюся кривую в модель Вейерштрасса.

При тестировании в Artificial Analysis Coding Index новая модель, по оценке OpenAI, демонстрирует рекордный уровень интеллекта при вдвое меньшей стоимости по сравнению с конкурирующими флагманами для программирования.

Запас по обучению и положение флагманов к концу апреля

Главный научный сотрудник OpenAI Якуб Пахоцки на том же брифинге дал понять, что потолок масштабирования далеко не достигнут:

У нас по-прежнему есть запас, чтобы обучать заметно более умные модели, чем эта.

— Якуб Пахоцки, главный научный сотрудник OpenAI

Для разработчиков, выбирающих между тремя американскими флагманами, картина к концу апреля 2026 года выглядит так. GPT-5.5 выигрывает в агентной работе с компьютером, на экономически полезных задачах интеллектуального труда, в сложной математике и на длинных контекстах от 256 тысяч токенов. Claude Opus 4.7 остаётся сильным выбором для программной инженерии и рассуждений без инструментов. Gemini 3.1 Pro удерживает позиции в поиске по вебу. Выигрыш в качестве GPT-5.5 получен ценой удвоения входного тарифа API, и окупится ли он на конкретном сценарии — вопрос замера расхода токенов на собственных задачах, а не сравнения бенчмарков в отрыве от стоимости.

Как получить доступ к ChatGPT-5.5 в России

В ряде стран, включая Россию, доступ к ChatGPT ограничен. Однако вы можете использовать возможности новой ИИ-модели GPT-5.5, настроив Comss.one DNS на вашем устройстве по следующим инструкциям:

Настройка Comss.one DNS

Проверка работы Comss.one DNS:

  • Для проверки корректности настройки DNS перейдите на страницу Comss.one DNS. Вы должны увидеть сообщение, что Comss.one DNS настроен.

  • Если проверка не пройдена, убедитесь, что в вашей ОС или браузере не настроен другой DNS-over-HTTPS.
  • После проверки перезагрузите устройство, чтобы изменения вступили в силу.

Использование ChatGPT

  • Откройте веб-версию ChatGPT или используйте мобильные и настольные приложениях ChatGPT:
  • Войдите в свой аккаунт. Вы сможете выбрать модель ChatGPT-5.5 из списка, как только она станет доступна для вашей учетной записи.

Автор:
Комментарии и отзывы

Нашли ошибку?

Новое на сайте