OpenAI представила GPT-5.6: модели Sol, Terra и Luna в раннем доступе

OpenAI открыла ограниченный предварительный доступ к серии GPT-5.6 – трём моделям с раздельными уровнями возможностей: флагманской Sol, сбалансированной Terra для повседневных задач и быстрой недорогой Luna. В серии появились новый уровень усилий max для глубоких рассуждений и режим ultra, в котором сложная работа распределяется между вспомогательными агентами. На старте доступ ограничен узким кругом доверенных партнёров – по согласованию с правительством США, на фоне переговоров о порядке выпуска моделей с повышенными возможностями в кибербезопасности. Широкий запуск в ChatGPT, Codex и API в OpenAI обещают в ближайшие недели.

Серия GPT-5.6: Sol, Terra и Luna

Модели серии различаются балансом интеллекта, скорости и цены. Sol – флагман и самая способная модель компании. Terra рассчитана на повседневную работу: по результатам она сопоставима с GPT-5.5, но вдвое дешевле. Luna – самый недорогой вариант, который при минимальной цене сохраняет высокий уровень возможностей.

Вместе с GPT-5.6 в OpenAI ввели и новую схему наименований. Цифра теперь обозначает поколение, а Sol, Terra и Luna – постоянные классы возможностей, каждый из которых может развиваться в собственном темпе. По замыслу компании, такое деление даёт пользователям и разработчикам более понятный выбор между интеллектом, скоростью и стоимостью.

Уровень усилий max и режим ultra

С новым уровнем усилий max у Sol появляется максимум времени на рассуждения. Отдельно представлен режим ultra: в нём работа выходит за рамки одного агента и распределяется между вспомогательными агентами, что ускоряет выполнение объёмных задач. На диаграммах OpenAI конфигурация с этим режимом обозначена отдельно – как Sol Ultra.

Sol и Sol Ultra на Terminal-Bench 2.1

В программировании Sol показала лучший на сегодня результат на Terminal-Bench 2.1. Режим Sol Ultra набрал 91,9%, обычная Sol – 88,8%. Полные значения по протестированным моделям приведены в таблице.

Terminal-Bench 2.1 – набор задач для работы в командной строке, требующих планирования, нескольких итераций и согласованной работы с инструментами.

Модель	Результат
GPT-5.6 Sol Ultra	91,9%
GPT-5.6 Sol	88,8%
Claude Mythos 5	88,0%
GPT-5.6 Terra	84,3%
Claude Fable 5	84,3%
GPT-5.5	83,4%
GPT-5.6 Luna	82,5%
Claude Opus 4.8	78,9%
Gemini 3.1 Pro Preview	70,7%

Биология и кибербезопасность: GeneBench, ExploitBench и ExploitGym

На тесте GeneBench v1 – продолжительном геномном и количественном биологическом анализе – Sol показала более сильные результаты, чем GPT-5.5, и затратила при этом меньше токенов.

Самой способной своей моделью в кибербезопасности в OpenAI называют именно Sol: она смещает баланс между качеством и расходом ресурсов в длительных задачах, таких как поиск уязвимостей и их эксплуатация. На тесте ExploitBench она сопоставима с Mythos Preview, расходуя около трети выходных токенов. На ExploitGym – бенчмарке исследователей Калифорнийского университета в Беркли, созданном совместно с OpenAI и другими ведущими ИИ-лабораториями, – Sol, Terra и Luna заметно прибавляют по мере роста уровня усилий на рассуждения.

По оценке компании, Sol не пересекает порог Cyber Critical в системе оценки готовности Preparedness Framework. В тестах на Chromium и Firefox модель находила ошибки и примитивы эксплуатации – строительные блоки эксплойта, – но в заданных условиях не собрала самостоятельно законченный эксплойт с полной цепочкой. В OpenAI уточняют, что пороги бенчмарков не охватывают всех способов применения модели; Sol при этом лучше помогает находить и устранять уязвимости, чем доводить атаки до конца.

Многослойная защита и red-teaming

Sol снабдили самым серьёзным на сегодня набором защитных механизмов компании. Усилены меры против действий повышенного риска, чувствительных запросов по кибербезопасности и повторяющихся злоупотреблений; конфигурации защиты подобраны под возможности каждой модели.

Защита выстроена слоями: ограничения, встроенные в саму модель; проверки в реальном времени во время генерации; сигналы на уровне аккаунта; разграниченный доступ и мониторинг. Классификаторы недопустимого использования по кибербезопасности и биологии оценивают вывод по мере генерации. В случаях повышенного риска генерация может приостанавливаться для дополнительной проверки более крупной рассуждающей моделью, и если вывод признан недопустимым, пользователю его не показывают. Отдельные запросы при этом могут блокироваться или выполняться дольше обычного – в том числе на легитимных задачах двойного назначения, где оборонительная и наступательная активность поначалу трудноотличимы.

Чтобы защита оставалась эффективной против меняющейся тактики атак, в OpenAI направили на безопасность больше вычислений, чем когда-либо. На автоматический red-teaming ушло свыше 700 тысяч GPU-часов в эквиваленте ускорителей A100; цель – находить универсальные обходы ограничений, которые работают на множестве запросов и сценариев, а не в одном узком случае. Помимо автоматических проверок, сторонние специалисты вели ручной red-teaming силами экспертов – он продолжится и во время предварительного доступа.

Red-teaming – поиск слабых мест системы через имитацию действий злоумышленника. OpenAI вела его как автоматически, силами собственных моделей, так и с участием сторонних экспертов.

Ограниченный доступ по согласованию с правительством США

В рамках взаимодействия с правительством США в OpenAI заранее показали свои планы и возможности моделей. По просьбе властей компания начала с ограниченного предварительного доступа для небольшой группы доверенных партнёров, чьё участие согласовано с правительством, – и только затем планирует расширять круг пользователей.

При этом в OpenAI отмечают, что не считают такой порядок государственного согласования приемлемым на постоянной основе: по их словам, он лишает пользователей, разработчиков, бизнес и специалистов по защите доступа к лучшим инструментам. Шаг назван временным; параллельно компания работает с администрацией над рамочным механизмом на основе президентского указа о кибербезопасности и над повторяемой процедурой для будущих релизов.

Подробнее о требовании властей США и условиях ограниченного выпуска – в материале «GPT-5.6 от OpenAI выпустят ограниченно по требованию властей США».

Цены, кеширование и запуск на Cerebras

На время предварительного доступа GPT-5.6 открыта через API и Codex для отобранных партнёров и организаций; более широкий доступ в ChatGPT, Codex и API в компании обещают вскоре. Стоимость указана за миллион токенов: Sol – 5 долларов за входные и 30 за выходные, Terra – 2,5 и 15, Luna – 1 и 6.

Кеширование промптов в GPT-5.6 стало более предсказуемым: появились явные точки кеширования и минимальное время жизни кеша в 30 минут. Для GPT-5.6 и более поздних моделей запись в кеш тарифицируется в 1,25 раза дороже обычной цены входных токенов, а чтение из кеша сохраняет скидку 90% от той же цены.

Запуск на платформе Cerebras намечен на июль: Sol заработает со скоростью до 750 токенов в секунду, а на старте доступ получат лишь отдельные клиенты, пока OpenAI наращивает мощности.

Заключение

GPT-5.6 закрепляет новую схему названий OpenAI: цифра – это поколение, а Sol, Terra и Luna – постоянные классы возможностей со своим темпом развития. Для разработчиков ключевое – доступ через API и Codex, новые уровни рассуждений и более предсказуемое кеширование промптов. Пока модели открыты узкому кругу партнёров, и сроки широкого запуска зависят и от технической готовности, и от согласования с регуляторами. Тем, кто занимается защитой инфраструктуры, заявленный рост возможностей в поиске уязвимостей способен дать практический инструмент – при тех ограничениях, которые OpenAI встроила в доступ.