OpenAI открыла ограниченный предварительный доступ к серии GPT-5.6 – трём моделям с раздельными уровнями возможностей: флагманской Sol, сбалансированной Terra для повседневных задач и быстрой недорогой Luna. В серии появились новый уровень усилий max для глубоких рассуждений и режим ultra, в котором сложная работа распределяется между вспомогательными агентами. На старте доступ ограничен узким кругом доверенных партнёров – по согласованию с правительством США, на фоне переговоров о порядке выпуска моделей с повышенными возможностями в кибербезопасности. Широкий запуск в ChatGPT, Codex и API в OpenAI обещают в ближайшие недели.
Серия GPT-5.6: Sol, Terra и Luna
Модели серии различаются балансом интеллекта, скорости и цены. Sol – флагман и самая способная модель компании. Terra рассчитана на повседневную работу: по результатам она сопоставима с GPT-5.5, но вдвое дешевле. Luna – самый недорогой вариант, который при минимальной цене сохраняет высокий уровень возможностей.
Вместе с GPT-5.6 в OpenAI ввели и новую схему наименований. Цифра теперь обозначает поколение, а Sol, Terra и Luna – постоянные классы возможностей, каждый из которых может развиваться в собственном темпе. По замыслу компании, такое деление даёт пользователям и разработчикам более понятный выбор между интеллектом, скоростью и стоимостью.
Уровень усилий max и режим ultra
С новым уровнем усилий max у Sol появляется максимум времени на рассуждения. Отдельно представлен режим ultra: в нём работа выходит за рамки одного агента и распределяется между вспомогательными агентами, что ускоряет выполнение объёмных задач. На диаграммах OpenAI конфигурация с этим режимом обозначена отдельно – как Sol Ultra.
Sol и Sol Ultra на Terminal-Bench 2.1

В программировании Sol показала лучший на сегодня результат на Terminal-Bench 2.1. Режим Sol Ultra набрал 91,9%, обычная Sol – 88,8%. Полные значения по протестированным моделям приведены в таблице.
Terminal-Bench 2.1 – набор задач для работы в командной строке, требующих планирования, нескольких итераций и согласованной работы с инструментами.
| Модель | Результат |
|---|---|
| GPT-5.6 Sol Ultra | 91,9% |
| GPT-5.6 Sol | 88,8% |
| Claude Mythos 5 | 88,0% |
| GPT-5.6 Terra | 84,3% |
| Claude Fable 5 | 84,3% |
| GPT-5.5 | 83,4% |
| GPT-5.6 Luna | 82,5% |
| Claude Opus 4.8 | 78,9% |
| Gemini 3.1 Pro Preview | 70,7% |
Биология и кибербезопасность: GeneBench, ExploitBench и ExploitGym
На тесте GeneBench v1 – продолжительном геномном и количественном биологическом анализе – Sol показала более сильные результаты, чем GPT-5.5, и затратила при этом меньше токенов.
Самой способной своей моделью в кибербезопасности в OpenAI называют именно Sol: она смещает баланс между качеством и расходом ресурсов в длительных задачах, таких как поиск уязвимостей и их эксплуатация. На тесте ExploitBench она сопоставима с Mythos Preview, расходуя около трети выходных токенов. На ExploitGym – бенчмарке исследователей Калифорнийского университета в Беркли, созданном совместно с OpenAI и другими ведущими ИИ-лабораториями, – Sol, Terra и Luna заметно прибавляют по мере роста уровня усилий на рассуждения.
По оценке компании, Sol не пересекает порог Cyber Critical в системе оценки готовности Preparedness Framework. В тестах на Chromium и Firefox модель находила ошибки и примитивы эксплуатации – строительные блоки эксплойта, – но в заданных условиях не собрала самостоятельно законченный эксплойт с полной цепочкой. В OpenAI уточняют, что пороги бенчмарков не охватывают всех способов применения модели; Sol при этом лучше помогает находить и устранять уязвимости, чем доводить атаки до конца.
Многослойная защита и red-teaming
Sol снабдили самым серьёзным на сегодня набором защитных механизмов компании. Усилены меры против действий повышенного риска, чувствительных запросов по кибербезопасности и повторяющихся злоупотреблений; конфигурации защиты подобраны под возможности каждой модели.
Защита выстроена слоями: ограничения, встроенные в саму модель; проверки в реальном времени во время генерации; сигналы на уровне аккаунта; разграниченный доступ и мониторинг. Классификаторы недопустимого использования по кибербезопасности и биологии оценивают вывод по мере генерации. В случаях повышенного риска генерация может приостанавливаться для дополнительной проверки более крупной рассуждающей моделью, и если вывод признан недопустимым, пользователю его не показывают. Отдельные запросы при этом могут блокироваться или выполняться дольше обычного – в том числе на легитимных задачах двойного назначения, где оборонительная и наступательная активность поначалу трудноотличимы.
Чтобы защита оставалась эффективной против меняющейся тактики атак, в OpenAI направили на безопасность больше вычислений, чем когда-либо. На автоматический red-teaming ушло свыше 700 тысяч GPU-часов в эквиваленте ускорителей A100; цель – находить универсальные обходы ограничений, которые работают на множестве запросов и сценариев, а не в одном узком случае. Помимо автоматических проверок, сторонние специалисты вели ручной red-teaming силами экспертов – он продолжится и во время предварительного доступа.
Red-teaming – поиск слабых мест системы через имитацию действий злоумышленника. OpenAI вела его как автоматически, силами собственных моделей, так и с участием сторонних экспертов.
Ограниченный доступ по согласованию с правительством США
В рамках взаимодействия с правительством США в OpenAI заранее показали свои планы и возможности моделей. По просьбе властей компания начала с ограниченного предварительного доступа для небольшой группы доверенных партнёров, чьё участие согласовано с правительством, – и только затем планирует расширять круг пользователей.
При этом в OpenAI отмечают, что не считают такой порядок государственного согласования приемлемым на постоянной основе: по их словам, он лишает пользователей, разработчиков, бизнес и специалистов по защите доступа к лучшим инструментам. Шаг назван временным; параллельно компания работает с администрацией над рамочным механизмом на основе президентского указа о кибербезопасности и над повторяемой процедурой для будущих релизов.
Подробнее о требовании властей США и условиях ограниченного выпуска – в материале «GPT-5.6 от OpenAI выпустят ограниченно по требованию властей США».
Цены, кеширование и запуск на Cerebras
На время предварительного доступа GPT-5.6 открыта через API и Codex для отобранных партнёров и организаций; более широкий доступ в ChatGPT, Codex и API в компании обещают вскоре. Стоимость указана за миллион токенов: Sol – 5 долларов за входные и 30 за выходные, Terra – 2,5 и 15, Luna – 1 и 6.
Кеширование промптов в GPT-5.6 стало более предсказуемым: появились явные точки кеширования и минимальное время жизни кеша в 30 минут. Для GPT-5.6 и более поздних моделей запись в кеш тарифицируется в 1,25 раза дороже обычной цены входных токенов, а чтение из кеша сохраняет скидку 90% от той же цены.
Запуск на платформе Cerebras намечен на : Sol заработает со скоростью до 750 токенов в секунду, а на старте доступ получат лишь отдельные клиенты, пока OpenAI наращивает мощности.
Заключение
GPT-5.6 закрепляет новую схему названий OpenAI: цифра – это поколение, а Sol, Terra и Luna – постоянные классы возможностей со своим темпом развития. Для разработчиков ключевое – доступ через API и Codex, новые уровни рассуждений и более предсказуемое кеширование промптов. Пока модели открыты узкому кругу партнёров, и сроки широкого запуска зависят и от технической готовности, и от согласования с регуляторами. Тем, кто занимается защитой инфраструктуры, заявленный рост возможностей в поиске уязвимостей способен дать практический инструмент – при тех ограничениях, которые OpenAI встроила в доступ.