OpenAI представила GPT-5.2: показатели на SWE-Bench Pro, контекст 256k и новые тарифы API

2025-12-11 300 комментарии
OpenAI выпустила модель GPT-5.2 с фокусом на агентные сценарии. Результативность на SWE-Bench Pro выросла до 55.6%, точность использования инструментов — до 98.7%. Обновлена стоимость API: 1.75 доллара за входные и 14 долларов за выходные токены с возможностью скидки 90% на кэш

Компания OpenAI официально анонсировала расширение линейки своих передовых (фронтир) моделей. Новая версия, получившая индекс GPT-5.2, позиционируется разработчиком как специализированный инструмент для решения комплексных профессиональных задач. Ключевые векторы развития модели - построение агентных пайплайнов, мультимодальная обработка данных и выполнение многочасовых операций с использованием длительного контекста.

Инженерные задачи и прогресс в кодинге

Существенный прирост производительности зафиксирован в сфере разработки программного обеспечения. Согласно результатам тестирования на SWE-Bench Pro, который считается одним из наиболее строгих бенчмарков для имитации реальной разработки, версия GPT-5.2 Thinking успешно решает 55.6% задач. Для сравнения, показатель предыдущей версии GPT-5.1 составлял 50.8%. В рамках упрощенного теста SWE-Bench Verified результативность достигает 80%.

Подобная динамика свидетельствует о снижении потребности в ручной доработке патчей и повышении стабильности при взаимодействии с крупными репозиториями. Фактически модель трансформируется из вспомогательного ассистента в инструмент, способный закрывать баги и реализовывать фичи в практически автономном режиме.

Участники раннего тестирования выделяют прогресс в работе с фронтендом. Система демонстрирует способность генерировать сложные интерфейсы, включая нетривиальные 3D-элементы и UI-компоненты, на основе одного объемного промпта. GPT-5.2 все чаще рассматривается как полноценное решение для full-stack задач, выходящее за рамки простого генератора кода.

Управление контекстом и работа с данными

Проблема потери информации в длинных диалогах получила эффективное техническое решение. Модель GPT-5.2 Thinking демонстрирует улучшенную работу с контекстным окном объемом до 256 тысяч токенов. В тестах MRCRv2 алгоритм показывает практически безошибочное извлечение целевых данных, даже если искомая информация находится среди сотен тысяч других токенов.

В практической плоскости данные улучшения позволяют загружать в систему многостраничные договоры, корпоративные отчеты, многофайловые проекты или архивы переписок без потери логической нити. Ответы модели сохраняют консистентность на протяжении всей сессии. Дополнительно внедрен новый compact-режим, позволяющий системе функционировать и «размышлять» за пределами стандартного окна, что критически важно для реализации длительных агентных сценариев.

Надежность агентных сценариев (Tool-calling)

Значительный скачок наблюдается в предсказуемости использования внешних инструментов. На бенчмарке Tau2-bench Telecom новая модель достигает показателя 98.7% успешных вызовов. Примечательно, что точность выросла даже при использовании быстрого режима с параметром reasoning.effort=&ීnone&ී.

Ряд корпоративных клиентов уже сообщили о возможности оптимизации своих архитектур: вместо набора узкоспециализированных мелких агентов компании переходят к использованию одного «мега-агента», управляющего арсеналом из более чем 20 инструментов.

Визуальный анализ и снижение галлюцинаций

Разработчики усовершенствовали мультимодальные возможности системы. Модель стала корректнее интерпретировать визуальные данные: технические схемы, дашборды, графики и пользовательские интерфейсы. Количество ошибок при распознавании и анализе GUI сократилось почти в два раза. Задачи, требующие прочтения диаграмм и объяснения процессов, выполняются с повышенной аккуратностью.

Уровень фактических ошибок (так называемых галлюцинаций) снизился примерно на треть. Данный фактор играет ключевую роль при использовании нейросети для бизнес-аналитики, составления резюме (саммари) документов и ведения деловой коммуникации.

Ценовая политика и доступ к API

Модель GPT-5.2 уже интегрирована в интерфейс ChatGPT и доступна пользователям с подписками Plus, Pro, Business и Enterprise. Для разработчиков доступ открыт через API под идентификаторами gpt-5.2 и gpt-5.2-chat-latest. Наиболее производительная версия предлагается под названием gpt-5.2-pro.

Стоимость использования в API была пересмотрена в сторону повышения относительно версии 5.1:

  • Входящие токены (Input): 1.75 доллара за 1 миллион токенов.

  • Исходящие токены (Output): 14 долларов за 1 миллион токенов.

  • Кэшированные входящие токены (Cached input): предоставляется скидка 90%.

В OpenAI подчеркивают, что, несмотря на рост тарифов, итоговые затраты бизнеса могут оказаться ниже. Экономия достигается за счет сокращения количества «лишних» токенов и итераций: GPT-5.2 выполняет аналогичный объем работы быстрее и требует меньше уточнений.

Как получить доступ к GPT-5.2 в России

В ряде стран, включая Россию, доступ к ChatGPT ограничен. Однако вы можете использовать возможности новой ИИ-модели GPT-5.1, настроив Comss.one DNS на вашем устройстве по следующим инструкциям:

Настройка Comss.one DNS

Проверка работы Comss.one DNS:

  • Для проверки корректности настройки DNS перейдите на страницу Comss.one DNS. Вы должны увидеть сообщение, что Comss.one DNS настроен.

  • Если проверка не пройдена, убедитесь, что в вашей ОС или браузере не настроен другой DNS-over-HTTPS.
  • После проверки перезагрузите устройство, чтобы изменения вступили в силу.
© . По материалам habr
Комментарии и отзывы

Нашли ошибку?

Новое на сайте