Grok 4: Утечка бенчмарков с 45% на HLE, на 19% лучше чем o3 Pro

2025-07-07 2948 комментарии
Утечка данных о Grok 4 от xAI показывает 35% на HLE (45% с доп. вычислениями, на 19% лучше o3 Pro с 26%), 87–88% на GPQA (на 10–12% выше Gemini 2.5 Pro), 72–75% на SWE Bench (на 15–20% лучше Claude 4 Opus). Релиз в ближайшее время

Компания xAI, основанная Илоном Маском, готовится к выпуску новой модели искусственного интеллекта Grok 4, которая, согласно утекшим данным, демонстрирует впечатляющие результаты в бенчмарках. Ожидания вокруг релиза модели усиливаются, несмотря на отсутствие точной даты запуска. В статье рассмотрены ключевые показатели производительности Grok 4, потенциальные преимущества для пользователей и конкурентная ситуация на рынке ИИ в 2025 году.

Утечка бенчмарков Grok 4: Рекордные показатели

Недавно в сети появились данные о производительности Grok 4, обнаруженные в консоли xAI и датированные 29 июня и 2 июля 2025 года. Эти сведения, предположительно, относятся к промежуточным версиям модели, а не к финальному релизу. Согласно информации, Grok 4 достиг следующих результатов:

  • Humanity's Last Exam (HLE): 35% в стандартном режиме и 45% с использованием дополнительных вычислительных ресурсов. Для сравнения, предыдущий лидер, модель o3 Pro, показала результат 26%.

  • GPQA: 87–88%, что указывает на высокую компетентность в задачах уровня аспирантуры по физике, химии и биологии.

  • SWE Bench (Grok 4 Code): 72–75%, демонстрируя выдающиеся способности в программировании.

Если эти данные подтвердятся, Grok 4 может превзойти текущих лидеров рынка, таких как Gemini 2.5 Pro от Google, o3 Pro от OpenAI и Claude 4 Opus от Anthropic, установив новый стандарт для больших языковых моделей.

Основные преимущества Grok 4 для пользователей

Новая модель ориентирована на опытных пользователей и разработчиков, уже использующих платформу xAI. Основные преимущества включают:

  • Улучшенная производительность: Высокие результаты в бенчмарках HLE, GPQA и SWE Bench свидетельствуют о способности модели эффективно решать сложные задачи в науке, математике и программировании.

  • Интеграция с платформой xAI: Новые функции и улучшения, вероятно, будут доступны через консоль разработчиков xAI и API, что упростит внедрение модели в бизнес-процессы.

  • Потенциальное расширение для потребителей: В случае успешного запуска Grok 4 может быть интегрирован в потребительские продукты, расширяя доступ к передовым ИИ-технологиям.

Эти характеристики делают Grok 4 привлекательным решением для организаций, стремящихся использовать самые передовые модели ИИ.

Конкуренция и сроки выпуска

Илон Маск ранее анонсировал выпуск Grok 4, сообщив что релиз состоится  после 4 июля 2025 года, однако точная дата остается неизвестной. На фоне слухов о скором запуске GPT-5 от OpenAI, а также новых моделей от Google и Anthropic, xAI находится под давлением необходимости ускорить релиз. Конкуренция в сфере ИИ в 2025 году достигла небывалого уровня, и своевременный запуск Grok 4 станет решающим фактором для укрепления позиций xAI на рынке.

Утечка данных о бенчмарках вызвала оживленные обсуждения в профессиональных сообществах, однако остается вопрос, являются ли эти результаты окончательными или представляют собой промежуточные показатели. Успех модели будет зависеть от ее реальной производительности после официального релиза.

© . По материалам testingcatalog
Комментарии и отзывы

Нашли ошибку?

Новое на сайте