Grok 4: Утечка бенчмарков с 45% на HLE, на 19% лучше чем o3 Pro

Компания xAI, основанная Илоном Маском, готовится к выпуску новой модели искусственного интеллекта Grok 4, которая, согласно утекшим данным, демонстрирует впечатляющие результаты в бенчмарках. Ожидания вокруг релиза модели усиливаются, несмотря на отсутствие точной даты запуска. В статье рассмотрены ключевые показатели производительности Grok 4, потенциальные преимущества для пользователей и конкурентная ситуация на рынке ИИ в 2025 году.

Как использовать xAI Grok в России – на сайте Grok, в приложении для Android или iPhone

Утечка бенчмарков Grok 4: Рекордные показатели

Недавно в сети появились данные о производительности Grok 4, обнаруженные в консоли xAI и датированные 29 июня и 2 июля 2025 года. Эти сведения, предположительно, относятся к промежуточным версиям модели, а не к финальному релизу. Согласно информации, Grok 4 достиг следующих результатов:

Humanity's Last Exam (HLE): 35% в стандартном режиме и 45% с использованием дополнительных вычислительных ресурсов. Для сравнения, предыдущий лидер, модель o3 Pro, показала результат 26%.
GPQA: 87–88%, что указывает на высокую компетентность в задачах уровня аспирантуры по физике, химии и биологии.
SWE Bench (Grok 4 Code): 72–75%, демонстрируя выдающиеся способности в программировании.

Если эти данные подтвердятся, Grok 4 может превзойти текущих лидеров рынка, таких как Gemini 2.5 Pro от Google, o3 Pro от OpenAI и Claude 4 Opus от Anthropic, установив новый стандарт для больших языковых моделей.

Основные преимущества Grok 4 для пользователей

Новая модель ориентирована на опытных пользователей и разработчиков, уже использующих платформу xAI. Основные преимущества включают:

Улучшенная производительность: Высокие результаты в бенчмарках HLE, GPQA и SWE Bench свидетельствуют о способности модели эффективно решать сложные задачи в науке, математике и программировании.
Интеграция с платформой xAI: Новые функции и улучшения, вероятно, будут доступны через консоль разработчиков xAI и API, что упростит внедрение модели в бизнес-процессы.
Потенциальное расширение для потребителей: В случае успешного запуска Grok 4 может быть интегрирован в потребительские продукты, расширяя доступ к передовым ИИ-технологиям.

Эти характеристики делают Grok 4 привлекательным решением для организаций, стремящихся использовать самые передовые модели ИИ.

Конкуренция и сроки выпуска

Илон Маск ранее анонсировал выпуск Grok 4, сообщив что релиз состоится после 4 июля 2025 года, однако точная дата остается неизвестной. На фоне слухов о скором запуске GPT-5 от OpenAI, а также новых моделей от Google и Anthropic, xAI находится под давлением необходимости ускорить релиз. Конкуренция в сфере ИИ в 2025 году достигла небывалого уровня, и своевременный запуск Grok 4 станет решающим фактором для укрепления позиций xAI на рынке.

Comss DNS & Новости для Android - выделенный сервер для доступа к ИИ

Утечка данных о бенчмарках вызвала оживленные обсуждения в профессиональных сообществах, однако остается вопрос, являются ли эти результаты окончательными или представляют собой промежуточные показатели. Успех модели будет зависеть от ее реальной производительности после официального релиза.

Обновления программ, что нового

• Релиз Vivaldi 7.5 для Android и iOS: полезные исправления и доработки
• Honor Magic 8 Pro: утечка раскрывает батарею 7000 мАч и Snapdragon 8 Elite 2
• OpenAI запустит ИИ-браузер на базе ChatGPT — конкурент Chrome уже на подходе
• Intel выпустила драйвер Arc Pro Graphics 32.0.101.6862 WHQL с улучшениями для профессиональных приложений
• Samsung представила Galaxy Z Fold7 с чипом Snapdragon 8 Elite, 200-МП камерой и самым тонким корпусом в серии
• Samsung представила Galaxy Z Flip7 и бюджетный Z Flip7 FE с One UI 8 на базе Android 16