Grok 4 провалился в Step Game

Автор Maximum Games, 14 Июль 2025. Опубликовано в Железо

Несмотря на громкие заявления Илона Маска и высокие баллы на стандартных бенчмарках, Grok 4 от xAI показал лишь пятое место в рейтинге Step Game, уступив даже предыдущей версии Gemini 2.5 и множеству менее разрекламированных моделей. Игра Step Game оценивает способность ИИ стратегически мыслить, действовать в условиях неопределённости и взаимодействовать с другими ИИ — именно те качества, которые нельзя «натренировать» исключительно на бенчмарках.

На верхних позициях оказались o3 и o1 от Anthropic, а также Gemini 2.5 Pro, показавшие наилучшие результаты по среднему рейтингу TrueSkill и количеству побед. Grok 4 разместился ниже, продемонстрировав 7.9 баллов и 50% побед в 111 партиях, в то время как лидер (o3) показал 9.4 балла и 65% побед.

Показательно, что Grok 4 входит в число моделей, подозреваемых в переобучении под тесты: высокая точность в синтетических задачах сочетается с неуверенным поведением в динамичных мультиагентных сценариях. В отличие от него, более «естественные» модели, вроде Claude Sonnet 4 Thinking и Gemini 2.5 Flash, заняли места выше или сравнимые, несмотря на меньший объём шума в СМИ.

В начало страницы

Grok 4 провалился в Step Game

HARDWARE НОВОСТИ

Первые бенчмарки Radeon AI PRO R9700: быстрее RTX 6000 Ada, дешевле вдвое и холоднее

Radeon AI PRO R9700 выходит в розницу: 32 ГБ памяти, 300 Вт и цена $1299

AMD поставит суперкомпьютеры Lux и Discovery для Минэнерго США на базе новых AI-чипов MI355X и MI430

GeForce RTX 5050 ITX от MSI: компактная видеокарта на архитектуре Blackwell

Qualcomm представила AI200 и AI250 — новое поколение дата-центровых решений для генеративного ИИ

AMD представила линейки Ryzen 10 и Ryzen 100 — переименованные процессоры на Zen 2 и Zen 3+

MacBook Pro M5 показывает более чем трёхкратный рост скорости SSD по сравнению с M4

Zephyrus M16 с RTX 4090 после шунт-мода догнал 5090-ноутбуки по производительности

Lenovo Legion Go получит поддержку «Extreme Mode» в Linux

Дефицит LPDDR5X: поставки смартфонной памяти смещаются на середину 2026 года

SOFTWARE НОВОСТИ

Первые бенчмарки Radeon AI PRO R9700: быстрее RTX 6000 Ada, дешевле вдвое и холоднее

Отменённая мультиплеерная God of War от Bluepoint возвращала Кратоса в Древнюю Грецию

Assassin’s Creed Shadows — патч 1.1.4 с «Искажёнными замками», новым паркуром и золотым оружием

Упрощённый Lumen может ускорить Unreal Engine 5

Serious Sam 2 получил артбук и поддержку редактора Edit Data

Ghost of Tsushima: Steam Deck Verified и поддержка FSR 4

Radeon AI PRO R9700 выходит в розницу: 32 ГБ памяти, 300 Вт и цена $1299

AMD поставит суперкомпьютеры Lux и Discovery для Минэнерго США на базе новых AI-чипов MI355X и MI430

GeForce RTX 5050 ITX от MSI: компактная видеокарта на архитектуре Blackwell

Новая Xbox объединит PC и консоль в одной системе с полным доступом к Steam

Топ материалов GameGPU

Borderlands 4 тест GPU/CPU...

DOOM: The Dark Ages тест GPU/CPU...

Battlefield 6 Open Beta тест GPU/CPU...

Обзор и тестирование видеокарты Asus PRIME GeForce RTX 5070 12GB...

Подпишитесь на наш Telegram-канал GameGPU!

Mafia: The Old Country тест GPU/CPU...

Топ новостей GameGPU

Battlefield 6: невероятные показатели FPS с DLSS 4 на видеокартах...

STALKER 2 получит патч 1.7 до перехода на Unreal Engine...

AMD выпустила драйвер Adrenalin 25.10.1 с поддержкой Battlefield 6...

AMD расширяет линейку Ryzen 9000 X3D: новые 9950X3D2 и 9850X3D...

Battlefield 6 требует постоянного подключения к интернету — даже для...

$55 млрд за Electronic Arts и взлёт Steam: итоги третьего...