Grok 4真有那么出色？大模型竞争，谁是最大赢家？

2025-10-14 09:05:12 作者：Vali编辑部

AI象棋大战掀开序幕，这场由谷歌Kaggle发起的全球AI棋手对决，将八款顶尖语言模型推向了国际象棋的战场。从开局到中盘，每一步都暗藏玄机，胜负只在毫厘之间。

这场较量的焦点不在于谁先下棋，而在于谁能在复杂局势中保持稳定。八款模型分成两组，闭源模型与开源模型展开正面对抗，看似平静的棋盘下，暗涌涌动。

首战即见分晓，八款模型在8进4淘汰赛中迅速分出高下。Gemini 2.5 Pro、o4-mini、Grok 4和o3以4-0的绝对优势横扫对手，轻松晋级半决赛。而Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash和Kimi K2则在中盘阶段接连崩溃，提前出局。

半决赛将上演更激烈的较量，OpenAI的o3-mini和o3将上演「同门对决」，Gemini 2.5 Pro与Grok 4则将展开巅峰对决。这场由谷歌Kaggle主办的赛事，为通用大模型量身打造了专属竞技平台「Game Arena」。

谷歌方面表示，游戏是评估模型智能的重要工具。相比传统测试，游戏具备无限扩展性，对手越强挑战越深；同时能完整追踪模型的决策过程，展现其战略思维。对AI来说，下好一盘棋远比想象中困难。

首场淘汰赛中，DeepSeek R1对阵o4-mini，Kimi K2对阵o3。四场比赛的结果令人意外：Kimi K2每局都因非法走子被系统判负，最短对局不到8个回合。面对这样的对手，o3轻松晋级。

DeepSeek R1与o4-mini的较量则展现了另一种局面。开局阶段双方都走得无懈可击，但一旦脱离模板，DeepSeek频频出错，甚至出现自爆式操作。相比之下，o4-mini稳扎稳打，完成两次将杀收尾。

Claude 4 Opus与Gemini 2.5 Pro的对决则充满戏剧性。Claude在第一局主动敞开防线，为Gemini创造突破口。第四局中，Gemini手握两只皇后优势巨大，却在进攻过程中损失关键棋子。尽管如此，胜利最终属于Gemini。

Grok 4的晋级之路则堪称惊艳。面对Gemini 2.5 Flash的频繁失误，Grok精准识破弱点，果断出击。四场全胜的战绩不仅展现了其强大的棋艺，更被业内人士称为开赛以来最佳表现。

马斯克在X上转发了Grok 4的战绩，仅用一句「订单这只是副作用」回应。这种低调的态度恰说明了Grok 4的稳定表现。在模型频频犯错的混战中，Grok 4是少数能看清棋局并稳定走完的存在。

这场象棋大战的意义远不止于胜负。它考验的不仅是棋艺，更是AI的整体理解能力。游戏为评估人工智能提供了绝佳基础，帮助我们了解复杂推理任务中哪些方法真正有效。

游戏具备明确的胜负标准，结构清晰且结果可衡量，是评估模型的理想试验场。它要求模型展现策略推理、长期规划以及面对智能对手时的动态适应能力，为衡量通用问题解决智能提供可靠依据。

世界冠军卡尔森在旅行途中虐了ChatGPT一局，赛后轻描淡写地说「我有时旅途中会无聊」。这种轻松的态度暴露了AI对复杂局势的把握不足，比输棋更值得警惕。

Kaggle官方透露，真正的评分标准其实藏在数百场未公开对局的排行榜里。眼下这场棋局，不过是测试通用智能的开局小盘。