Grok 4真有那么出色?大模型竞争,谁是最大赢家?
AI象棋大战掀开序幕,这场由谷歌Kaggle发起的全球AI棋手对决,将八款顶尖语言模型推向了国际象棋的战场。从开局到中盘,每一步都暗藏玄机,胜负只在毫厘之间。
这场较量的焦点不在于谁先下棋,而在于谁能在复杂局势中保持稳定。八款模型分成两组,闭源模型与开源模型展开正面对抗,看似平静的棋盘下,暗涌涌动。
首战即见分晓,八款模型在8进4淘汰赛中迅速分出高下。Gemini 2.5 Pro、o4-mini、Grok 4和o3以4-0的绝对优势横扫对手,轻松晋级半决赛。而Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash和Kimi K2则在中盘阶段接连崩溃,提前出局。
半决赛将上演更激烈的较量,OpenAI的o3-mini和o3将上演「同门对决」,Gemini 2.5 Pro与Grok 4则将展开巅峰对决。这场由谷歌Kaggle主办的赛事,为通用大模型量身打造了专属竞技平台「Game Arena」。
谷歌方面表示,游戏是评估模型智能的重要工具。相比传统测试,游戏具备无限扩展性,对手越强挑战越深;同时能完整追踪模型的决策过程,展现其战略思维。对AI来说,下好一盘棋远比想象中困难。
首场淘汰赛中,DeepSeek R1对阵o4-mini,Kimi K2对阵o3。四场比赛的结果令人意外:Kimi K2每局都因非法走子被系统判负,最短对局不到8个回合。面对这样的对手,o3轻松晋级。
DeepSeek R1与o4-mini的较量则展现了另一种局面。开局阶段双方都走得无懈可击,但一旦脱离模板,DeepSeek频频出错,甚至出现自爆式操作。相比之下,o4-mini稳扎稳打,完成两次将杀收尾。
Claude 4 Opus与Gemini 2.5 Pro的对决则充满戏剧性。Claude在第一局主动敞开防线,为Gemini创造突破口。第四局中,Gemini手握两只皇后优势巨大,却在进攻过程中损失关键棋子。尽管如此,胜利最终属于Gemini。
Grok 4的晋级之路则堪称惊艳。面对Gemini 2.5 Flash的频繁失误,Grok精准识破弱点,果断出击。四场全胜的战绩不仅展现了其强大的棋艺,更被业内人士称为开赛以来最佳表现。
马斯克在X上转发了Grok 4的战绩,仅用一句「订单这只是副作用」回应。这种低调的态度恰说明了Grok 4的稳定表现。在模型频频犯错的混战中,Grok 4是少数能看清棋局并稳定走完的存在。
这场象棋大战的意义远不止于胜负。它考验的不仅是棋艺,更是AI的整体理解能力。游戏为评估人工智能提供了绝佳基础,帮助我们了解复杂推理任务中哪些方法真正有效。
游戏具备明确的胜负标准,结构清晰且结果可衡量,是评估模型的理想试验场。它要求模型展现策略推理、长期规划以及面对智能对手时的动态适应能力,为衡量通用问题解决智能提供可靠依据。
世界冠军卡尔森在旅行途中虐了ChatGPT一局,赛后轻描淡写地说「我有时旅途中会无聊」。这种轻松的态度暴露了AI对复杂局势的把握不足,比输棋更值得警惕。
Kaggle官方透露,真正的评分标准其实藏在数百场未公开对局的排行榜里。眼下这场棋局,不过是测试通用智能的开局小盘。