大模型对抗赛为何如此失速?DeepSeek、Kimi淘汰,是技术瓶颈?
谁才是国际象棋界的王者?这场由谷歌发起的AI模型对决给出了初步答案。在为期三天的比赛中,多个大模型展开激烈较量,最终Grok 4凭借全胜战绩脱颖而出,成为当前夺冠热门。
这场赛事的规则设计颇具匠心。参赛选手包括OpenAI、DeepSeek、月之暗面、Anthropic、谷歌等多家机构的代表模型。比赛平台采用Kaggle Game Arena,要求AI在不调用Stockfish等国际象棋引擎的情况下完成对弈。这种设定让模型必须依靠自身对棋局的判断力,而非依赖传统引擎的辅助。从首日战况看,Grok 4以4-0的完美战绩横扫对手,展现出强劲实力。
首日比赛的胜负结果引发广泛讨论。Gemini 2.5 Pro、o4-mini、Grok 4和o3四支队伍成功晋级半决赛。其中,o3与Kimi K2的对决最具代表性。这场对局在八步棋内结束,Kimi K2连续四次未能找到合法着法被判负。尽管Kimi K2属于非推理模型,但其在开局阶段的棋谱理论行棋能力仍值得肯定。只是当脱离熟悉理论后,技术问题开始显现——对Kimi K2来说,这个转折点来得比预期更早。
技术细节分析显示,Kimi K2在识别棋盘局势时存在明显短板。它能完整识别棋子位置,却在执行走法时出现记忆混乱。这种现象在多场比赛中反复出现,特别是在局面复杂时,模型容易出现送子失误。这种表现暗示着AI在棋子走法规则记忆方面的不足,这也是当前大语言模型在象棋对弈中的普遍问题。
DeepSeek R1与o4-mini的对局则呈现出不同特点。前几步棋局质量较高,但随着对局深入,判断偏差和失误频发。这种现象在整场比赛中持续出现,反映出模型在中局阶段的稳定性不足。不过,o4-mini仍展现出了两次成功将军的能力,这在AI系统中实属难得。
Gemini 2.5 Pro与Claude 4 Opus的对决最为耐人寻味。这是唯一一场比赛中通过将杀获胜的场次多于因违规行棋告负的场次。虽然Gemini 2.5 Pro表现出色,但其胜利是否完全依赖Claude 4 Opus的失误仍存疑问。值得注意的是,Gemini 2.5 Pro在第四局出现送子失误,这暴露出其在复杂局面下的执行能力仍有提升空间。
Grok 4的表现则堪称惊艳。面对多次失误送子的Gemini 2.5 Flash,它依然能精准捕捉无保护棋子并果断实施打击。这种能力在AI界尤为突出,显示出其在棋盘视觉化和棋子互动关系理解方面的优势。创始人埃隆·马斯克在X平台的互动中再次强调国际象棋的简单性,这或许暗示着Grok 4在复杂决策上的突破。
从首日比赛看,大语言模型在象棋对弈中暴露出三大关键短板:全局棋盘视觉化能力不足、棋子间互动关系理解有限,以及由此引发的合法着法执行问题。Grok 4的成功表现证明,它似乎突破了这些限制。但这种优势是否能持续,还需观察后续赛事。
目前半决赛的对阵形势已初现端倪。o3将与o4-mini展开较量,Gemini 2.5 Pro将对阵Claude 4 Opus。这场对决将直接决定最终的胜负格局。从技术角度看,Grok 4的稳定性、o4-mini的进攻性、Gemini 2.5 Pro的战术多样性,都是潜在的胜负关键。
比赛数据表明,Gemini 2.5 Pro在赛前投票中获得最多支持,但首日表现显示其优势可能被夸大。Kimi K2的失利则说明非推理模型在复杂局面下的局限性。这些表现差异为后续比赛提供了重要参考,也揭示了AI模型在象棋领域的发展空间。
国际象棋大师Levy Rozman的最新视频解析为这场赛事增添了专业视角。他指出,AI模型在开局阶段的理论行棋能力已接近人类水平,但中局阶段的动态判断仍需提升。这种分析为观众理解比赛提供了更深入的视角。
随着比赛进入关键阶段,各模型的稳定性将成为胜负分野。Grok 4的全胜战绩为它赢得了先机,但其他模型仍有逆袭可能。这场赛事不仅考验AI的棋艺水平,更展现了大语言模型在复杂决策场景中的表现潜力。