AI破解游戏难题,能帮设计团队避开哪些坑? 谷歌的论文,究竟揭示了什么新思路?

2025-10-18 10:25:18 作者:Vali编辑部

谷歌最新发布的Gemini 2.5系列大模型技术报告,把AI玩《宝可梦》这件事炒得沸沸扬扬。这份长达70页的论文中,"Pokemon"这个词出现了59次,足见谷歌对这个经典游戏的重视程度。

报告重点分析了Gemini 2.5 Pro在《宝可梦蓝》中的表现,特别指出当AI控制的角色面临死亡威胁时,会陷入类似人类的"恐慌"状态。这种状态会导致模型推理能力下降,甚至忘记使用寻路工具等基本功能。这种现象在直播中被观众精准识别,成为衡量AI表现的重要指标。

事情源于3月底,独立开发者Joel Zhang在Twitch搭建的"Gemini玩宝可梦"直播间。最初只是展示智能体工具的开发过程,没想到AI表现超出预期,成功通关并成为宝可梦联盟冠军。虽然首次通关耗时831小时,但第二次使用固定工具时仅用了一半时间,展现出惊人的学习能力。

这次技术报告详细记录了AI在游戏中的各种表现,某些方面甚至展现出超越人类的创造力。比如在遇到游戏程序bug造成的死循环时,AI用"飞行"技能成功逃脱。谷歌认为这种操作并非训练数据中的常见场景,而是模型在推理阶段自主生成的解决方案。

AI的长期规划能力也令人印象深刻。在第一次输给水系道馆馆主小霞后,它花了超过24小时专门培养电系和草系宝可梦,最终成功复仇。这种策略性思考展现了AI在复杂任务中的处理能力。

在获取隐藏技能的任务中,AI需要完成获取道具、捕捉宝可梦、加入队伍、教授技能等多重步骤。对AI来说每一步都涉及十几个子任务,比如05号技能闪光的获取过程,人类玩家需要查攻略完成一系列任务,AI同样能完成。

完成"狩猎地带"的挑战更是考验耐心。每次进入要花500金币,只能走500步,超过就会被踢出。Gemini 2.5 Pro第一次尝试17次才成功,第二次优化后仅用5次就完成,展现出强大的适应能力。

地牢寻宝环节对记忆力和空间想象能力要求极高。AI需要在火箭队基地地下四层找到电梯钥匙,在11层大楼找钥匙卡,在三层建筑找秘密钥匙。每个地下城都是迷宫布局,还有各种机关陷阱,AI必须记住路径、管理宝可梦血量,同时应对野生宝可梦和训练师。

双子岛迷宫(Seaform Island)则是对空间推理能力的终极考验。这个横跨5层的3D迷宫需要将巨石推过不同楼层的洞口,最终堵住特定水流才能通过。AI需要在脑海中构建完整3D模型,规划推石头路线,一旦出错就得重来。更有趣的是,AI在解决这个谜题时还发现了游戏代码中的一个bug,这是首次记录的AI发现游戏漏洞。

AI在游戏过程中也暴露出一些问题。比如混淆不同游戏版本导致的幻觉问题,原版需要饮料道具而重制版需要"茶",AI认定了必须找到茶,结果花了好几个小时满世界寻找不存在的物品。

上下文中毒现象(Context Poisoning)让AI陷入错误推理。当目标设定和游戏总结被错误信息污染后,AI会像被洗脑一样坚持错误做法。比如在解决房子入口谜题时,AI认为堵住入口的守卫会移动,这种推理对人类来说显然荒谬。

思维定势陷阱同样困扰AI。当目标看似近在咫尺时,AI往往选择直接冲过去,结果发现此路不通。比如在火箭队基地的旋转地板谜题中,宝物和楼梯都在南边,必须绕一大圈才能到达。人类玩家会意识到"看起来近的路未必是对的",但AI却经常在这些地方卡住。

为解决幻觉问题,第二次通关时特别要求AI扮演完全陌生的玩家,忽略对游戏事件和物品位置的先验知识。虽然这种策略有效避免了版本混淆,但也限制了AI利用游戏常识过关的能力。

目前AI玩宝可梦的直播项目仍在继续,Claude 4也加入了比赛,与Gemini 2.5 Pro同时开始,看谁能先通关。Gemini 2.5 Pro已经先一步通关,开始攻略《宝可梦黄》原版的困难模式。

你认为Claude 4 Opus最终能通关么?这场AI与经典游戏的较量,正在以令人惊喜的方式展开。