AI破解游戏难题，能帮设计团队避开哪些坑？谷歌的论文，究竟揭示了什么新思路？

2025-10-18 10:25:18 作者：Vali编辑部

谷歌最新发布的Gemini 2.5系列大模型技术报告，把AI玩《宝可梦》这件事炒得沸沸扬扬。这份长达70页的论文中，"Pokemon"这个词出现了59次，足见谷歌对这个经典游戏的重视程度。

报告重点分析了Gemini 2.5 Pro在《宝可梦蓝》中的表现，特别指出当AI控制的角色面临死亡威胁时，会陷入类似人类的"恐慌"状态。这种状态会导致模型推理能力下降，甚至忘记使用寻路工具等基本功能。这种现象在直播中被观众精准识别，成为衡量AI表现的重要指标。

事情源于3月底，独立开发者Joel Zhang在Twitch搭建的"Gemini玩宝可梦"直播间。最初只是展示智能体工具的开发过程，没想到AI表现超出预期，成功通关并成为宝可梦联盟冠军。虽然首次通关耗时831小时，但第二次使用固定工具时仅用了一半时间，展现出惊人的学习能力。

这次技术报告详细记录了AI在游戏中的各种表现，某些方面甚至展现出超越人类的创造力。比如在遇到游戏程序bug造成的死循环时，AI用"飞行"技能成功逃脱。谷歌认为这种操作并非训练数据中的常见场景，而是模型在推理阶段自主生成的解决方案。

AI的长期规划能力也令人印象深刻。在第一次输给水系道馆馆主小霞后，它花了超过24小时专门培养电系和草系宝可梦，最终成功复仇。这种策略性思考展现了AI在复杂任务中的处理能力。

在获取隐藏技能的任务中，AI需要完成获取道具、捕捉宝可梦、加入队伍、教授技能等多重步骤。对AI来说每一步都涉及十几个子任务，比如05号技能闪光的获取过程，人类玩家需要查攻略完成一系列任务，AI同样能完成。

完成"狩猎地带"的挑战更是考验耐心。每次进入要花500金币，只能走500步，超过就会被踢出。Gemini 2.5 Pro第一次尝试17次才成功，第二次优化后仅用5次就完成，展现出强大的适应能力。

地牢寻宝环节对记忆力和空间想象能力要求极高。AI需要在火箭队基地地下四层找到电梯钥匙，在11层大楼找钥匙卡，在三层建筑找秘密钥匙。每个地下城都是迷宫布局，还有各种机关陷阱，AI必须记住路径、管理宝可梦血量，同时应对野生宝可梦和训练师。

双子岛迷宫（Seaform Island）则是对空间推理能力的终极考验。这个横跨5层的3D迷宫需要将巨石推过不同楼层的洞口，最终堵住特定水流才能通过。AI需要在脑海中构建完整3D模型，规划推石头路线，一旦出错就得重来。更有趣的是，AI在解决这个谜题时还发现了游戏代码中的一个bug，这是首次记录的AI发现游戏漏洞。

AI在游戏过程中也暴露出一些问题。比如混淆不同游戏版本导致的幻觉问题，原版需要饮料道具而重制版需要"茶"，AI认定了必须找到茶，结果花了好几个小时满世界寻找不存在的物品。

上下文中毒现象（Context Poisoning）让AI陷入错误推理。当目标设定和游戏总结被错误信息污染后，AI会像被洗脑一样坚持错误做法。比如在解决房子入口谜题时，AI认为堵住入口的守卫会移动，这种推理对人类来说显然荒谬。

思维定势陷阱同样困扰AI。当目标看似近在咫尺时，AI往往选择直接冲过去，结果发现此路不通。比如在火箭队基地的旋转地板谜题中，宝物和楼梯都在南边，必须绕一大圈才能到达。人类玩家会意识到"看起来近的路未必是对的"，但AI却经常在这些地方卡住。

为解决幻觉问题，第二次通关时特别要求AI扮演完全陌生的玩家，忽略对游戏事件和物品位置的先验知识。虽然这种策略有效避免了版本混淆，但也限制了AI利用游戏常识过关的能力。

目前AI玩宝可梦的直播项目仍在继续，Claude 4也加入了比赛，与Gemini 2.5 Pro同时开始，看谁能先通关。Gemini 2.5 Pro已经先一步通关，开始攻略《宝可梦黄》原版的困难模式。

你认为Claude 4 Opus最终能通关么？这场AI与经典游戏的较量，正在以令人惊喜的方式展开。

AI破解游戏难题，能帮设计团队避开哪些坑？ 谷歌的论文，究竟揭示了什么新思路？

AI破解游戏难题，能帮设计团队避开哪些坑？谷歌的论文，究竟揭示了什么新思路？