AI大模型为何对《宝可梦》情有独钟?游戏改编,会是下一个风口吗?
AI模型在刚问世时,总有一个屡试不爽的“秀肌肉”手段,那就是让自家AI独立游玩某款游戏,用以检验模型的智能程度。从围棋选手李世石与AlphaGo的五番棋对决,到谷歌DeepMind在《DOTA2》《星际争霸2》等项目中击败人类职业选手,再到2023年英伟达开发出能玩《我的世界》的VOYAGER,游戏似乎成了AI的天然试验场。这十年间,AI技术发展迅速,如今的大语言模型训练方式和决策过程已与AlphaGo大不相同,但“让AI玩游戏”仍是科技公司展示成果的常用手段。
最近,谷歌的Gemini 2.5 Pro模型又因独立通关初代《宝可梦》引发热议,CEO Sundar Pichai和DeepMind负责人Demis Hassabis甚至同步发推庆祝。但到了2025年,AI通关游戏早已不是新鲜事,特别是1995年发售的初代宝可梦,这款游戏以休闲轻松著称,哪怕是游戏新手也能快速上手。那么,为何让AI通关《宝可梦》仍被视作重大突破?这背后折射出AI在感知和行动力方面的进步。
上世纪80年代提出的“莫拉维克悖论”指出,人类觉得容易的任务对AI来说反而更难。比如让电脑像成人般下棋相对容易,但让它拥有像一岁孩童般的感知和行动能力却非常困难。这次Gemini通关《宝可梦》,正是让AI具备自主感知和行动力的体现。这种能力的实现,意味着AI在理解环境、制定策略和执行操作方面取得了实质性进展。
一、对AI来说,独立通关初代《宝可梦》是一个比人类的想象要复杂得多的挑战。早在今年2月,美国AI科技公司Anthropic就尝试让旗下Claude 3.7 Sonnet体验初代宝可梦游戏,目标是“通关游戏”。但实验最终以失败告终,Claude 3.7只完成了挑战三个道馆、获得三枚徽章的成就。这项成果是Claude反复迭代一年的结果,显示了AI在复杂任务中的学习能力。
Claude的通关过程也面向大众进行了直播。这些行为看似是“人工智障”,远不如AlphaGo在围棋或《星际争霸》中战胜人类选手的表现。但这其实是训练方式的差异。前几年在围棋、《DOTA2》等项目中表现突出的AI,开发者通常会提供游戏规则和策略信息,并设置奖励函数进行强化学习。但对于像Claude、Gemini这类基于大语言模型的AI,研究人员并未提供《宝可梦》专属的游戏规则或目标指令,而是直接让通用模型操作游戏。
这更像让一个对宝可梦游戏毫无概念的新手,通过不断试错学习。比如在游戏初期,Claude被要求寻找NPC“大木博士”,但游戏没有提供明确指引,也没有说明NPC的位置和外形特征。实现这种“模糊目标”对AI来说难度更大。在接到任务后,Claude也进行了一段非常拟人的思考:“我注意到下方出现了一个新角色——一个黑发、身穿白色外套的角色,位于坐标(2,10),这可能是大木博士!让我下去和他谈谈。”
二、Gemini通关初代宝可梦之所以引发关注,不仅因为它能在人类不提供任何规则信息的条件下完成游戏,还因官方统计显示,Gemini总操作步数约为10.6万次,甚至比Claude获得第三个徽章时达成的21.5万步要少一半。这看似说明Gemini的智能水平优于Claude,但负责Gemini项目的研究人员Joel Z表示,无法直接比较这两个AI,因为测试条件不完全相同。
区别在于“代理执行框架”,即连接AI模型与游戏的桥梁。Gemini的代理执行框架在某些方面确实优于Claude,比如在对地图的分析上,它不仅为每个区域标注了坐标,还注明了坐标的可通行状态。这种对游戏环境的精准理解,为不擅长直接解析像素画面的大语言模型提供了巨大帮助。
但就像开发者自己说的,让AI玩宝可梦的意义并不在于对比不同AI的水平高低。这类游戏更需要AI具备感知环境、理解模糊目标、长线规划行动的能力。它必须不断接收游戏画面、理解不同阶段的规则,并将决策转换为游戏操作。之所以执着于让AI操作这类游戏,也因为如果AI能够在人类不干预的情况下通关,说明它拥有独立学习、解决现实中复杂问题的潜力。
三、从早年的围棋到现在的《宝可梦》,AI在实验和“秀肌肉”环节的逐年演变,并不单是个吸引大众关注的噱头。其实一定程度上也代表了这项技术的发展方向:从处理单一问题的专才,到能够自我学习、解决不同领域问题的通用人工智能。或许这正是众多AI科技公司选择《宝可梦》作为训练的原因:这款游戏本身便是关于成长、选择与冒险的旅程。过去,我们在游戏中体验进化与策略,而现在,AI正在游戏中尝试理解世界的规则本身。