AGI真的能帮白领翻身吗? 这种技术,未来会怎样?

2025-10-18 09:25:25 作者:Vali编辑部

AGI的实现路径是否只靠强化学习?

最近业内出现两种截然不同的声音:一方认为通过持续收集白领工作数据并针对性训练,未来五年内就能实现AGI;另一方则认为当前算法成熟度不足,AGI的实现时间将远超预期。

这场讨论源于Darkesh Patel主持的播客节目。节目中,Claude 4核心成员Sholto Douglas和Trenton Bricken提出,强化学习足以支撑AGI发展,预计5年内AI就能胜任白领工作。他们认为,即便人工智能发展停滞,只要持续收集不同岗位的工作数据,就能完成自动化。

但主持人Darkesh Patel并不认同。他认为当前算法尚未成熟,LLM无法像人类一样持续学习。工程师只能通过修改系统提示词来优化模型,这种改进方式远不及人类通过反馈、经验积累和自我纠错实现的持续进步。

这种观点引发了不少讨论。Karpathy认为当前LLM确实存在持续学习能力不足的问题,就像人类失忆一样,无法保存学习到的经验和知识。Nathan Lambert则指出,强化学习在LLM中已取得突破,未来有三个值得探索的方向:Scaling强化学习、稀疏奖励和持续学习。

强化学习下一步

如何将当前可验证奖励强化学习(RLVR)扩展到下一代语言模型?甚至扩展到通用人工智能(AGI)或超级人工智能(ASI)?

即便我们期待这样的技术突破,现实仍充满挑战。当前业界正在尝试将现有强化学习机制与可验证奖励结合,不断扩大应用范围。这种模式下模型发布频率更高,可以更频繁地交付更新版本。由于开发重心正逐渐转向后训练阶段,模型的迭代优化也变得更加自然和高效。

但在另一个极端,我们也在探索构建真正意义上的「持续学习」系统。这种尝试本质上是一种高度不确定性的尝试。介于两者之间的方向,即尝试将RL应用于反馈稀疏、评估周期较长的任务领域,前景更具争议。

从个人角度,Nathan Lambert对此持略为悲观的态度。他认为这类研究路径在实践中越来越像复杂机器人系统的研究。而在机器人领域,端到端的强化学习并不是当前公认的最佳方案。这提醒我们:将RL拓展到稀疏反馈领域时,必须格外谨慎,不能盲目套用已有的训练范式。

真需要「持续学习」吗?

AI应该像人一样,在互动后获得永久性成长。这个愿景虽然美好,但也暗藏隐患。事实上,当前实现「持续学习」的最接近方式,其实是推荐系统。

很多人惊叹推荐系统能在短短几分钟内精准捕捉个人兴趣,这其实就是通过用户交互进行的即时学习。但想象一下,如果这种能力被赋予超强理解力的AI模型,并且背后的交互反馈机制又被某家公司所掌控,那将带来一系列令人不安的后果。

其实,也有一些更稳妥的替代方案。比如,虽然ChatGPT当前的「记忆」功能还不完美,但它已经可以根据你过往的纠正,避免重复犯错。这种基于历史对话记录的记忆机制,虽然没有更新模型权重,但在体验上已接近「持续学习」。

如果觉得还不够强,那我们可以继续等待技术成熟:让本地模型边用边学,真正实现私有化的持续进化。这些路径虽然发展更慢,却能显著降低「超级偏见AI」的风险。

在这场讨论中,有一个词其实更容易被大众接受——「个性化」。相比之下,「持续学习」这个提法更有利于AI巨头,因为他们可以从每一位用户的交互中提取数据、反哺模型。但对这些AI实验室而言,真正的个性化其实和他们的战略相悖。

他们更倾向于:用少数几个通用模型,服务成千上万的用户。而如果开源模型能持续进步,或许真的能迎来「个性化」时代——每个人都有属于自己的专属AI。

图灵奖得主

从经验中学习

早在1993年,2024年度图灵奖得主Richard Sutton就提出:智能的本质是智能体与环境之间的直接交互体验。这种互动关系是目标设定、选择和信息获取的基础。

他认为,智能体的智能只能通过行为展现,而行为的好坏又只能通过对环境反馈的影响来评估。所谓「了解环境」,对智能体而言,其实就是了解这些交互造成的效果。

智能体所感知的一切世界,其实都来自自身不断接收到的经验流。不管如何抽象世界,比如物体、物理规则或其他智能体等复杂概念,对于智能体来说,这些不过是经验中反复出现的模式。

经验流构成了智能体全部的输入和输出,它的智能行为正是在对这些经验的理解和处理中显现出来。这一看似显而易见却颇具颠覆性的思想,正是他研究生涯的出发点。

他认为随着主流AI范式演变,人类将进入「体验时代」。这种范式转变结合强化学习的进步,将催生许多超越人类极限的新能力。