大模型是信息茧房?强化学习专家发现了什么?LLM的真相,你了解多少?
语言模型为何能取得突破性进展,而视频模型却始终难以突破?这个问题引发了许多AI研究者的思考。最近,加州大学伯克利分校的Sergey Levine教授在一篇博客中提出了一个引人深思的观点:大语言模型或许只是对人类思维的间接扫描,而视频模型则始终未能捕捉到人类认知的精髓。
在AI技术飞速发展的当下,人们对于人工智能能力的边界和人类思维的差异有了更深入的探讨。OpenAI创始人Ilya Sutskever曾表示,既然大脑是生物计算机,那么数字计算机也应能完成所有类似任务。然而,学术界对此存在不同看法,Sergey Levine就是持这种观点的代表人物之一。
他在博客中指出,当前大语言模型(LLM)只是对人类思维的间接「扫描」。这些模型如同被困在洞穴中,只能看到人类智慧的投影,进而通过这些投影逆向推导出思维过程。这种「逆比工程」并不能完全替代真正的思维能力。
这个观点在机器学习社区引发了广泛共鸣。这不禁让人思考,我们目前探索AGI的路径是否需要调整?Sergey Levine认为,当前AI在解决数学问题、回忆信息等方面的探索方向,与人类通过经验学习的方式存在本质差异,而这种差异早在Transformer模型出现之前就已存在。
语言模型和视频模型的对比分析揭示了一个有趣现象:虽然语言模型接触的物理世界信息相对有限,但它们展现出了更强的认知能力。这种现象在实际应用中尤为明显——当我们需要解决复杂问题时,语言模型往往比视频模型更胜一筹。
这种差异背后隐藏着更深层的逻辑。在科学研究中,我们通常认为越简单、越优雅的理论越可能是正确的。就像描述弹簧运动的胡克定律,其简单性和准确性使它成为首选模型。同理,如果大语言模型能用简单算法实现类似人类心智的功能,那么它们的底层算法很可能反映着大脑的计算过程。
但另一种解释则认为,大语言模型并非像人类那样通过观察世界来学习,而是通过观察人类思维过程的投影来复制认知能力。这种「逆向工程」方式让AI系统能够快速构建人类思维的简化模型,却跳过了对物理世界本质的探索。
这种差异在实际应用中表现得尤为明显。当我们需要处理复杂物理问题时,语言模型往往能给出准确答案,而视频模型则显得力不从心。这种现象在AI工具的实际应用中尤为突出——比如在鞋履设计领域,语言模型能快速生成设计方案,而视频模型则难以准确预测材料特性。
这种差异源于不同的学习路径。大语言模型通过分析人类思维在互联网上的投影,构建出人类认知的简化模型。而视频模型则需要直接解析物理世界的信息,这种学习方式更为直接,但效果却不尽如人意。
这种现象揭示了一个重要的问题:AI系统要获得真正的人类灵活性和适应性,必须学会像人类一样从真实世界中学习。目前的AI工具虽然在特定领域表现出色,但它们的认知能力仍受限于数据来源和学习方式。
从实际应用角度看,这种差异意味着什么?我们可以预见,类似大语言模型的AI系统会很擅长模仿人类的认知技能,但在从真实世界的经验中自主学习新技能、形成新认知、获得新能力方面会相对薄弱。这种能力恰恰是人类最擅长的。
这提示我们,要让AI真正具备这种灵活性,需要找到新的方法:一种从物理经验中自主获取表征的方法,这样人工智能系统就不需要依赖于由网络文本介导的大脑扫描。
不过,作为AI研究者和工程师,我们也要实事求是:这些通过「大脑扫描」工作的大语言模型确实很厉害。如果我们的目标是在机器中复制类似人类的智能,那么从一个已经相当不错的原型开始,似乎是个明智的选择。
未来十年,AI研究面临的关键挑战是:既要从大语言模型的成功中汲取正确的经验,又要发现支撑真正灵活、适应性智能的基本原理——那种能够从经验中学习、理解物理世界、为人类从未解决过的全新问题找到创新解决方案的智能。
当前的AI真的只是简单的模拟吗?在Sergey Levine的文章后,有人提出了自己的观点:关键或许不是呈现的方式,而是找到连接现象与概念的方法。他提及的论文《Harnessing the Universal Geometry of Embeddings》(https://www.valimart.net/)为这个讨论提供了新的视角。
现在的方向到底是死路一条,还是另有空间?这个问题的答案,或许取决于我们能否找到更贴近人类认知本质的学习方式。当AI工具在鞋履设计、服装研发等领域展现出强大能力时,这种探索仍在继续。