LLM压缩,真的有价值吗?世界模型,未来能带来什么?

2025-10-19 10:35:42 作者:Vali编辑部

World Labs由斯坦福大学教授李飞飞于2024年创立,这家初创公司专注于研发具备空间智能的下一代AI系统。公司成立短短三个月内便完成两轮融资,累计融资额达2.3亿美元,估值突破10亿美元,成为AI领域新晋独角兽。李飞飞与a16z合伙人Martin Casado、Eric Torenberg的对话中,首次公开分享了World Labs的创立理念与技术方向,为行业揭示了空间智能的未来图景。

李飞飞在对话中明确指出,当前AI领域最核心的突破方向并非语言模型,而是空间智能。她强调,人类对三维世界的感知是进化过程中更基础的能力,这种感知能力决定了我们如何理解、操作和重建现实世界。在失去立体视觉的亲身经历中,她发现三维感知系统对人类行动具有决定性作用,而AI若无法构建三维空间模型,就难以真正理解物理世界。

空间感知:人类进化中更古老的能力

李飞飞分享的个人经历揭示了空间智能的重要性。数年前因角膜受伤导致短暂丧失立体视觉,她发现即使熟悉街道也无法判断与旁车的距离,这种体验让她意识到三维感知系统在人类行为中的基础作用。Martin Casado进一步解释,当前主流语言模型缺乏三维空间重建能力,这正是机器人和具身智能系统难以落地的关键原因。他举例说明,仅靠语言描述陌生空间无法完成任务,而睁开双眼后大脑会自动构建空间模型并完成行动。

技术演进:从NeRF到世界模型的突破

李飞飞透露,World Labs的创立源于长期学术研究与产业基础的积累。她回顾四年前NeRF技术的突破,这项由Ben Mildenhall提出的神经辐射场研究,为三维视觉建模开辟了新路径。同时,Christopher在高效三维表示领域的创新研究,推动了volumetric 3D建模在工业界的回归。这些技术成果最终汇聚于World Labs,目标是构建AI的世界模型能力。

应用前景:空间智能超越机器人领域

李飞飞指出,世界模型的应用远超自动驾驶和机器人领域。她强调,创造力本质上是视觉性的,工业设计、电影制作、建筑构图、游戏开发等均依赖三维空间构建。如果AI具备世界模型能力,不仅能"看懂"三维世界,还能"生成"和"操作"虚拟空间。Martin举例说明,仅需一张桌子的照片,模型就能推断其形态与材质,构建完整空间场景,实现更直觉的人机交互方式。

技术哲学:三维全景建模的革命

李飞飞认为,World Labs的目标不仅是打造"会看"的AI,而是让AI理解三维结构、动力学与组合逻辑。这种技术突破不仅是工程难题,更是一种全新的表示哲学。她以DNA双螺旋结构、巴基球等科学发现为例,说明纯语言无法推导出这类几何构造,而世界模型能为科学与艺术开辟新路径。

进化路径:从语言到空间感知的跨越

Martin提出,AI正沿着人类进化路径倒行逆施。语言是人类大脑进化中最晚出现的模块,而空间感知系统在节肢动物时期就已存在。当前AI若仅能"学会语言",仍无法真正理解世界。李飞飞总结道,真正的世界不是文本构成的,而空间模型才是让AI理解并构建世界的钥匙。

World Labs的创立标志着AI技术进入新阶段,其研发的三维空间模型将改变人类与数字世界的交互方式。从工业设计到电影制作,从自动驾驶到虚拟现实,空间智能的应用正在重塑多个行业。随着技术的持续演进,AI将不再局限于文字理解,而是能真正"看见"并"操作"三维世界,为人类创造更多可能性。