李飞飞创业背后,是怎样一番经历?世界模型,真的有那么重要吗?
李飞飞因角膜损伤暂时失去立体视觉的经历,让她对空间智能有了全新认知。这种改变不仅影响了她的个人生活,更推动了她对世界模型研究的深入思考。作为人工智能领域的重要人物,她将这次身体体验转化为技术探索的契机,揭示了三维空间感知对智能系统发展的关键作用。
在a16z最新播客节目中,李飞飞分享了这段经历对她的启发。她提到,当单眼视觉成为常态时,驾驶汽车变得格外谨慎。这种对空间维度的依赖让她意识到,当前AI系统在三维空间表征方面存在明显短板。就像语言模型需要上下文理解,物理世界的交互也必须建立在三维空间认知基础上,这种认知差异正是当前智能技术的短板。
李飞飞指出,语言模型在文本处理上的表现令人惊叹,但面对实体世界时仍显不足。她的研究团队发现,动物通过5亿年进化形成的三维认知系统,远比人类后期发展出的语言系统更为精妙。这种认知差异让李飞飞确信,真正的通用智能必须建立在对物理空间结构的理解之上。这成为她创办World Labs的核心理念。
构建能真正理解物理世界的AI模型
李飞飞透露,早在大语言模型兴起之前,她就认识到世界模型的重要性。这种认知源于她对人工智能发展的长期观察。回顾博士和教授生涯,若以今天视角审视过去十年AI发展,最令她震撼的是数据驱动范式爆发的能量。当年她带领团队开发的ImageNet系统,收录了超过1000万张精确标注的图片,彻底改变了计算机视觉研究格局。
不过在她看来,如今由大规模数据驱动的模型展现出的"类思维机器"行为,仍远超当初预期。这种矛盾感促使她不断思考:当业界追逐语言模型时,是否忽略了更本质的维度?这种思考最终引导她创办World Labs,而非简单跟风基础模型创业潮。她强调,语言虽是信息高效载体,但对三维物理世界的表征存在天然缺陷。
李飞飞指出,我们生存的实体空间充满动物演化史沉淀的感知智能,而语言只是人类文明后期产生的有损压缩符号。环顾自然,没有漂浮的词汇表,只有具象的物质世界。这种认知让她确信,真正的通用智能必须建立在对物理空间结构、物体组合关系的理解之上。这也是World Labs的使命,即构建能真正理解物理世界的AI模型,用集中攻坚方式让AI理解三维世界。
创立World Labs的契机
当李飞飞构思World Labs时,她需要的不仅是资金支持,更渴望找到思想共鸣的伙伴。这个人就是a16z合伙人、李飞飞公司早期投资者Martin Casado。两人在斯坦福大学的学术聚会上因对世界模型的讨论产生共鸣。Martin在节目中解释道,蒙眼状态下仅靠语言描述在房间执行任务几乎不可能成功,因为语言对物理空间的转译是低效且失真的。
他提到,摘下眼罩后大脑瞬间重构三维空间的能力让我们能精准抓取杯子、避开障碍,这种对物理世界的即时建模才是智能的根基。换句话说,语言适合传递抽象概念,但应对实体世界必须依赖空间智能,这正是当前AI最欠缺的能力。这种认知让李飞飞意识到,世界模型才是智能的下一里程碑。
李飞飞强调,这并非否定语言的价值,而是指出其局限性。当我们需要建造机器人、设计新材料或探索虚拟宇宙时,必须让AI获得类似生物的空间认知能力。从远古动物到现代人类,所有改变物理世界的创造行为,本质上都是三维智能的体现。一旦世界模型取得突破,我们可以创造无限虚拟宇宙:有些为机器人训练设计,有些用于社交体验,还有些专属于叙事艺术或旅行探索。
关键在于突破"视野之外"
在想法上达成一致后,李飞飞意识到要实现世界模型愿景,需要集结产业级的算力、数据和人才密度。具体到技术层面,世界模型能通过单张2D图像重建完整三维场景,包括视野之外的物体背面。这种能力带来根本性变革:计算机首次能像人类一样对空间进行测量、堆叠和操纵。
无论是从单帧视频生成360度环境,还是让机器人理解深度信息执行抓取任务,三维表征都成为智能交互的基础。这解释了为什么工业设计、建筑领域等都在急切等待这项技术突破。李飞飞提到,与六岁孩子讨论"树木为何不长眼睛"的经历让她深刻领悟:进化需求催生了空间感知能力。
动物通过5亿年进化形成的三维认知系统,远比人类晚近出现的语言系统更精妙。在她看来,当前AI发展恰似在重演进化历程——我们先攻克了语言处理这类"新技能",现在才真正挑战空间智能这个古老而核心的命题。而在尝试发起挑战的人当中,World Labs拥有自己的优势。
据李飞飞介绍,虽然三维AI研究相比语言模型是较新领域,但在计算机视觉领域早有积累。其联合创始人Ben Mildenhal在伯克利期间开创的神经辐射场(NeRF)技术,四年前就革新了深度学习的三维重建方法;另一位创始人Christoph Lassner在高斯泼溅表示法(Gaussian Splatting)上的先驱工作,也为三维表征提供了新范式。
更早时期,团队成员在GAN图像生成、风格迁移等方向的基础研究,都为当前突破埋下伏笔。这些分散在学界和工业界的探索,如今在World Labs汇聚成系统化攻关。李飞飞表示,破解三维智能需要特殊的人才组合:既要AI专家处理数据与模型架构,又需要计算机图形学专家解决内存与渲染问题。
因此,他们组建了可能是全球最顶尖的跨学科团队——涵盖计算机视觉、扩散模型、图形学、优化算法等领域的开拓者。这种集中火力的方式,与当年LLM发展初期各大公司"各自为战"形成鲜明对比。李飞飞坚信,唯有将最聪明的大脑聚集在"世界模型"这个北极星问题下,才能实现从实验室技术到产品化的跨越。
这场革命正在发生——而World Labs要做的,就是加速这个进程。