模型驱动的创新,能带来什么新可能?谁在引领鞋服行业的技术变革?

2025-10-13 11:00:39 作者:Vali编辑部

在世界机器人大会(WRC)的演讲现场,宇树科技创始人王兴兴的发言引发了行业广泛关注。这位以机器人本体技术闻名的创业者,这次却将话题重点放在了模型架构和算法层面。面对当前具身智能领域对VLA(视觉-语言-动作)路线的热捧,王兴兴给出了自己的判断——这个看似先进的技术路线,其实存在一些值得商榷的问题。

对于机器人行业来说,VLA模型的出现确实带来了新的可能性。但王兴兴认为,这种技术路线在具身领域尚未成熟。他指出,当前的VLA模型在与真实世界交互时,数据质量与数量都难以满足需求。这已经是一个被广泛讨论的行业共识,但不少企业仍在通过堆砌真机数据、仿真数据甚至建设数字采样工厂的方式来弥补。王兴兴对此表示,这种做法虽然能短期内提升效果,但并不能从根本上解决问题。

在演讲中,王兴兴特别强调了模型架构的重要性。他指出,当前具身机器人领域存在一个普遍问题——模型不够好、也不够统一。这导致不同企业之间的技术路线差异较大,难以形成统一的行业标准。他认为,未来具身智能的发展方向,应该更多关注模型架构本身的优化,而不是单纯依赖数据量的积累。

当被问及宇树科技在模型方面的投入时,王兴兴给出了一个颇具特色的回答。他透露,宇树的模型团队人数其实不少,但相对于AI大厂来说还算少。这种表态既是对行业认知的回应,也展现了宇树的差异化战略。王兴兴认为,模型研发的成果并不完全取决于团队规模,中小型团队同样有机会做出突破性进展。

在具体技术路线选择上,王兴兴展现出自己的独到见解。他并不认同当前行业内对VLA模型的过度追捧,认为这种技术路线在具身领域仍有改进空间。他指出,一个能力更强的具身模型,或许只需要少量数据就能完成高效训练。这与当前行业内普遍采用的"数据堆叠"策略形成鲜明对比。

王兴兴的另一个重要观点是关于视频驱动模型的探索。他透露,宇树早在去年就尝试过类似谷歌的视频驱动世界模型方案。具体来说,就是先用视频生成模型制作"机器人整理房间"的视频,再用这个视频驱动机器人完成实际任务。这种技术路线在王兴兴看来,可能比VLA路线更容易实现突破。

当然,这种视频驱动方案也存在明显短板。王兴兴坦言,视频质量要求过高会导致GPU消耗量大幅增加,这对算力资源提出了更高要求。不过他对此早有准备,认为未来机器人领域将需要搭建低成本、大规模、分布式的算力集群。他预测,当工厂里有100台机器人时,搭建分布式服务器集群将成为必然选择。

在机器人应用场景的讨论中,王兴兴展现出务实的态度。他承认当前机器人进工厂、进家庭干活的难度较大,因此选择将重点放在表演等容易落地的场景。但这种选择并不意味着宇树对"干活"场景的忽视,相反,内部从事机器人实际应用研发的员工数量是最多的。

关于机器人"干活"的挑战,王兴兴给出了自己的判断。他认为,机器人不应该只做单一功能性工作,而是要具备通用性、多功能性。比如既能端茶倒水,又能进行表演。这种设计理念与当前行业内专注单功能机器人开发的趋势形成对照。

在技术发展预期方面,王兴兴给出了一个时间节点判断。他认为,机器人领域的"ChatGPT时刻"最快可能在2-3年内实现,最慢也需3-5年。这个判断基于对当前技术发展趋势的观察,他认为具身智能浪潮不会超过10年。

当被问及"ChatGPT时刻"的具体表现时,王兴兴描绘了一个理想场景:在某个场馆里,人形机器人随意走动,当人们随机吩咐它们完成任务时,机器人能够准确执行。这种场景的实现,将标志着具身智能技术的真正突破。这个画面既展现了技术发展的可能性,也暗示了未来机器人应用的广阔前景。