短视频数据如何驱动智能服装进化?Being-H0的创新模式能带来什么?

2025-10-15 09:50:37 作者:Vali编辑部

具身智能技术正在改变机器人如何理解世界。从最初依靠传感器感知环境,到如今能够理解人类意图并执行复杂动作,这一领域的技术突破引发了行业广泛关注。但现实情况是,机器人在真实场景中仍面临诸多挑战,其中最突出的就是数据不足带来的发展瓶颈。

当前的视觉-语言-动作(VLA)模型在处理真实场景时表现欠佳,主要受限于真机数据的匮乏。虽然业界已投入大量资源构建数据平台,但现有数据规模仍难以满足模型训练需求。以马斯克主导的数据工厂项目为例,其数据量与模型规模定律所需的训练样本存在三个数量级差距。这种数据鸿沟直接制约了VLA模型在具身智能领域的应用效果。

北京大学与BeingBeyond团队在这一领域取得突破性进展。他们通过分析海量人类操作视频,构建了包含亿级样本的训练数据集。这项研究的核心创新在于提出"物理指令微调"框架,成功实现了从人类手部运动到机器人动作空间的精准映射。该技术最终催生出首个基于人类视频数据训练的VLA模型Being-H0,并通过真实机器人平台验证了其有效性。

研究发现,人类双手可作为各种末端执行器的标准模板。从灵巧手到简单夹爪,所有机器人执行器都能从人类手部运动知识中获益。这种认知为VLA模型训练提供了全新思路。通过预训练学习人类操作轨迹,可以构建具有广泛适应性的基座模型,这在具身智能领域具有重要意义。

在数据获取方面,短视频时代的海量视频资源为研究提供了便利。相比仿真环境采集的"虚拟-现实"差异,真实视频数据更能反映实际场景特征。研究团队借鉴视觉指令微调经验,创新性地设计了物理指令调优框架。该框架专门解决2D多模态数据与3D机器人动作空间之间的异构性问题,包含三个关键部分:

预训练阶段,通过百万量级人手操作视频学习,弥补传统多模态模型在三维动作空间建模方面的不足。研究团队设计了统一的多模态自回归架构,实现了视觉、语言与动作模态的协同表征学习。Being-H0采用分部位动作编码方案,针对手腕和手指分别设计专用编码器,将动作姿态重建误差控制在毫米级,有效解决动作离散化带来的精度损失。

物理空间对齐环节,通过统一坐标系转换方法,消除多源数据在相机参数、观测视角等方面的差异。这种处理确保VLA模型能够有效学习空间与动作表征,为后续训练打下坚实基础。

后训练阶段,建立从人类动作到机器人操作的高效转换通道。这项技术突破使模型在真实机器人任务中展现出显著优势。实验数据显示,在保持下游任务训练参数一致的情况下,Being-H0模型性能显著优于基座模型InternVL3,同时超越同期英伟达开源的VLA大模型GR00T N1.5。

研究团队特别指出,GR00T N1.5在训练过程中同样采用人类视频数据进行隐式动作空间学习,但其训练规模远超Being-H0当前使用的预训练数据量。这一对比结果充分证明,通过显式构建与下游任务结构高度对齐的预训练数据,能够显著提升模型从视频数据中学习人类动作知识的效果。

为验证方法的鲁棒性,团队在不同训练数据规模下进行对比实验。结果显示,在相同数据量条件下,Being-H0模型始终保持稳定性能优势。更值得关注的是,在同样成功率下,Being-H0所需的真机数据量远少于其他模型。例如在Pick-Place-Toy任务中,Being-H0在25%真机数据训练的性能已接近其他模型在100%数据上的表现。

这项研究不仅验证了物理指令调优框架的有效性,更证实了该方法可显著降低真机数据需求。这种突破对推动具身智能技术发展具有重要意义,为机器人灵巧操作研究开辟了新范式。

Being-H0的诞生离不开多个研究团队的共同努力。智在无界、北京大学及人民大学的研究团队共同打造了这一成果。团队表示,正持续攻坚具身智能大模型、灵巧操作、全身运动控制等核心技术,致力于让机器人真正走进千家万户。这项研究为机器人技术发展提供了全新思路,也为相关行业带来了深远影响。