突破2D-3D鸿沟!北大提出VIPA-VLA,视频解锁机器人精准操控

具身智能之心 2025-12-26 08:55

编辑丨机智流

 
更多干货,欢迎加入国内首个具身智能全栈学”公众号习社区:,这里包含所有你想要的!
突破2D-3D鸿沟!北大提出VIPA-VLA,视频解锁机器人精准操控图1

当我们用手机拍摄一段 "拿起杯子放进抽屉" 的视频时,大脑能瞬间从 2D 画面中捕捉到杯子的位置、距离、手的运动轨迹等 3D 空间信息。但对于依赖视觉-语言-动作(VLA)模型的机器人来说,这却是一个巨大的挑战——它们只能从 2D 像素中解读语义,却难以建立与 3D 物理世界的有效关联,就像蒙上双眼在三维空间中摸索,常常出现“抓空”“放偏”等操作失误的尴尬局面。

这一“2D 感知与 3D 动作脱节”的问题,长期制约着机器人技术的落地应用。现有 VLA 模型大多依赖 2D 视觉输入制定行动策略,却要在真实的 3D 物理环境中执行任务,这种感知与行动的割裂,导致机器人的空间定位精度低、任务通用性差,难以适应复杂多变的现实场景。如何让机器人像人类一样,从 2D 视觉信息中精准推断 3D 空间关系,成为机器人学习领域亟待突破的核心难题。

针对这一问题,来自北京大学中国人民大学BeingBeyond(北京智在无界)的研究团队提出了一种全新的空间感知VLA预训练范式,通过人类演示视频的视觉-物理对齐,让模型在学习机器人策略前就掌握3D空间理解能力。他们构建了Hand3D数据集,设计了双编码器架构VIPA-VLA,在模拟环境和真实机器人任务中均取得了突破性成果。

突破2D-3D鸿沟!北大提出VIPA-VLA,视频解锁机器人精准操控图2

论文标题:Spatial-Aware VLA Pretraining through Visual-Physical Alignment from Human Videos

论文链接:https://huggingface.co/papers/2512.13080

项目主页:https://beingbeyond.github.io/VIPA-VLA

PaperScope解读:https://www.paperscope.ai/hf/2512.13080

一、研究背景:为什么人类视频是机器人学习的“金钥匙”?

现有VLA模型的局限主要源于两个核心问题:一是训练数据依赖机器人数据集,这类数据采集成本高、场景单一,难以覆盖真实世界的复杂情况;二是缺乏显式的3D空间建模,仅靠2D视觉特征无法精准映射物理空间中的动作逻辑。

研究团队发现,人类演示视频恰好能解决这两个问题:一方面,人类日常操作的视频(如做饭、整理、工具使用)易于大规模获取,涵盖了多样化的场景、物体和动作模式;另一方面,这些视频中蕴含着天然的“视觉-物理对应关系”——手部与物体的3D相对位置、动作的空间轨迹、任务目标与运动的关联,都是机器人学习3D空间理解的优质监督信号。

与直接对齐人类与机器人动作空间的方法不同,该研究的核心洞察是:无需纠结于人类与机器人的“身体差异”(embodiment mismatch),而是提取人类动作中不变的3D空间逻辑——比如“抓取物体需靠近其重心”“旋转抽屉需沿特定轴运动”,这些空间先验知识可以跨载体迁移到机器人身上。

二、核心支撑:Hand3D数据集——给机器人的“3D空间教科书”

要让模型学习视觉-物理对齐,首先需要高质量的标注数据。研究团队构建了Hand3D数据集,分为Hand3D-visual(3D视觉标注)和Hand3D-action(3D动作标注)两部分,堪称机器人的“3D空间教科书”。

Hand3D的数据源涵盖9个异构人类操控数据集,包括动作捕捉数据(如Arctic、HOI4D)、VR录制数据(EgoDex)和伪标注视频数据(Taste-Rob),确保了场景和任务的多样性。为了统一标注格式,团队将所有手部姿态对齐到MANO参数模型——这是一种标准化的人类手部形状与姿态表示,能精准描述21个手部关节的3D位置。

1. 3D视觉标注:让2D图像“长出”3D结构

Hand3D-visual的核心是将2D视频帧与3D物理空间关联起来。具体来说,团队通过三步实现:

首先,用Cut3R模型估计每帧的密集点云,获取每个像素的3D坐标;其次,用Gemini-2.5-flash生成物体提议,结合GroundingDINO得到2D边界框,再通过点云的深度信息定位物体的3D位置;最后,利用MANO手部姿态和相机参数计算3D关节位置,并通过“尺度校准”解决点云相对尺度与物理空间不匹配的问题——以手部关节的绝对深度为基准,调整点云尺度,确保手部和物体处于统一的3D坐标系中。

在此基础上,团队用Gemini-2.5-flash生成四类视觉问答(VQA)标签,将3D空间信息转化为模型可学习的语言监督:包括物体与手部的3D空间关系(如“杯子在手掌前方5厘米”)、任务完成所需的3D动作(如“将勺子向上移动10厘米”)、手部运动轨迹(方向+距离)和相机运动(旋转+平移)。最终,Hand3D-visual包含约30万条指令-答案对,覆盖四大任务类型。

突破2D-3D鸿沟!北大提出VIPA-VLA,视频解锁机器人精准操控图3

图1:Hand3D-visual构建流程示意图。通过点云估计、物体定位和手部姿态标注的融合,将2D视觉观测与3D物理空间关联,为VLA模型提供视觉-物理对齐监督。

突破2D-3D鸿沟!北大提出VIPA-VLA,视频解锁机器人精准操控图4

图2:Hand3D-visual数据示例。

2. 3D动作标注:捕捉人类动作的3D动态逻辑

Hand3D-action聚焦于动作的动态特征,从人类视频中提取手腕的3D轨迹,将其离散化为“运动令牌”(motion tokens)。具体来说,团队将每帧手腕的(x,y,z)坐标映射到预定义的3D空间范围(x/y轴:-0.5~0.5米,z轴:0~1米),并均匀离散为1024个区间,每个坐标对应一个令牌,最终形成序列化的运动表示。

同时,团队用Gemini-2.5-flash为视频生成任务指令,并设计了三类动作相关任务:指令驱动的运动生成、运动翻译(如将自然语言描述转化为运动令牌)和上下文运动预测。经过筛选,Hand3D-action包含103万条视频-指令-运动三元组,为模型提供细粒度的3D动作监督。

值得一提的是,Hand3D数据集无需依赖昂贵的3D扫描设备,仅通过现有视频和算法就能生成高质量标注,大幅降低了3D空间监督数据的获取成本。

三、模型架构:VIPA-VLA——双编码器解锁空间-语义融合

为了充分利用Hand3D的3D监督信息,研究团队设计了VIPA-VLA(Visual-Physical-Alignment VLA)双编码器架构,核心是将语义视觉特征与3D空间特征深度融合,让模型既能“看懂”场景语义,又能“感知”3D结构。

1. 双编码器设计:语义与空间的双向奔赴

VIPA-VLA的编码器包含两个核心模块:

  • 语义视觉编码器:基于预训练的视觉-语言模型(InternVL3.5-2B),负责提取图像的高层语义特征(如“这是一个杯子”“手部在抓取物体”),输出语义嵌入V_sem;

  • 3D视觉编码器:采用Cut3R模型,这是一种在人机交互数据上预训练的连续3D感知模型,能从单张2D图像中估计密集点云,输出包含几何信息的空间嵌入V_spa。

为了融合这两种互补特征,团队设计了基于交叉注意力的融合层:首先将V_sem和V_spa投影到同一特征空间,然后让语义视觉令牌对3D空间令牌进行查询,捕捉两者的关联;最后通过残差连接(带可学习缩放参数α)将融合后的空间特征F_spa与原始语义特征V_sem结合,得到最终的融合特征V_f = V_sem + α·F_spa。这种设计既能保留预训练VLM的语义理解能力,又能注入3D空间信息。

2. 运动令牌与动作生成

在动作建模方面,VIPA-VLA将3D动作轨迹转化为运动令牌序列,扩展了语言模型的词汇表。在预训练阶段,模型学习从融合的视觉-语言特征中预测运动令牌;在下游任务中,团队引入扩散Transformer(DiT)作为动作头,结合机器人状态嵌入,生成可执行的动作块(action chunk)。

整个模型架构的逻辑可以概括为:用双编码器打通“看”(2D语义+3D空间),用运动令牌和扩散模型打通“做”(3D动作生成) ,实现从感知到动作的端到端对齐。

突破2D-3D鸿沟!北大提出VIPA-VLA,视频解锁机器人精准操控图5

图3:VIPA-VLA模型架构示意图。左半部分为双编码器与融合层,实现语义-空间特征融合;右半部分为预训练与后训练流程,通过运动令牌对齐3D动作,最终生成机器人可执行动作。

四、训练流程:两阶段预训练+后训练,循序渐进掌握3D能力

VIPA-VLA的训练分为三个阶段,遵循“先空间理解,再动作接地,最后任务适配”的逻辑,确保模型循序渐进地掌握3D空间能力。

1. 阶段1:3D视觉预训练——对齐语义与空间

模型初始化时,继承预训练VLM(InternVL3.5-2B)的语义编码器参数和Cut3R的3D编码器参数,融合层随机初始化。此阶段冻结所有预训练参数,仅训练融合层,利用Hand3D-visual的VQA数据,让模型学习从2D语义特征和3D空间特征中推理3D关系(如物体位置、手部与物体距离)。目标是让模型建立“看到的2D图像”与“实际的3D结构”之间的关联。

2. 阶段2:3D动作预训练——学习动作的空间逻辑

此阶段冻结语义编码器和3D编码器,扩展LLM的词汇表以包含运动令牌,并用Hand3D-action数据训练LLM。模型需要根据融合的视觉-语言输入,预测对应的3D运动令牌序列。这一步让模型学会“如何将视觉语义和空间信息转化为物理动作”,比如根据“拿起杯子”的指令和杯子的3D位置,预测手部的抓取轨迹。

3. 阶段3:后训练——适配机器人任务

预训练完成后,模型已具备2D-3D对齐能力,接下来需要适配具体的机器人任务。团队在模型中添加DiT动作头,冻结视觉编码器和3D编码器,仅训练LLM骨干和动作头。训练数据为机器人任务的视觉帧、语言指令和对应的动作标签,模型学习生成符合机器人运动学约束的动作块。

突破2D-3D鸿沟!北大提出VIPA-VLA,视频解锁机器人精准操控图6

图4:VIPA-VLA训练流程示意图。从人类演示视频中提取3D标注,通过两阶段预训练实现视觉-物理对齐,最后通过后训练适配机器人操控任务。

五、实验结果:横扫模拟与真实场景,泛化性碾压基线

为了验证VIPA-VLA的性能,研究团队在三大类任务上进行了全面评估:模拟机器人任务(LIBERO、RoboCasa基准)、真实机器人任务,以及空间理解能力专项测试。结果显示,VIPA-VLA在几乎所有指标上都超越了现有基线,尤其在需要精准3D空间推理的任务中表现突出。

1. LIBERO基准:单/双视图均登顶,不依赖机器人预训练数据

LIBERO是机器人操控的标准基准,包含Spatial(空间)、Object(物体)、Goal(目标)、Long(长序列)四个任务套件,评估模型的鲁棒性和泛化性。在单视图输入设置下,VIPA-VLA的平均成功率达到92.4%,超过GR00T N1.5(92.1%)、4D-VLA(88.6%)等强基线;在双视图设置下,平均成功率高达96.8%,仅略低于π0.5(96.9%),但π0.5依赖大规模机器人数据预训练,而VIPA-VLA的预训练仅使用人类视频。

突破2D-3D鸿沟!北大提出VIPA-VLA,视频解锁机器人精准操控图7

值得注意的是,在长序列任务(LIBERO-L)中,VIPA-VLA的成功率达到85.6%,显著高于SpatialVLA(55.5%)等专门优化空间推理的模型,证明其3D空间理解能力能有效支撑复杂多步任务。

2. RoboCasa基准:复杂场景下的“突围”

RoboCasa是比LIBERO更具挑战性的基准,场景布局更多样、环境更杂乱、视觉观测更复杂,对3D空间理解的要求更高。研究团队仅用每个任务50条人类演示数据训练,VIPA-VLA的平均成功率达到45.8%,超越GR00T N1(36.0%)和π0.5(41.4%)。尤其在“门/抽屉”类别中,VIPA-VLA的成功率达到67.7%,比π0.5高出9.9个百分点——这类任务需要精准的3D定位和轴对齐操作,恰好体现了视觉-物理对齐预训练的优势。

3. 真实机器人任务:从实验室走向现实

研究团队用7自由度Franka机械臂、6自由度Inspire手和两台RealSense L515相机搭建了真实实验平台,设计了三个核心任务:Put-Three-Obj(将三个水果放入抽屉)、Wipe-Board(擦拭白板笔迹)、Water-Plant(给植物浇水),并设置了“ unseen环境”(如更换桌布颜色、马克笔颜色)评估泛化性。

在真实任务中,VIPA-VLA的表现尤为亮眼:Wipe-Board任务的整体成功率达到60%,子任务成功率83%,远超GR00T N1.5(30%/57%)和InternVL3.5(10%/43%);Water-Plant任务的整体成功率50%,子任务成功率57%,同样大幅领先基线。即使在unseen环境中,VIPA-VLA的Wipe-Board任务整体成功率仍有50%,而其他模型的成功率普遍降至10%左右,证明其学到的3D空间逻辑具有极强的迁移能力。

突破2D-3D鸿沟!北大提出VIPA-VLA,视频解锁机器人精准操控图8

图5:真实机器人任务设置示意图。三个任务分别测试多物体操控、不规则区域作业和精细动作控制能力。

突破2D-3D鸿沟!北大提出VIPA-VLA,视频解锁机器人精准操控图9

图6:VIPA-VLA执行真实机器人任务的定性示例。从上到下分别为Put-Three-Obj、Wipe-Board、Water-Plant任务,模型能精准定位物体、调整动作轨迹,适应不同场景布局。

4. 空间理解专项测试:更精准的3D推理

在Hand3D-test测试集(2000条 unseen VQA对)上,VIPA-VLA的距离预测误差仅为0.12米,方向预测准确率达到1.82/3(三轴平均),显著优于未经过空间预训练的InternVL3.5(误差0.18米,准确率1.22/3)。这表明,通过两阶段预训练,模型确实掌握了更精准的3D空间推理能力,而不仅仅是“记住”训练数据中的模式。

此外,在动作轨迹预测上,VIPA-VLA生成的轨迹比人类真实轨迹更平滑、更具目标导向性——人类轨迹往往包含冗余动作(如手部轻微晃动),而模型能提炼出核心运动逻辑,例如抓取木勺时会自动对准手柄位置,体现了对物体功能和物理约束的理解。

突破2D-3D鸿沟!北大提出VIPA-VLA,视频解锁机器人精准操控图10

图7:第二阶段预训练后VIPA-VLA预测运动轨迹的可视化(蓝线)和ground-truth轨迹(即人类真实轨迹,红线)对比。

六、消融实验:关键组件的贡献验证

为了明确模型各组件的作用,研究团队进行了消融实验:

  • 移除“空间感知预训练”:模型平均成功率下降1.2%,证明人类视频的3D监督能有效提升空间接地能力;
  • 移除“双编码器架构”:仅使用语义视觉编码器,平均成功率下降3.7%,说明3D编码器提供的几何信息是不可或缺的;
  • 仅移除“融合层”:平均成功率下降2.0%,验证了交叉注意力融合机制能有效结合语义与空间特征。

这些结果表明,空间感知预训练和双编码器架构是VIPA-VLA性能提升的核心,两者相辅相成——预训练提供3D监督信号,双编码器提供高效的特征融合方式,共同解决了2D-3D对齐问题。

七、研究意义与未来方向

VIPA-VLA的工作为机器人学习提供了一种新的范式:不依赖昂贵的机器人数据,而是利用海量、易获取的人类演示视频,让模型提前掌握3D空间理解能力,再适配具体的机器人任务。这种范式不仅降低了机器人学习的数据源成本,还大幅提升了模型的泛化性——因为人类演示视频涵盖的场景和动作远比机器人数据集丰富。

从应用价值来看,VIPA-VLA的技术可直接用于家庭服务机器人、工业机械臂、医疗机器人等领域,让机器人在复杂、动态的真实环境中更精准地执行任务。例如,家庭服务机器人能根据“整理桌面”的指令,自主识别不同物体的3D位置并规划抓取轨迹;工业机械臂能快速适配新的工件形状,无需重新大规模训练。

从研究角度来看,该工作首次系统地将人类视频的视觉-物理对齐用于VLA预训练,为解决“感知-动作鸿沟”提供了可复制的方案。未来,研究团队计划将这种预训练范式与机器人数据预训练相结合,进一步提升模型在特定机器人平台上的适配性;同时,他们还将扩展Hand3D数据集的场景覆盖范围,加入更多复杂的人机交互任务(如协作装配、精密操作)。

总结

VIPA-VLA的提出,标志着机器人学习在“空间理解”上迈出了关键一步。通过人类演示视频的视觉-物理对齐,模型终于能像人类一样“从2D中读懂3D”,打破了现有VLA模型的感知局限。这项来自北京大学、中国人民大学和BeingBeyond的研究,不仅在多个基准上取得了顶尖性能,更重要的是为机器人学习提供了一种更高效、更通用的训练范式——当机器人能从人类的日常行为中学习空间逻辑,它们离真正适应真实世界又近了一大步。

感兴趣的读者可以访问项目主页查看更多细节,或阅读论文原文深入了解技术细节。

论文标题:Spatial-Aware VLA Pretraining through Visual-Physical Alignment from Human Videos

论文链接:https://huggingface.co/papers/2512.13080

项目主页:https://beingbeyond.github.io/VIPA-VLA

PaperScope解读:https://www.paperscope.ai/hf/2512.13080

本文只做学术分享,如有侵权,联系删文

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
IP 机器人
more
全球首个L2+智驾级具身智能机器人,有何值得期待的?
张亚勤预测2035年机器人数量将超人类,AI赋能下人类周工时或缩至两天
荣耀发布机器人手机/平价MacBook或吸引更多Windows用户/打造春晚「机器人蔡明」的松延动力,完成10亿融资
iPhone 17e 发布,4499 元起售;马斯克:10 年内上班将全凭自愿;卢伟冰:5 年内机器人进小米产线
宇树科技CEO王兴兴详解春晚机器人技术演进与行业前景
FF启动EAI机器人交付 首批6台落地美国高端民宿场景
王兴兴呼吁构建人形机器人统一评价体系,破解“各说各好”困局
全球首个!小鹏布局人形机器人量产基地 2026年底规模量
宇树王兴兴,透露机器人落地工厂进展
刚刚,宇树发布马年首个重磅机器人新品,小身板扛起200斤大汉
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号