从坐标混乱到时空对齐!诺亚和复旦联合提出4D-VLA,提升机器人预训练效率和稳健性

大模型之心Tech 2025-07-08 08:00

作者丨Jiahui Zhang等

编辑丨具身智能之心

本文只做学术分享,如有侵权,联系删文



>>点击进入→具身智能之心技术交流群

更多干货,欢迎加入国内首个具身智能全栈学习社区具身智能之心知识星球(戳我)这里包含所有你想要的。

Teaser

在 VLA pretrain 中,单帧 RGB + 文本的传统输入往往缺失关键时空线索,导致坐标系混乱与状态模糊——即同一观测下可能对应多种动作分布,显著拉低预训练效率。为破解这一瓶颈,我们提出 4D-VLA:通过将3D 空间 + 历史帧融入预训练输入,从而抑制混乱分布,提升模型在复杂场景中的performance。

Insight

如何从多源机器人数据中高效提取可迁移的运动知识,仍是制约通用操作策略的关键瓶颈。当前公开的 DROID、LIBERO 等大规模数据集为数据驱动控制提供了可能,但输入信息的不完整与不一致严重削弱了预训练的效果。

现有范式的局限

以 OpenVLA 为代表的主流方法,仅使用单帧 RGB 图像 + 文本指令作为条件来拟合动作分布  。这种极简输入导致目标分布呈现两类混乱:

  • 坐标系混乱(Coordinate System Chaos) ─ 当图像未能完整覆盖机器人本体时,难以推断其精确位姿,动作需在多个候选坐标系间选择,分布方差急剧上升。论文统计显示,在 DROID 数据集中约 67 % 的样本存在此问题。
  • 状态混乱(State Chaos) ─ 单帧视图缺乏时间线索,视觉上相似的观测可能对应完全不同的动作,如对称轨迹或柜门微小开合等,导致 局部不连续、难以拟合。

这种 高方差 / 非平滑 的目标分布直接拖慢模型收敛,并在跨场景泛化时暴露明显短板。

坐标系混乱(Coordinate System Chaos)——为何单帧 RGB 会拖垮预训练?

在现有 VLM-式预训练中,动作  默认以机器人自身坐标系为基准输出。然而,当输入仅是一张 RGB 图像时,模型往往看不到机械臂底座,也就无法推断“原点”在何处;于是同一张图像可能兼容多套坐标系,导致:

  1. 动作参照系冲突
  • 对于人类来说,“向前移动 5 cm”总是以底座为原点;
  • 对模型而言,底座方位不可见,  既可能属于坐标系 (镜头左侧)也可能属于 (镜头右侧)。
  • 目标分布高方差
    • 在大规模数据中,这类“Coordinate System Chaos”样本占比可达 67 %(DROID 统计);
    • 相同视觉观测  被映射到多种候选动作 ,让条件分布  呈现多峰、离散特征。
  • 梯度互相抵消 → 预训练低效
    • 在最小化 NLL 或回归损失时,不同坐标假设给出的梯度方向往往相反,网络学习到的只是加权平均的错误动作;
    • 结果是收敛速度下降,跨场景泛化更差——如附录实验所示,坐标扰动越大,纯 RGB 模型成功率陡降,而加入 3D 坐标的模型保持稳定。

    解决思路

    4D-VLA 通过 深度图 + 相机外参 将每个像素反投影到世界坐标,显式嵌入学习式 3D 位置编码,确保视觉 token 与机器人坐标对齐,从而缓解坐标系歧义,收敛动作分布方差,并带来更快、更稳的预训练。

    坐标系混乱影响分析

    为了定量评估“坐标系混乱”对 VLA 模型的破坏性,我们设计了一个受控实验,分两步进行:

    1. 人为注入混乱:从 LIBERO-SPATIAL 中挑选若干轨迹,对每条轨迹渲染 30 个不同视角。随后在机器人坐标系上施加随机平移 与旋转 ,模拟预训练数据中常见的“看不见底座”情形。
    2. 对比训练:分别用 纯 RGB(无 3D 信息)和 RGB-D + 3D 坐标编码 两种输入重新训练模型,检验 3D 线索能否抵御混乱带来的性能退化。

    混乱注入细节

    • 对动作标签  与相机外参  施加同样的坐标变换:
    • 其中  为欧拉角到旋转矩阵的映射。
    • 混乱等级
      • Level 0:不添加旋转;
      • Level 1‒3:在 z 轴随机旋转 ,并在  内随机平移。

    实验结果

    如 Fig. 6 所示,未加入混乱时两种模型成功率都在 64 % – 75 % 左右,而 3D 模型略优;随着混乱加剧:

    • 无 3D 的纯 RGB 模型性能几乎随旋转角度呈断崖式下降,Level 3 仅剩 8 % 成功率。
    • 加入 3D 坐标编码 后,模型在最极端的 90° 旋转下仍保持 30 %,且整体方差显著收敛,验证了 3D 线索能有效校准跨视角坐标系。

    结论

    坐标系漂移会导致动作标签在训练阶段相互冲突,严重拖慢模型学习;而通过 深度 + 位姿 生成的 3D 空间 token 能将视觉与机器人坐标对齐,大幅缓解性能退化。这一发现印证了 4D-VLA 在多视角、跨场景场合下的稳健优势,为后续大规模预训练提供了理论与实验依据。

    Method

    Spatial-Aware Visual Tokens

    解决“坐标系混乱”关键一步:把每个视觉 patch 映射到统一 3D 坐标,并与语义特征对齐。

    1. 特征提取

    2. 深度反投影

      对下采样后的深度   结合相机内外参  计算世界坐标:

    3. 3D 位置嵌入

      我们将可学习的位置信息嵌入用于编码 3D 坐标,并与原始视觉特征图按元素相加,得到更具空间表达力的空间视觉特征。随后,这些特征经 InternVL中的 MLP,生成空间视觉 token


    4D Representation with Multi-Frame Encoding

    在时间维度补充上下文,缓解“状态模糊”。

    1. 滑动窗口:取时间窗 (如 20 帧)的序列 

    2. Memory Bank Sampling (MBS)

    • 设记忆池 ,最大容量 
    • 相似度函数  —— 默认对视觉描述符做余弦相似度。
    • 保持时间顺序;
    •  恢复为 
    • 最新帧  必定留存。
    • 直接把  追加到  末尾;结束。
    • 动机:在固定容量  的记忆池(Memory Bank)中,始终保留 最新帧 并尽量去除与其余帧冗余度最高的旧帧;同时保持时间顺序不被打乱。

    • 步骤

    1. 初始化

    2. 处理新帧 

    3. **返回更新后的 **。

    1. 先把  追加到  尾端,使 

    2. 仅计算相邻帧对的相似度:

    3. 找到相似度最大的相邻帧对 

    4. 删除其中较早的一帧 (即对的左侧),从而:

    1. 若 

    2. 否则 

  • 时间位置编码

    • 由于采样间隔非均匀,引入可学习 相对时间 token

    • 每帧构成一对 ,再与指令 token 联合:

    3.4 损失函数

    Experiments

    Pretrian

    数据集与评估环境

    我们首先在 DROID 真实机器人数据集上进行预训练。DROID 共收集了 76 000 条人类示范轨迹,累计约 350 小时 交互,覆盖 564 个室内外场景与 86 项操控任务。每条轨迹同时提供两路第三人称视角和一路腕部视角的 RGB-D 流,能够充分呈现多视角、多物体、多任务的真实分布。

    下游评测采用 LIBERO 仿真套件,其包含四类任务集 —— SPATIAL、OBJECT、GOAL 以及针对长程推理的 LONG。在标准配置下,LIBERO-90 为短程场景提供 90 个子任务,LIBERO-LONG 则额外给出 10 个长程子任务;总计 130 个子任务,每个子任务各有 50 条由主摄和腕摄录制的演示轨迹,专门用于考察知识迁移与终身学习能力。

    预训练流程

    数据预处理 所有 RGB-D 帧被统一缩放至 448 × 252。我们对每条轨迹按时间均匀下采样到 100 步动作,并去除静止帧与超过 600 动作的异常长序列。动作用末端执行器的 “当前-目标” 差分表征,平移量乘 15,旋转(欧拉角)乘 5 做数值归一化。

    模型 主干采用 InternVL-4B。时间窗口设为 20 帧,并通过 Memory Bank Sampling 动态选取 5 帧历史 + 当前帧 进入网络。RGB-D 特征首先经原始视觉编码器提取;随后把基于相机外参反投影得到的 3D 坐标送入一个可学习的 3D 位置编码 模块,与语义特征逐元素相加;融合后的特征再通过一个下采样率为 4 的 MLP,其权重继承自 InternVL 预训练模型。

    稀疏深度处理 DROID 中深度存在空洞,因而我们先对每个视觉 patch 取平均深度;若该 patch 超过 90 % 像素无效,则跳过 3D 位置编码,相当于一次随机 dropout,同时起到数据增广作用。

    训练细节 实验中 冻结视觉编码器,其余参数全部微调;方向损失权重 。学习率采用余弦退火,初始值 2e-5;批量大小 512, 1 epoch(约 20 k 步) 。全部训练在 8 张 NVIDIA A6000 (96 GB) GPU 上用时约 96 小时。推理阶段启用 FlashAttention 并使用 bf16 精度,显存占用约 8 GB

    LIBERO evaluation

    MV-Bench evaluation

    基准动机与数据构建

    为系统评估机器人视觉-语言-动作模型对多视角输入的理解与泛化能力,我们基于 LIBERO-SPATIAL 重新渲染并推出 MV-Bench:对每条轨迹在机器人前方 270° 视场内均匀采样 6 个训练视角与 6 个测试视角。评测分为两种设置 — In-View:训练与测试使用同一组视角;Cross-View:测试只在未见过的 6 个新视角进行。为避免底座被遮挡,我们剔除了黑箱遮挡区域内的角度,最终相机布置如 Fig. 3 所示。

    评估协议

    • 动作成功率(task success rate)作为唯一指标。
    • 所有方法均在 LIBERO 短程任务上微调,再按照 In-View / Cross-View 两套视角做闭环控制测试。
    • 4D-VLA 的微调设置与主实验保持一致(时间窗 20、MBS 取 5 帧等),保证公平对比。

    主要结果

    设置
    OpenVLA
    4D-VLA
    提升
    In-View
    52.2 %
    81.0 %+28.8 pp
    Cross-View
    50.5 %
    73.8 %+23.3 pp

    详细角度拆分见论文 Tab. 2:在 0°、60°、120°、270°、300°、330° 六个训练视角下,4D-VLA 的成功率均超过 70 %,最高达 90.2 %;而在 15°–105° 等 全部未见视角 上仍保持 60.8 %–83.4 % 的稳定表现,全面压制基线。

    结果分析

    1. 时空提示带来视角不变性

      通过 3D 坐标对齐与历史帧记忆,模型可在不同相机坐标系间共享统一世界坐标,从而显著缓解视角切换带来的图像-动作映射漂移。

    2. 跨视角泛化优于现有方法

      在 Cross-View 设置中仍能保持 73.8 % 成功率,说明 4D-VLA 学到的策略不依赖于特定成像角度,而是聚焦于物体间的真实空间关系。

    MV-Bench 证明 4D-VLA 不仅能在已见视角下高效执行任务,更能稳健迁移到完全未见的新视角,充分验证了其空间感知与视角泛化能力。

    Real-world evaluation

    我们在真实 Franka 机械臂平台上构建了 4 个具身操控任务,全面考察模型的空间推理、泛化以及指令理解能力(参见 Fig. 4):

    1. 空间泛化(Spatial Generalization)

      机器人需将黄色方块从训练时未出现的位置放入指定托盘,检验其对全新空间布局的适应性。

    2. 抗干扰鲁棒性(Robustness to Distractors)

      在存在大量杂物的背景下,将两个绿色方块放入托盘,评估模型抵抗视觉干扰的能力。

    3. 精确堆叠(Precise Placement)

      要求将黄色方块精准叠放在红色方块之上,强调厘米级动作预测准确度。

    4. 结构化指令执行(Instruction Following)

      机器人需按 颜色顺序 执行多步抓放(如 “红 → 绿 → 蓝”),考察其对序列化语言指令的遵循程度。

    评测指标

    • 任务 1 & 3:以成功率(成功次数 / 总次数)计分。
    • 任务 2:每正确放置一个绿色方块得 1 分(每轮最多 2 分),满分 40 分,最终得分除以 40 归一化。
    • 任务 4:共有 5 组颜色顺序,每组 5 次试验;每正确放置一个方块得 1 分(每轮最多 3 分),满分 75 分,最终得分 / 75。

    实验设置

    我们以 InternVL-结果与分析

    • Base VLA(无预训练)在全部任务上都落后于 OpenVLA,说明仅靠单帧 RGB 难以完成精确操控。
    • 加入 3D 坐标编码的预训练 后,即使下游仍用单帧 RGB,性能大幅反超,验证了我们 4D 预训练在空间对齐上的优势。说明确实是再与训练层次起到了作用,模型预训练的更好了。
    • 在短程任务(任务 1、3)中,坐标编码 尤其提升了精确堆叠表现,证明物体-坐标对齐对厘米级操作至关重要。
    • 在长程多步任务(任务 2、4)中,模型常能完成第一步却失败于第二步,暴露出时间上下文缺失的问题;MBS 引入历史帧后显著改善这一现象,帮助模型维持多步推理链。
    • 整体而言,当上游预训练输入(坐标感知、时序结构)与下游任务匹配 时,知识迁移效果最佳;即便下游只用单帧 RGB,模型仍保持强列的空间可解释性和跨任务泛化性。

    通过 3D 坐标显式对齐与 MBS 时间补全,4D-VLA 在真实机器人环境中实现了更高精度与更强鲁棒性,为大规模多摄、跨场景应用奠定基础。

    Ablation

    Multi-view real-world evaluation

    为进一步验证 4D-VLA 在真实多摄像头场景下的泛化能力,我们搭建了一个四摄像头固定阵列,对同一操作过程从 0°、90°、180°、225° 等不同朝向同步采集演示,并设计两项更具挑战的任务:

    • Task 1 – 分布外泛化(Out-of-distribution Generalization)

      机器人需在 背景杂物、托盘位置、干扰物体均与训练阶段不同的情况下,将黄色方块放入盘中,考察对物体布局与背景变化的鲁棒性。

    • Task 2 – 新视角泛化(Novel-view Generalization)

      训练仍使用 4 视角数据,但推理阶段仅输入 额外第 5 个从未见过的摄像头视角,评估模型对视角变化的稳健性。

    每个视角-任务组合录制 50 条;所有模型统一训练 20 epoch,并在 20 轮随机化测试中以成功率计分。

    结果分析

    • 视角内稳健性

      在训练时见过的 0°、90°、180°、225° 四个视角上,4D-VLA 的成功率始终保持在 60 %–65 % 区间;相比之下,OpenVLA 的成绩只在 10 %–30 % 之间波动。这表明一旦引入显式 3D 坐标对齐,模型对 物体位置和背景扰动 的敏感度大幅降低,能够在相同摄像机视角下稳定重复操作。

    • 跨视角泛化能力

      当摄像机绕工作台额外旋转 ±15°、±25°、±45°(训练阶段从未出现)时,4D-VLA 仍能维持 40 %–55 % 的成功率,而 OpenVLA 迅速跌至 5 %–30 %。这说明 4D-VLA 学到了与视角无关的 世界坐标系表征,能够在陌生相机坐标中快速重建目标相对位置并生成正确动作。

    • 性能随角度的衰减特征

      4D-VLA 的成功率随视角偏移呈 平滑下降;即使在最极端的 ±45°,性能只比 In-View 低约 15 pp。相对而言,OpenVLA 曲线陡峭且不稳定,进一步凸显 坐标编码 + 历史帧记忆 对高角度视差的缓冲作用。

    现象分析

    1. 坐标对齐 使得模型能在不同摄像机坐标中共享统一世界坐标系,确保视觉特征与动作标签一致。
    2. 历史帧记忆 提供时序上下文,帮助模型在新视角下快速定位目标并规划多步动作。
    3. 即使在最极端的 ±45° 视差下,4D-VLA 也仅出现小幅性能回落,而 OpenVLA 成功率剧烈震荡。

    参考

    [1]4D-VLA: Spatiotemporal Vision-Language-Action Pretraining with Cross-Scene Calibration


    声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
    机器人
    Copyright © 2025 成都科技区角科技有限公司
    蜀ICP备2025143415号-1
      
    川公网安备51015602001305号