摘要

Abstract

清华大学团队提出Vidar&AnyPos，实现机器人“虚实互通”的革命性突破。通过解耦动作执行与任务条件，攻克传统视觉-语言-动作（VLA）模型对人工演示的重度依赖问题。核心方案包含两大突破：

1）Vidar视频基座模型：基于扩散架构的750K多视角视频预训练，结合掩码逆动力学模型（MIDM），仅需20分钟真机数据即可泛化至新机器人平台，数据效率达SOTA方法的1/1200；

2）AnyPos-ATARA框架：ATARA自动化采集任务无关动作数据，AnyPos模型集成手臂解耦估计与方向感知解码器，在真实任务中实现92.59%成功率，比基线提升44%。

项目地址：

https://embodiedfoundation.github.io/vidar_anypos

视觉-语言-动作（VLA）模型在双手作等复杂环境中显示出任务条件控制的前景。然而，对特定任务的人工演示的严重依赖限制了它们的泛化并产生了高昂的数据采集成本。

我们提出了一种与任务无关的行动范式的新概念，它将行动执行与特定于任务的条件解耦，以有效克服这些限制。

为了解决这种范式带来的数据收集挑战，我们引入了 ATARA（自动任务无关随机作），这是一种新颖的数据收集框架，可以自动生成与任务无关的大规模作，以有效地进行双手作。

通过使用视觉生成模型进行未来观测预测，使用下游逆动力学模型（IDM）进行动作回归，我们可以实现卓越的泛化能力和卓越的数据效率。

Vidar（Video Diffusion for Action Reasoning）是一个两阶段框架，利用基于扩散的大规模视频预训练模型和新型掩模逆动力学模型（MIDM）进行动作预测，只需 20 分钟的人类演示（RDT 演示的 1/81，π0.5 演示的 1/1200），就可以推广到一个看不见的机器人平台。

AnyPos 是另一个反动力学模型，配备了 Arm 解耦估计和方向感知解码器（DAD），能够从 ATARA 生成的与任务无关的数据中学习。因此，ATARA 和 AnyPos 构成了一个完全与任务无关的框架，用于在没有目标监督的情况下训练 IDM。

实验表明，我们的 Vidar 框架可以推广到看不见的任务和背景，具有很强的语义理解能力，比 VPP 和 UniPi 等最先进的方法高出 40% 以上。

我们还集成了一个视频条件作验证模块，以验证学习到的策略在不同作任务中的可行性，并且我们证明，使用基于回放的视频验证，AnyPos-ATARA 管道使测试准确性提高了 51%，并在下游任务（例如提升、拾取和放置和点击）中实现了 30-40% 的成功率。

Vidar：用于动作推理的视频传播

图：Vidar概况

Vidar 包括一个用于视频预测的视频扩散基础模型和一个用于动作回归的掩码逆动力学模型（MIDM）。视频扩散模型在测试过程中应用了测试时间缩放（TTS）的 750K 多视图双手视频进行训练，只需 20 分钟的演示即可适应新的机器人平台，并具有很强的语义理解。

图：Vidar的方法

图：Vidar的例子

关键技术

（1）视频生成模型：在统一观察空间上通过互联网视频预训练、埋伏预训练和微调进行整流模型。

（2）掩蔽逆动力学模型（MIDM）：由于高维观察中存在背景噪声、纹理偏差和视觉干扰，逆动力学模型通常存在泛化性差的问题，而 MIDM 可以通过隐式掩码预测关注输入帧的任务相关区域。

（3）测试时间缩放（TTS）：我们使用不同的随机种子生成 K 个候选视频轨迹。然后使用预训练的评估器（例如 CLIP 或视觉语言模型）对这些轨迹进行排名，并选择得分最高的轨迹。

Anypos：用于双手动作的与任务无关的自动化作

图：AnyPos 概述

AnyPos 是一种特定于机器人的图像到动作模型，完全根据 ATARA 采样的与任务无关的轨迹进行训练。它集成了两种关键技术来增强性能：Arm 解耦估计和方向感知解码器（DAD）。ATARA 和 AnyPos 共同构成了一个完全与任务无关的框架，用于在没有目标监督的情况下训练 IDM。通过将可扩展的无监督数据收集与物理知情的学习架构相结合，我们的方法表明，与任务无关的动作数据可以作为可推广作的实用且强大的基础。

AnyPos 方法在测试集上实现了 57.13% 的动作预测准确率，其中包括看不见的技能和对象，比之前的方法（unipi、unisim、robodreamer 和 susie 中使用的朴素 ResNet+MLP）高出 51%。

在真实世界的机器人回放测试中，AnyPos-ATARA 表现出 92.59% 的任务成功率（如下图所示），比人类收集的数据集提高了 33%，比之前的方法提高了 44%（如“AnyPos 概述”图所示）。

图：AnyPos-ATARA 通过视频回放完成各种作任务的结果。

与任务无关的动作

标准 VLA 模型学习时态扩展策略 pθ⁢(𝒂T+1:T+t|𝒙T−H+1:T,𝐥)，其中 θ表示 VLA 策略的参数，T是当前时间步长，H表示历史窗口大小，将观测历史和语言命令映射到作序列。给定一个专家数据集 Dexpert，VLA 的训练目标是最大化可能性：

图：VLA 的目标

在这里，所有动作都依赖于任务，即特定于任务的动作。任务语言指令和动作空间的庞大性对视觉-语言-动作（VLA）模型中的动作数据产生了巨大的需求。

在机器人动作位置控制的场景下，上述表述可以分解为“未来视频预测问题”和“动作执行问题”。这使得行动模态与具身基础模型解耦成为可能，将对高泛化性的要求转移到数据丰富的视觉语言模态上。通过我们的推导，我们提出了与任务无关的动作的概念，它显着简化了动作模态的学习：

图：分解特定于任务的作

与任务无关的行动范式的好处

（1）数据效率和可重复使用的运动技能：与任务无关的训练避免了昂贵的特定任务演示，从而实现了大规模的无监督数据收集。逆动力学模型（IDM）先于 p⁢(𝒂i∣𝒙i)学习通用动作，充当不同任务的共享运动技能库。

（2）零样本任务泛化：IDM 对独立于任务的动作先验进行建模，允许通过仅调整视频生成模型（例如，通过语言提示）来推广到新任务，而无需 IDM 重新训练。

（3）解耦规划和低级控制：高级规划（例如，“打开抽屉”）由视频生成模型处理，而 IDM 则执行视觉轨迹。这种模块化方法通过将纵视为视觉空间预测问题来简化策略设计。

关键技术

图：AnyPos 的方法。我们使用 ATARA 获得一个与任务无关的训练数据集，涵盖双机械臂的整个立方工作空间。

（1）ATARA：如“AnyPos 的方法”图所示，朴素关节空间采样通常会导致可到达状态的覆盖效率低下、冗余或退化运动（例如，手臂离开视野）以及频繁的自碰撞。为了解决这些限制，我们提出了 ATARA，这是一种强化学习框架，它构建了从末端执行器空间到关节空间的覆盖感知映射。因此，它能够高效地生成与任务无关的数据，保留固有编码的机器人实施方式信息和广泛的行为覆盖范围，作为下游策略学习的可重用先验。

（2）手臂解耦估计：我们观察到，在估计左臂关节时，模型通常会关注右臂的视觉特征，反之亦然。为了缓解这种情况，我们隔离了每个臂的输入特征。我们 1）在观测 x 中拆分左右臂，然后 2）使用两个子网络独立估计每只手臂的关节位置。夹持器位姿由专门的网络估计。这种解耦减少了视觉假设空间，提高了估计精度，并实现了每组的专业化。

（3）方向感知解码器（DAD）：对于动作估计网络，我们选择带寄存器的 DINOv2（DINOv2-Reg）作为视觉编码器，并使用三个核心组件来满足动作预测的高精度要求：1）多尺度扩张卷积； 2）可变形卷积；3）角度敏感池化。