天大&清华最新！GeoVLA：增强VLA模型的3D特征提取能力，鲁棒提升明显（SOTA）

点击下方卡片，关注“具身智能之心”公众号

作者丨Lin Sun等
编辑丨具身智能之心
本文只做学术分享，如有侵权，联系删文

更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球(戳我)，这里包含所有你想要的。

出发点&写在前面

VLA模型已成为一种很有前景的方法，能使机器人遵循语言指令并预测相应动作。然而，当前的VLA模型主要依赖2D视觉输入，忽略了3D物理世界中丰富的几何信息，这限制了它们的空间感知能力和适应性。这里提出了GeoVLA，一种新颖的VLA框架，它有效地整合3D信息以推进机器人操作。该框架使用视觉-语言模型（VLM）处理图像和语言指令，提取融合的视觉-语言embedding。同时，它将深度图转换为点云，并采用一种定制的点编码器（称为点embedding网络）独立生成3D几何embedding。然后，这些生成的embedding被拼接起来，由空间感知动作专家（称为3D增强动作专家）处理，该专家结合来自不同传感器模态的信息以生成精确的动作序列。

通过在模拟和真实世界环境中的大量实验，GeoVLA展示了卓越的性能和鲁棒性。它在LIBERO和ManiSkill2模拟基准测试中取得了SOTA结果，并在需要高度适应性、尺度感知和视角不变性的真实世界任务中表现出显著的鲁棒性。

项目链接：https://linsun449.github.io/GeoVLA

领域背景介绍

推进机器人操作需要在现实世界中同时进行智能交互和精确的物理运动控制。最近，能够遵循指令并执行机器人动作的视觉-语言-动作（VLA）模型引起了广泛关注。为了利用通用知识，大多数VLA模型建立在视觉-语言模型（VLM）的基础上，并通过专门的动作生成设计进行开发。早期方法如RT-2和OpenVLA将动作空间量化为离散的区间，并采用自回归tokens生成。虽然与标准VLM架构兼容，但这种粗略的表征难以应对复杂、细粒度的操作任务。为了解决这个问题，一些方法引入了专门的动作专家，这些专家处理来自VLM的特征，并通过扩散过程或流匹配输出动作块，以直接参数化连续的动作空间。

尽管取得了这些进展，当前的VLA模型主要依赖2D视觉输入，忽视了3D物理世界中固有的丰富几何先验。相比之下，3D几何信息本身提供了准确的深度线索、增强的空间理解以及对视角变化的鲁棒性。基于3D感知的最新进展，诸如LLaVA3D和SpatialVLA等新兴方法将3D位置编码整合到VLM中，以实现具有几何感知的表征。然而，这种整合破坏了视觉编码器和大型语言模型（LLM）之间的对齐。因此，弥合这种错位通常需要大规模的3D具身指令微调数据集。作为这种数据密集型方法的替代方案，另一类工作侧重于将3D信息直接注入动作专家。例如，PointVLA采用两阶段训练方案：首先训练2D-VLA模型，然后冻结动作专家，并通过零初始化的ControlNet风格模块注入点云特征。然而，尽管冻结动作专家保留了其低级能力，但它阻碍了对新引入的点云模态的适应。因此，以端到端的方式将3D信息整合到VLA框架中仍然是一个关键挑战。

贡献如下：

提出了GeoVLA，一种新颖的视觉-语言-动作（VLA）框架，它整合了视觉和点云模态。与仅关注2D特征的先前工作不同，GeoVLA通过并行分支明确处理多模态输入。这种设计使模型具有更强的空间理解和几何感知能力，同时保持在高度适应性、尺度感知和视角不变性方面的泛化能力。
引入了point embedding网络（PEN）和3D增强动作专家（3DAE）。PEN提取具有判别性的几何感知特征，而3DAE模块利用特定于模态的专家有效地整合视觉和几何线索。
提出的GeoVLA在LIBERO和ManiSkill2基准测试中取得了最先进的性能。它在整合3D感知方面展示了显著优势，在真实世界机器人任务中表现出鲁棒性。

GeoVLA方法

1）问题定义

在视觉-语言-动作模型的一般公式中，输入包括两种模态：视觉观察和自然语言指令。输出是一系列动作。视觉观察V通常是从固定或以ego为中心的相机捕获的RGB图像，而语言指令L描述要执行的任务。给定V和L，由预训练VLA模型表示的策略p生成动作序列，其中T是定义动作块大小的超参数。形式上：

(1)

序列中的每个动作（其中1≤t≤T）表示机器人从当前状态的相对运动，通常参数化为：

这里，表示相对平移，表示相对旋转（例如，以欧拉角表示），g是绝对 gripper 命令。

为了增强VLA模型的空间感知能力，引入了额外的点云P，通常从RGB-D相机获得。然后，策略根据视觉输入V、点云P和语言指令L生成动作序列：

(3)

2）概述

如图2所示，GeoVLA是一个端到端的VLA框架，同时处理视觉和几何信息。该 pipeline 包括三个关键组件：用于视觉和语言模态一般理解的VLM、用于提取细粒度3D几何特征的点embedding网络（PEN），以及用于生成动作块序列的3D增强动作专家（3DAE）。

给定图像V和语言指令L，GeoVLA利用预训练的2D VLM（例如Primatic）提取当前环境的一般理解。同时，深度图D使用相机参数投影到3D点云P中。点云由PEN处理，PEN旨在提取以末端执行器为中心的3D特征，捕获关键的结构和空间线索。提取的特征和随后被拼接，并作为3DAE的条件输入。基于去噪扩散原理，3DAE从有噪声的动作序列开始，并在多模态上下文的指导下逐步细化噪声。混合专家架构支持对异质特征和的专门处理。每个专家学习捕获互补的方面，从而增强生成上下文感知和精确动作序列的能力。

3）点embedding网络

由于原始深度图中固有的噪声，提取紧凑且清晰的几何特征至关重要。这里提出了点embedding网络（PEN），一种新颖的几何点编码器，专为机器人操作设计，用于捕获以末端执行器为中心的细粒度3D结构线索。

如图3(a)所示，PEN首先将RGB-D相机（例如RealSense）捕获的原始深度图转换为在末端执行器坐标系中表示的点云P，其中机器人当前的末端执行器位置位于原点。编码器然后采用双路径架构：（1）几何特征路径。一个轻量级CNN配备多层大核卷积和局部池化，将点云编码为 patch 级几何tokens：，其中N是tokens数量，C是特征维度，随后由 transformer 块聚合有用的全局信息。（2）位置编码路径。原始点云被下采样以匹配的大小，并通过旋转位置编码（RoPE）引导位置信息。

随后，PEN选择对应于坐标原点的tokens（例如，末端执行器tokens）作为锚tokens （图3(a)中蓝色部分），并将几何tokens 输入到 transformer 块中，其中tokens在手动生成的RoPE的指导下进行交互。最后，仅从最后一个 transformer 层中选择更新后的锚tokens作为编码特征，以指导动作专家，如图3(b)所示。

这种空间锚设计有两个关键好处：（1）聚焦表征学习。注意力机制集中在与操作相关的区域，提高特征提取效率。（2）明确的空间关系建模。捕获末端执行器与周围物体之间的关键几何关系，实现精确的接触预测。通过向下游动作策略提供局部但具有上下文感知的3D结构特征，PEN促进了具有改进物理一致性的空间接地决策制定。

4）3D增强动作专家

如图2所示，3D增强动作专家（3DAE）采用扩散 transformer（DiTs）架构，旨在处理拼接的多模态token 和）并生成动作序列。在训练期间，从记录的观察中采样的未来动作序列通过扩散过程逐渐被扰动以生成有噪声的序列。有噪声的动作作为动作tokens，并与多模态tokens拼接。组合的tokens被输入到扩散 transformer 中进行交互，最终预测添加的噪声。在推理期间，首先使用DDIM采样噪声分布，然后在多模态tokens的条件下，逐步恢复所需的动作序列。

然而，有效整合来自不同模态的特征是一个重大挑战。为了利用视觉-语言特征和几何特征的互补优势，我们在扩散 transformer 动作头3DAE的前馈网络（FFN）中引入了一种新颖的混合专家（MoE）架构。这种设计支持对每种模态的专门处理，使模型能够更有效地利用多模态条件信息。

由于VLM分支是预训练的，而点云分支是从头开始初始化的，实验结果表明，直接应用动态路由机制本质上会使模型偏向VLM分支。为了减轻这种不平衡，我们引入了静态路由策略。训练期间，在每次迭代中随机丢弃一种模态，导致三种不同的输入配置：（1）仅视觉-语言特征；（2）语言和几何特征，其中RGB图像tokens在输入到VLM之前被移除；（3）完整的多模态输入。在3DAE中，每个专家的激活由输入模态的存在和相关性确定性地控制。这种在MoE架构中的静态、目标驱动的路由策略确保了每种模态的独特优势得到有效利用。同时，它保持了DiT强大的生成能力，实现了用于机器人控制的鲁棒且全面的动作块生成。

仿真实验一览

在两个广泛使用的机器人操作基准测试LIBERO和ManiSkill2上对GeoVLA进行了全面评估，以评估提出的方法在不同任务中的有效性和可扩展性。

LIBERO由五个任务套件组成，跨越四个独特场景。每个套件旨在评估特定能力：

LIBERO-Spatial专注于将相同物体放置在不同位置。
LIBERO-Object涉及将不同物体放入固定场景布局中的盒子里。
LIBERO-Goal评估在固定布局中执行各种操作的能力。
LIBERO-Long，也称为LIBERO-10，针对10个涉及不同场景和操作的长视野任务。
LIBERO-90是LIBERO-10的扩展版本，呈现了更具挑战性的基准。

ManiSkill2更侧重于基本的拾取和放置能力。遵循Dita，在五个代表性任务上评估我们的方法：PickCube、StackCube、PickSingleYCB、PickSingleEGAD和PickClutterYCB。除了StackCube之外，每个任务都要求机器人抓取指定物体并将其放置在绿色标记指示的指定3D位置，这使它们非常适合评估3D感知和空间推理。此外，PickSingleYCB和PickSingleEGAD通过改变物体引入了更大的挑战，总共有大约1700个不同的物体。PickClutterYCB更具挑战性，要求机器人从包含多达74种不同类型YCB物体的杂乱场景中识别并选择正确的物体。

1）实现细节

GeoVLA中的VLM组件是Prismatic-7B，使用OpenVLA发布的预训练权重初始化，该权重在大规模Open X-Embodiment数据集上训练。相比之下，我们提出的PEN和3DAE都是随机初始化的。所有实验都在8个NVIDIA A100 GPU上使用完全分片数据并行（FSDP）策略进行。每个GPU处理32的批处理大小，导致总批处理大小为256。使用AdamW优化器进行优化，学习率恒定为(2 ×10^{-5})。启用混合精度训练以提高效率并减少内存消耗。数据集通过TensorFlow Datasets（TFDS）加载，洗牌缓冲区大小为10,000。训练期间不应用数据增强。对于动作建模，我们采用固定长度T=16的分块策略。

对于LIBERO基准测试，GeoVLA仅处理单个主相机视图以及从相应深度图像导出的点云图，不包含任何额外输入（例如姿态状态或手腕视图图像）。相比之下，对于ManiSkill2，提供了额外信息，包括本体感受状态、 gripper 状态和目标标记位置，因为图像中存在一些遮挡。两个基准测试的训练运行约20,000步（约20小时），相当于LIBERO上的大约6个 epoch 和ManiSkill2上的2个 epoch。在推理期间，我们遵循标准评估协议：每个LIBERO任务在50个独立的 episode 上评估，而每个ManiSkill2任务在20个 episode 上评估。所有结果都以成功率（SR）报告。

2）主要结果

在LIBERO上，GeoVLA在所有任务中都表现最佳。特别是，在LIBERO-Long和LIBERO-90任务中，GeoVLA的成功率分别达到96.6%和97.7%，分别提高了5.9%和5.6%。总体而言，GeoVLA的平均成功率为97.7%，优于CogACT（93.2%）和OpenVLA-OFT（95.3%）。

在ManiSkill2上，GeoVLA实现了77%的最高总体成功率，明显超过CogACT（69%）和Dita（66%）。在PickCube等基本任务上，GeoVLA与表现最佳的方法CogACT相当。然而，在PickClutterYCB等更具挑战性的任务上，GeoVLA表现最佳，成功率为45%，而Dita为36%。其他方法难以提高其性能，因为物体的多样性显著增加了6D姿态估计的难度。这种挑战源于物体多样性导致的空间位置估计复杂性增加。相比之下，GeoVLA利用点云观察来保持精确的空间感知，从而在这些更困难的任务上取得了显著更高的成功率。

3）消融研究

为了评估提出的GeoVLA中关键组件的影响，在LIBERO基准测试上进行了全面的消融研究。

比较不同的点云编码器时，3层MLP和PointNet编码器的成功率分别为95.8%和95.2%，而PEN编码器以97.7%的成功率优于它们，表明其捕获几何结构的卓越能力。

三种anchor tokens选择策略中，末端执行器策略取得了最佳结果（97.7%），优于最大池化（96.3%）和平均池化（95.9%），表明末端执行器tokens携带更多与任务相关的信息特征。

在PEN编码器中旋转位置编码（RoPE）的作用方面，与原始的1D可学习位置embedding相比，结合RoPE持续提高了性能，将成功率从95.4%提高到97.7%，证实了其在增强空间编码方面的有效性。

在3DAE中MoE设计的有效性方面，我们基于MoE的设计实现了从96.0%到97.7%的性能提升。尽管动态路由是大多数MoE架构中的默认设置，但实验表明静态路由表现更好，可能是因为它在训练期间减少了对视觉-语言模态的偏向。

真实世界实验

这里通过涉及各种3D操作任务的真实世界机器人实验来验证GeoVLA。这些实验展示了GeoVLA的鲁棒性和泛化能力，特别是在相机视角、高度和物体大小的常见部署变化下。

环境设置

在真实世界实验中，使用具有六个自由度的WidowX-250s机械臂和放置在约0.8米远处的RealSense-435i深度相机来捕获第三人称视角。训练设置与模拟实验相似，由于数据集较小，训练 duration 缩短到约8小时。每个任务在推理期间通过10个独立试验进行评估。

任务定义

使用多种任务来评估GeoVLA，包括基本操作任务，如Pick Carrot（P-Carrot）、Stack Block（S-Block）、Stack Cup（S-Cup）和Insert Circle（I-Circle），以及3D感知任务，如Hang Cup（H-Cup）、Put Basketball（P-Basketball）、Cover Matryoshka（C-Matryoshka）和Put Hairclip（P-Hairclip），这些任务测试空间感知和精确操作。我们还引入了具有挑战性的任务变体，以评估推理期间的空间鲁棒性：（1）改变Put Basketball中的篮子高度以测试对目标位置变化的适应性。（2）改变Stack Block中的相机视角以评估视角不变性。（3）缩放Cover Matryoshka中的玩偶大小以评估相对大小感知。（4）移除Pick Carrot中的海绵垫以测试对胡萝卜放置高度变化的鲁棒性。

主要结果

GeoVLA在一组域内任务上进行了评估，包括基本操作和3D感知任务，训练和推理设置相同。这里还将我们的结果与几个最先进的基线进行了比较。大多数模型在简单的拾取和放置任务（如Pick Carrot）上表现良好，达到100%的成功率。然而，在需要精确3D空间理解的任务（如Put Basketball和Pick Hairclip）上，性能显著下降。在这些任务中，我们的方法始终优于其他方法，显示出更好的鲁棒性和空间感知能力。具体而言，我们的模型在基本任务上的平均成功率为95.0%，在3D感知任务上为77.5%，总体平均成功率为86.3%，分别比π₀和CogACT高出28.8%和10.0%。

变体结果

为了进一步评估GeoVLA的鲁棒性和泛化能力，我们引入了训练期间未见过的受控任务变体。

在Put Basketball变体任务中，训练数据仅包括位于第五层（Base）的篮子。在推理期间，测试模型在第三层（L2）、第四层（L1）和第六层（H1）的不同篮子高度下的表现。像CogACT这样的2D-VLA模型在篮子高度偏离训练条件时性能下降，而GeoVLA表现出更强的泛化能力，在所有变体中保持合理的性能。

在Cover Matryoshka变体任务中，模型使用中等大小的玩偶（Base）进行训练。在推理期间，通过将玩偶缩放到不同大小来评估模型。与其他2D-VLA模型相比，我们的GeoVLA在更大的尺寸上始终取得更高的成功率。

在Stack Block变体任务中，我们仅使用主相机以及其他带有侧相机的任务联合训练模型以增强泛化能力。在推理期间，所有模型在特定相机视角下进行评估。当相机转向45°时，GeoVLA保持高性能，而CogACT的性能显著下降。

在Pick Carrot变体任务中，训练期间存在的海绵垫在推理期间被移除，导致胡萝卜的放置位置更低。虽然大多数方法尝试从上方抓取胡萝卜导致失败，但提出的几何感知GeoVLA始终实现更稳定和成功的抓取，展示出对这种变化更强的泛化能力。

参考

[1] GeoVLA: Empowering 3D Representations in Vision-Language-Action Models.

资讯配图