VLA前沿论文分享｜天大＆清华最新成果！GeoVLA——具备3D几何空间感知的VLA模型

一、前言：2D VLA 的限制与 3D VLA 的潜力

论文链接：https://arxiv.org/pdf/2508.09071
项目链接：https://linsun449.github.io/GeoVLA/

近年来，VLA模型逐渐成为机器人领域的研究热点。其目标是让机器人能够“看懂”视觉信息、“理解”自然语言指令，并进一步“执行”相应动作。这类方法的典型代表包括 RT-2、OpenVLA、pi0、CogACT 等，它们通常建立在VLM基础上，通过额外的动作生成头(action head)实现从指令到动作的映射。然而，现有主流 VLA 高度依赖 2D RGB 输入，而忽略了物理世界中丰富的 3D 几何先验。这种限制带来了几个核心问题：

深度模糊：仅依赖 2D 图像时，机器人难以准确判断目标与自身的相对空间位置。
尺度不变性差：同样的指令，在不同大小物体前可能执行失败。
视角敏感：当相机位置变化时，2D-only VLA 很容易丧失泛化能力。

已有一些工作尝试在 VLM 端注入 3D 表征，例如 SpatialVLA（引入空间位置编码）、LLaVA-3D（为大模型加入 3D 感知通道）。但这些方法往往破坏了视觉编码器与语言模型的对齐，导致需要庞大的 3D instruction-tuning 数据集来恢复性能，代价高昂。另一些方法选择在动作专家 (action expert) 部分引入 3D 信息，例如 PointVLA 利用 ControlNet 风格模块将点云特征注入，但由于冻结了动作专家，导致模型难以充分适应新的 3D 模态。

而GeoVLA 的提出，正是为了解决这个矛盾——如何在保持 VLM 知识对齐的同时，有效地将 3D 信息融入动作生成过程？

接下来，本文将带你精读GeoVLA文献，解析工作原理与技术细节！

二、GeoVLA方法设计与模型架构

GeoVLA 提出了一个双路径 + 融合的优雅框架：

双路径：视觉-语言模态 (VLM) 与 3D 点云模态 (PEN) 各自独立编码。
融合：通过 3D-enhanced Action Expert (3DAE) 将两类特征结合，生成连续动作序列。

GeoVLA 的总体思路可以用一句话概括：

“2D 看懂世界，3D 感知空间，两者在动作专家 (Action Expert) 中融合，最终输出空间感知的连续动作。”

１.双路径总体架构

输入包括：视觉观测 V（RGB 图像）、指令 L（语言指令）、深度图D（由 RGB-D 相机获取）。

视觉-语言路径 (VLM)：采用预训练的 VLM (Prismatic-7B)，对(V·L)编码，得到`FVL 。这部分保留了大模型在语义理解上的强大能力。
几何路径 (PEN)：由深度图 D 投影得到点云 P，再通过 Point Embedding Network (PEN) 编码为`FP，提供局部且结构化的 3D 特征
3DAE 融合分支：将与拼接输入到 3D-enhanced Action Expert (3DAE)。3DAE 基于扩散模型 (Diffusion Transformer)，逐步生成动作序列：

其中，每个动作由平移、旋转和夹爪控制构成：

这里

表示相对位移，$(\Delta \alpha, \Delta \beta, \Delta \gamma)$ 表示旋转角度，g表示夹爪开合。

２. Point Embedding Network (PEN)

PEN 的关键作用是：从噪声较大的点云中提取紧凑且与操作相关的几何特征。同样采用双路径架构：

a.几何特征路径：

使用大卷积核 CNN + pooling 将点云编码为 patch-level 几何 token。
Transformer 进一步建模全局上下文信息。
b.位置编码路径：
将点云下采样，使其与对齐。
使用 RoPE (Rotary Positional Embedding) 引入 3D 空间位置信息。
Anchor Token 机制：
选取点云坐标原点（即末端执行器位置）对应的 token 作为。
最终仅保留更新后的 anchor token，作为几何特征。

这种设计有两个好处：

i. 任务相关性：关注与末端执行器直接相关的空间关系，避免无关冗余点的干扰。

ii. 空间建模：捕捉物体与末端之间的关键几何关系，提升接触预测与操作精度。

类比理解：如果点云是一张“3D 地图”，那么 anchor token 就是以“机器人的手”为中心的局部坐标。这样机器人在做决策时，始终优先考虑“我手在这里、物体在这里”的关系，而不是被无关的背景点干扰。

３. 3D-enhanced Action Expert (3DAE)：模态融合与扩散动作生成

为保证动作轨迹的连续性与物理可行性，GeoVLA 的动作生成采用 Diffusion Transformer (DiT)：

训练时：将真实动作序列逐步加入噪声，模型学习如何去噪恢复。
推理时：从随机噪声动作出发，逐步去噪生成最终动作。

关键创新在于模态融合方式：在 DiT 的前馈层中，引入 Mixture-of-Experts (MoE) 架构。每个 expert 只处理一种模态（视觉-语言 / 几何）。采用静态路由：根据输入模态固定专家分配，而非动态权重。

为什么要用静态路由？因为如果用动态路由，模型往往偏向强大的 VLM 分支，点云信息被“忽视”。静态路由 + 随机模态丢弃，使模型在训练中被迫均衡利用两类信息。

公式化表示：假设 `FVL 和 `FP 分别为两种模态特征，则 3DAE 的生成过程为：

其中 E 表示逐步去噪过程中的高斯噪声。MoE 确保与 `FP 在 Transformer 层中得到等价建模，而不会一方“压制”另一方。

方法设计小结

GeoVLA 的设计思路可以总结为三点：

1.双路径输入：不破坏 VLM，对 3D 点云独立建模；

2.PEN：以末端执行器为 anchor，提炼与操作高度相关的几何特征；

3.3DAE：基于扩散的 MoE 动作专家，保证模态融合的平衡性与鲁棒性。

相较于之前的方法（直接往 VLM 加 3D embedding / ControlNet 注入点云），GeoVLA 的优势在于：

VLM 语义对齐，不需要大规模 3D instruction-tuning；
端到端融合 3D 表征，不冻结 action head，能充分适配几何信息。

三、实验部分

为了验证 GeoVLA 的有效性，作者从sim和real两个层面进行了评估。这样可以回答两个核心问题：

1.在受控环境中，GeoVLA 是否能超过benchmark？

2.在真实场景中，GeoVLA 是否具有良好的robustness和generalization ?

1. 仿真实验

实验环境主要包括：

LIBERO 基准：涵盖长时序任务、语义指令多样性，适合考察语言-动作对齐。
ManiSkill2：包含复杂物体操作与 3D 几何挑战，适合评估空间推理能力。

对比基线：

OpenVLA（纯 2D VLA）
CogACT（引入 Action Transformer）
π0（系统化 VLA 框架）
PointVLA（3DVLA，在 ControlNet 端引入点云）

结果：在长时序任务（如堆叠方块、开关门）中，GeoVLA 成功率显著高于 2D-only 模型。在几何复杂任务（如插入、遮盖）中，GeoVLA 明显优于 PointVLA。证明了 PEN + 3DAE 的端到端设计比单纯注入点云更高效。

2. 消融实验

为了验证设计的必要性，作者进行了系统的 ablation study。

2.1 点云编码对比：

用 MLP 或 PointNet 替代 PEN，性能明显下降。这说明：PEN 在几何建模和 anchor token 选择上更优。

2.2 Anchor Token 策略：

选择 end-effector 作为 anchor token 表现最佳。如果换成随机点或物体中心，成功率下降。这说明：操作确实依赖“手-物体”相对关系，而不是全局无差别建模。

2.3 RoPE 引入：

不加 RoPE 的 PEN，空间结构捕捉能力减弱，操作精度下降。这说明：RoPE 提供了旋转不变性，使模型在视角变化下更稳健。

2.4 MoE 路由机制：

静态路由优于动态路由。动态路由倾向依赖 VLM 分支，导致点云特征贡献下降。静态路由 + 模态 dropout 保证了模态平衡。

结论：每个设计（PEN、Anchor、RoPE、MoE 静态路由）都发挥了独立作用，缺一不可。

3. 真机实验

实验平台：搭载 Intel RealSense D435i RGB-D 相机的WidowX-250s 六自由度机械臂，测试任务包含基础操作与3D挑战任务（高度变化、尺度变化、相机视角偏移）

任务示例：

Pick and Place：抓取并放置方块。
Stack Blocks：在已有方块上叠放另一个。
Put Basketball：将小篮球放进篮筐。
Cover Matryoshka：将套娃盖到另一物体上。

结论：在常规任务中，GeoVLA 与基线差距不大；但在涉及高度变化、尺度变化、相机视角偏移的任务中，GeoVLA 成功率显著高于基线。例如：在 “Put Basketball” 任务中，GeoVLA 即使篮筐比训练时高 5cm，仍能完成；在 “Cover Matryoshka” 中，GeoVLA 能适应不同大小的套娃，而 OpenVLA 常常夹空或偏移。

类比理解：基线方法像是“死记硬背动作剧本”，一旦场景变化就手忙脚乱；GeoVLA 更像是“真正理解了空间关系”，即使场景更换也能举一反三。

四、结论分析与个人理解（并非准确）

GeoVLA 在论文中提出并系统验证了 “在保留 VLM 语义对齐的前提下，把 3D 几何信息端到端地注入动作生成”的路径。作者通过两条并行通道（VLM 与 PEN）以及一个以DiF为核心并内嵌 MoE 的3D增强动作专家（3DAE），展示了将点云信息用于真实操纵任务时既能保持预训练知识又能显著增强空间感知的可行性与效用。

论文的实验结果（sim & real），证明了：在多项基准和变体条件下，GeoVLA 在高度、尺度与视角变化下均表现出比 2D-only 或简单注入式方法更高的成功率与更稳定的泛化能力。正是这种“在动作生成端做有意识的模态平衡，而不是强行改写 VLM 表征”的设计思路，使得 GeoVLA 在复杂操作场景下获得了可观的经验增益。

从技术角度看，GeoVLA 的设计既直接解决了工程问题，也有明确的理论价值。PEN 通过以末端执行器为锚点（anchor token）来聚焦点云信息，这等于把注意力机制约束到与操作最相关的局部几何，从而显著降低背景噪声和数据冗余对决策的影响；同时，采用 RoPE 这种旋转/位置信息的编码方式，有助于在不同视角或相机摆放变化下保持几何关系的可迁移性。action head采用DiT的连续动作生成范式，则天然匹配机械臂动作的轨迹连续性与物理可行性；在这个基础上引入 MoE 并使用静态路由（配合模态丢弃训练）是一种务实的折中，既避免了强制学习复杂的模态对齐策略导致对 VLM 的过度依赖，又保证了点云和视觉信息在决策过程中能发挥各自专长，从而实现更可靠的模态协同。

当然，GeoVLA 也并非完美，其设计与实验揭示了一些需被重视的局限与未来改进方向：

首先，方法依赖高质量的深度/点云观测——在深度缺失、严重遮挡或低信噪比的场景下，PEN 的输入质量会直接限制下游动作的可靠性。其次，论文当前实现中 PEN 与 3DAE 多为从头训练，而 VLM 采用预训练权重，这带来了较高的训练成本与对大规模算力的需求，并且在数据稀缺时点云分支的学习效率仍有提升空间。此外，真实实验主要在特定的第三人称 RealSense + WidowX 平台上进行，如何把该方法稳健地迁移到腕视、双臂或更复杂动力学平台、以及在更开放的家庭场景中部署，仍需额外工作来验证和改进（比如更强的传感器融合、鲁棒策略与online-自适应机制）。

论文报告的具体数值也揭示了这一点：在仿真基准上 GeoVLA 达到了很高的平均成功率（如 LIBERO 平均 97.7%），在真实任务集上的平均成功率约为 86.3%，表明方法已显著提高现实可用性，但仍有边界情形需要进一步攻克。

由此，可以延申出一些富有潜力的后续研究方向：第一是通过自监督或跨模态预训练来提升 PEN 的初始表示能力，使点云分支不再完全依赖从零训练；第二是探索更柔性的路由与正则化（例如受约束的动态路由或模态显著性损失），使模型在保持模态平衡的同时能在复杂输入下自动调整专家权重；第三是将时间序列的几何记忆（短期轨迹历史或多视角融合）纳入 PEN/3DAE，以增强对动态目标与瞬时遮挡的鲁棒性；第四是引入不确定性估计与安全约束，使输出动作在失败概率上可以被上层规划器或安全控制策略显式管理。

总的来说，GeoVLA 为 VLA 领域提供了一条新的研究思路：在不破坏既有 VLM 语义能力的前提下，通过端到端可训练的几何分支，在动作生成端做结构化融合，能够在“需要精确空间感知”的机器人操控任务上取得量化且可解释的进步。对于研究者，GeoVLA 同时提出了有价值的开放问题——如何在更少监督、更低算力、更多样化的场景下，保留或放大当前方法带来的空间理解收益。