一、研究背景与核心动机
视觉-语言-动作(VLA)模型是具身智能领域的关键技术,能够让机器人直接从视觉观测和自然语言指令中生成控制动作。现有VLA模型大多依赖CLIP、SigLIP等2D视觉编码器,这类编码器擅长捕捉图像与文本的语义对应关系,却无法编码3D空间信息(如深度、物体位姿、空间关系)。
这种缺陷会导致模型在操作任务中出现错误的注意力分配,如figure1所示:在“将桌布从桌角移到桌边”和“拾取盘子与ramekin之间的黑碗并放到盘子上”任务中,传统VLA模型会错误关注无关区域,无法精准定位任务相关物体,进而影响操作任务的完成精度。

为解决这一问题,研究团队提出GLaD框架,核心思路是通过知识蒸馏将3D几何先验注入VLA模型,使其同时具备语义理解和空间推理能力,且无需依赖额外的深度传感器或3D标注。
-
论文标题:GLaD: Geometric Latent Distillation for Vision-Language-Action Models -
论文链接:https://arxiv.org/abs/2512.09619
二、GLaD核心方法
GLaD的整体架构可分为几何蒸馏模块和分阶段训练策略两部分,其模型结构如figure2所示。

几何蒸馏模块
该模块是GLaD的核心创新点,通过将LLM中视觉token对应的隐藏状态与几何感知教师模型的特征对齐,实现几何知识的深度融合,包含三个子组件:
-
VGGT特征提取器:采用冻结的VGGT作为教师网络,该模型可从视觉观测中直接推断深度图、点云、相机参数等3D几何属性。对于输入的历史帧序列,VGGT会生成时空表征(),为简化计算仅保留单帧,通过自适应池化匹配视觉patch维度后得到单帧几何表征。 -
特征对齐网络:通过两层MLP将LLM中视觉token对应的最终层隐藏状态投影到VGGT的特征空间,实现几何特征与多模态表征的对齐,公式为:
其中为LLM视觉token的隐藏状态,该设计确保几何知识融入驱动动作预测的多模态表征,而非停留在视觉处理链路。
-
训练目标:预训练阶段采用组合损失函数,同时优化动作预测和几何对齐,公式为:
其中为用于隐式动作预测的交叉熵损失:
为用于几何对齐的MSE损失:
超参数用于平衡两个损失的权重,且VGGT全程保持冻结。
分阶段训练策略
GLaD的训练分为两个阶段,兼顾通用能力和下游任务适配:
-
阶段1:几何蒸馏预训练:基于Bridge数据集训练,初始化时复用UniVLA的权重并引入可学习的对齐网络,采用AdamW优化器,学习率5e-7,在8×A100 GPU上训练45个epoch(约9天),模型在学习通用视觉-运动技能的同时,完成几何特征与多模态表征的对齐。 -
阶段2:下游任务微调:针对LIBERO等下游任务,采用LoRA对VLA主干进行参数高效微调,同时全量训练动作解码器和特征对齐模块,VGGT保持冻结以保留几何先验,在8×A100 GPU上训练60k步,学习率3.5e-5。
三、实验设计与结果分析
实验数据集与基准
-
预训练数据集:选用Bridge数据集,其提供的多样化操作演示可让模型习得基础视觉-运动技能,且相比OXE等大数据集更具计算效率。 -
评估基准 -
LIBERO基准:包含130个语言条件化操作任务,分为4个套件:SPATIAL(测试空间知识迁移)、OBJECT(评估物体级知识迁移)、GOAL(验证过程知识迁移)、LONG(检验长程多步任务能力),每个任务配备50条人类遥操作演示,评估时每个任务运行50个episode。 -
LIBERO-PRO基准:为区分模型是“记忆任务”还是“理解任务”,引入四类扰动:物体扰动(修改颜色/纹理/尺寸)、位置扰动(改变物体初始布局)、语义扰动(重写指令表述)、任务扰动(重组已知元素形成新任务)。
核心实验结果
-
LIBERO基准性能:如tableI所示,仅在Bridge数据集预训练的GLaD,在四个套件上平均成功率达94.1%,超过使用相同预训练数据的UniVLA(92.5%),且大幅领先OpenVLA(76.5%)、Octo(75.1%)等基线模型。其中GLaD在OBJECT套件上表现最优,成功率97.4%,验证了几何预训练对物体级视觉特征和操作可用性的捕捉能力。

-
LIBERO-PRO鲁棒性表现:如figure3和tableII所示,GLaD在物体扰动场景下优势显著:在GOAL套件中成功率81%(UniVLA为62%),LONG套件中达54%(UniVLA为47%),特定任务如“Put(bowl, plate)”的成功率差距达60个百分点(GLaD 84% vs UniVLA 24%)。两类模型在语义扰动下均保持93%-98%的高成功率,证明LLM主干的语言泛化能力;但在位置和任务扰动下表现均较差,暴露了当前VLA模型在空间布局泛化和组合推理上的共性局限。


消融实验验证
tableIII的消融实验验证了GLaD关键设计的有效性:

-
几何编码器选择:VGGT相比PI3编码器,在SPATIAL套件上成功率提升29.8个百分点(95.0% vs 65.2%),证明VGGT的几何表征更适配空间推理任务;虽二者在OBJECT套件表现接近,但VGGT的整体平均成功率(94.1%)远超PI3(86.1%)。 -
特征对齐层:对齐LLM最终层(32层)的方案,相比对齐24层的方案,在OBJECT套件上成功率提升6.8个百分点(97.4% vs 90.6%),说明晚期对齐可避免几何信号在网络传播中被稀释,更利于多模态融合。 -
几何融合策略:LLM表征空间的晚期融合,相比视觉特征空间的早期加权融合,平均成功率提升10.1个百分点(94.1% vs 84.0%),且在OBJECT和LONG套件优势明显,证明晚期融合可让模型自适应整合几何与语义线索。
figure4的注意力图分析从定性层面佐证了上述结论:GLaD可精准聚焦任务目标(如香蕉、目标盘子),而GLaD-PI3注意力分散、GLaD-L24注意力扩散、GLaD-Weighted过度关注机械臂,均会导致任务表现下降。

四、关键讨论与结论
几何理解的核心价值
从figure4的注意力图可见,GLaD能形成更精准的任务相关物体注意力分布。传统2D视觉编码器训练的VLA仅能学习语义对应,而GLaD通过几何对齐,同时掌握“物体是什么”和“物体在何处”,这也是其在OBJECT套件取得97.4%高成功率的核心原因。
设计选择与鲁棒性关联
消融实验证实,LLM最终层的晚期对齐方案(94.1%)显著优于早期融合(84.0%),可实现任务自适应的几何-语义整合。LIBERO-PRO的结果则体现出不对称鲁棒性:GLaD对物体外观扰动抗性强,但对位置扰动提升有限,这验证了几何特征能让模型锚定空间结构而非表面视觉特征。
局限与未来方向
研究曾尝试显式几何监督(预测深度图)和隐式对比学习,但前者导致训练发散,后者未超越基线,证明LLM隐藏状态的几何对齐是更优方案。目前模型在空间布局泛化上仍有不足,未来可探索更精准的空间关系建模方案。
整体结论
现有VLA模型因依赖2D视觉编码器而缺乏几何理解,GLaD通过从冻结VGGT蒸馏几何知识、对齐LLM视觉token隐藏状态的方式,实现了几何先验与多模态表征的深度融合。该框架在LIBERO基准上取得94.1%的平均成功率,在LIBERO-PRO的物体扰动场景中表现出显著鲁棒性,且无需额外3D标注或传感器,为高性能VLA模型的构建提供了新范式。