研究背景与核心问题
Vision-Language-Action(VLA)模型在机器人操作、视觉导航等具身智能场景中表现出强大的多模态推理与动作预测能力,但庞大的架构、频繁的跨模态交互导致计算开销大、推理延迟高,难以部署在实时或资源受限的机器人系统中。
现有高效VLA策略(如token剪枝、早期退出、轻量化架构)多沿用视觉-语言模型(VLM)的优化思路,优先基于视觉-语言相关性压缩模型,却忽略了动作预测的核心目标,容易造成两大问题:一是关键信息损耗,感知和语义线索在压缩中被削弱,影响任务目标与环境上下文理解;二是动作语义不连贯,结构简化破坏了动作相关语义的连续性,降低了动作策略的稳定性。
为解决这些问题,需要一种以动作预测为导向的高效蒸馏框架,在降低计算成本的同时,保留VLA模型的动作预测精度与稳定性。
核心方法:ActDistill 框架
ActDistill 是一种通用的动作引导自衍生蒸馏框架,核心思路是将大型VLA模型(教师模型)的动作中心语义迁移到轻量化学生模型,通过动作先验引导知识蒸馏与模型压缩,实现效率与保真度的平衡。整体框架包含两大核心模块:

图结构封装(Graph-Structured Encapsulation)
该模块旨在显式建模动作语义的层级演化,分离任务相关交互与冗余背景信号,为蒸馏提供结构化监督。
-
动态关系图构建:将教师模型第l层的隐藏状态 中每个token特征视为节点,通过可学习的线性投影计算节点间亲和度,保留每个节点的个近邻构建稀疏图: 对亲和度矩阵归一化后,仅保留Top-K近邻的边: -
消息传递与语义胶囊生成:通过注意力机制聚合节点邻域信息,更新特征以捕捉几何依赖: 再通过注意力池化将更新后的节点特征聚合为结构化语义胶囊 ,编码动作预测所需的空间与语言关系: -
辅助训练目标:为每个语义胶囊添加动作预测损失,驱动深层网络编码更抽象且动作一致的语义:
动作引导自衍生蒸馏(Action-Guided Self-Derived Distillation)
该模块通过自衍生学生模型与动态路由,在效率约束下复现教师的决策过程。
-
轻量化学生模型:与教师模型结构对齐但深度缩减,集成动态路由器R,根据输入的视觉与语言嵌入自适应预测层门控分数,决定每层是否执行: 训练时采用软门控联合优化,推理时通过阈值τ离散化( 则执行该层),仅保留动作相关计算。 -
蒸馏损失函数:结合语义对齐与动作一致性目标,确保学生模型继承教师的结构化语义与控制精度:
-
语义损失:通过余弦相似度(实例级)和Frobenius范数(批次级)保留关系一致性; -
动作损失:采用三重MSE设计,促进从感知到控制的渐进优化; -
负载均衡损失:正则化激活层分布,避免过度跳过关键层: -
端到端训练与推理:教师模型冻结,学生、路由器及投影头联合优化;推理时移除所有图相关辅助组件,仅执行动态路由选择的层,实现高效动作预测。
实验验证
实验设置
-
基准模型:采用两种代表性VLA架构——自回归的OpenVLA和扩散基的CogACT; -
测试基准:LIBERO(含空间推理、目标条件控制等4类任务)和SIMPLER(含视觉匹配、变体聚合2类场景,共4项操作任务); -
对比方法:涵盖token缓存、层剪枝、动态路由等5种主流高效VLA策略。
核心结果
-
性能与效率平衡:
-
LIBERO基准(OpenVLA backbone):平均成功率73.95%,仅比全量模型低1.0%,但计算量减少50.5%,推理速度提升1.59倍,在长 horizon 任务上成功率甚至超越基线(table1);

-
SIMPLER基准(CogACT backbone):视觉匹配场景平均成功率74.08%(接近全量模型的74.75%),速度提升1.67倍,计算量仅为原模型的42.3%;变体聚合场景性能略有提升,速度达1.65倍(table2)。

-
消融实验验证关键组件:
-
图结构封装至关重要:将GAT替换为MLP后,平均成功率从74.08%降至64.53%,抽屉操作等依赖空间关系的任务性能暴跌25.4%(table3);

-
多损失互补:移除语义损失或动作损失,性能均降至70%以下,负载均衡损失可避免关键层被过度跳过(table3)。
-
可视化与分析:
-
效率-性能权衡:适度跳过中间层(n=18左右)可在保持73.9%成功率的同时,将延迟降至28.3ms(figure3);

-
轨迹稳定性:ActDistill生成的机器人轨迹与全量模型同样平滑,能有效规划无碰撞路径(figure5);

-
注意力聚焦:相比全量模型的全局注意力,ActDistill更专注于动作相关区域(如物体把手、目标容器),实现从“感知”到“功能推理”的转变(figure6、figure7)。


关键结论与未来方向
核心贡献
-
提出首个以动作预测为导向的通用蒸馏框架,打破VLM效率优化范式,实现VLA模型的动作中心式压缩; -
融合图结构封装与动态路由,既捕捉动作语义的层级关系,又自适应分配计算资源,平衡精度与效率; -
在自回归与扩散基VLA架构上均验证有效性,计算量减少50%以上,速度提升最高1.67倍,且保持任务成功率。
局限与未来方向
-
局限:依赖预训练教师模型提供结构化监督,难以迁移到未见过的技能与场景;路由机制缺乏时序感知,不适应连续控制需求; -
未来方向:探索无教师或强化学习引导的变体,自主学习动作先验;将长 horizon 时序推理融入路由机制,实现更自适应的具身智能。
参考
[1]ActDistill:GeneralAction-GuidedSelf-DerivedDistillation forEfficientVision-Language-ActionModels