ActDistill：同济大学提出动作引导蒸馏框架，机器人推理速度提升1.67倍

研究背景与核心问题

Vision-Language-Action（VLA）模型在机器人操作、视觉导航等具身智能场景中表现出强大的多模态推理与动作预测能力，但庞大的架构、频繁的跨模态交互导致计算开销大、推理延迟高，难以部署在实时或资源受限的机器人系统中。

现有高效VLA策略（如token剪枝、早期退出、轻量化架构）多沿用视觉-语言模型（VLM）的优化思路，优先基于视觉-语言相关性压缩模型，却忽略了动作预测的核心目标，容易造成两大问题：一是关键信息损耗，感知和语义线索在压缩中被削弱，影响任务目标与环境上下文理解；二是动作语义不连贯，结构简化破坏了动作相关语义的连续性，降低了动作策略的稳定性。

为解决这些问题，需要一种以动作预测为导向的高效蒸馏框架，在降低计算成本的同时，保留VLA模型的动作预测精度与稳定性。

核心方法：ActDistill 框架

ActDistill 是一种通用的动作引导自衍生蒸馏框架，核心思路是将大型VLA模型（教师模型）的动作中心语义迁移到轻量化学生模型，通过动作先验引导知识蒸馏与模型压缩，实现效率与保真度的平衡。整体框架包含两大核心模块：

ActDistill：同济大学提出动作引导蒸馏框架，机器人推理速度提升1.67倍图1

图结构封装（Graph-Structured Encapsulation）

该模块旨在显式建模动作语义的层级演化，分离任务相关交互与冗余背景信号，为蒸馏提供结构化监督。

动态关系图构建：将教师模型第l层的隐藏状态中每个token特征视为节点，通过可学习的线性投影计算节点间亲和度，保留每个节点的个近邻构建稀疏图：
对亲和度矩阵归一化后，仅保留Top-K近邻的边：
消息传递与语义胶囊生成：通过注意力机制聚合节点邻域信息，更新特征以捕捉几何依赖：
再通过注意力池化将更新后的节点特征聚合为结构化语义胶囊，编码动作预测所需的空间与语言关系：
辅助训练目标：为每个语义胶囊添加动作预测损失，驱动深层网络编码更抽象且动作一致的语义：

动作引导自衍生蒸馏（Action-Guided Self-Derived Distillation）

该模块通过自衍生学生模型与动态路由，在效率约束下复现教师的决策过程。

轻量化学生模型：与教师模型结构对齐但深度缩减，集成动态路由器R，根据输入的视觉与语言嵌入自适应预测层门控分数，决定每层是否执行：
训练时采用软门控联合优化，推理时通过阈值τ离散化（则执行该层），仅保留动作相关计算。
蒸馏损失函数：结合语义对齐与动作一致性目标，确保学生模型继承教师的结构化语义与控制精度：