Shallow-π:三星研究院实现流式VLA模型深度压缩与2倍推理加速

具身智能之心 2026-02-04 09:27

作者丨Boseong Jeon等

编辑丨具身智能之心

本文只做学术分享,如有侵权,联系删文

更多干货,欢迎加入国内首个具身智能全栈学习社区(戳我)这里包含所有你想要的。

一、核心背景与问题痛点

随着机器人实时部署需求的增长,视觉-语言-动作(VLA)模型亟需实现边缘设备上的快速推理。在众多VLA架构中,基于流的模型(如系列、GR00T、CogACT)凭借扩散Transformer(DiT)作为动作头,兼具强生成能力与扩散引导特性,但也面临显著的计算成本挑战:这类模型融合了大型视觉-语言(VLM)backbone与包含数十层Transformer的扩散型动作头,且推理时需迭代执行扩散步骤,导致边缘部署的实时性难以保障。

现有效率优化方案存在明显局限:

  1. 层跳越方法:通过动态检测层间特征相似度或路由机制跳过冗余层,但需保留完整模型在GPU内存中,且仅针对VLMbackbone优化,未考虑流基VLA模型中动作头与backbone深度对齐以接收中间层特征的架构特点;同时,层相似度随扩散步骤的噪声水平变化剧烈(figure3),固定阈值或路由规则难以适配,且相似度无法准确反映层的功能重要性——跳过相似度高的早期层可能导致成功率大幅下降(figure3底部)。
Shallow-π:三星研究院实现流式VLA模型深度压缩与2倍推理加速图2
  1. 小型backbone方案:通过减少隐藏维度或早退机制构建小型VLM,但需从头训练,难以兼容预训练模型的泛化能力,且未优化动作头深度,而动作头的重复去噪计算正是流基模型的主要开销来源。
  2. 视觉token剪枝:通过减少视觉token数量降低计算量,但现代加速器对token级计算的并行化支持成熟,这类优化带来的延迟提升有限(figure2);而Transformer层的串行执行特性,使得层深度成为影响推理速度的关键因素。
Shallow-π:三星研究院实现流式VLA模型深度压缩与2倍推理加速图3
  • 论文标题:Shallow-π: Knowledge Distillation for Flow-based VLAs
  • 论文链接:https://arxiv.org/pdf/2601.20262
  • 项目主页:https://icsl-jeon.github.io/shallow-pi/

二、核心方法:Shallow- 蒸馏框架

该框架的核心目标是通过知识蒸馏,同时压缩VLMbackbone与动作头的Transformer深度,在保持模型性能的前提下实现极致推理加速。其关键设计围绕“联合压缩”与“定制化蒸馏目标”展开。

1. 模型结构压缩

采用均匀子采样策略初始化浅层学生模型,将VLM backbone与动作头的Transformer层数从18层大幅削减至6层(部分实验中测试9层、4层)。这一初始化方式借鉴了TinyBERT的层选择逻辑,无需依赖复杂的层敏感性分析(实验验证,足够训练步数下,随机子采样与敏感性导向选择效果一致)。

2. 三重蒸馏目标设计

为实现学生模型对教师模型(预训练流基VLA)的行为对齐,设计了互补的三重损失函数:

  1. 任务损失(:遵循标准流匹配范式,监督学生模型预测真实速度场,确保基础任务能力:

其中为真实动作轨迹,为噪声向量。

  1. 知识蒸馏损失(:引导学生模型匹配教师模型的预测速度场,利用教师的泛化能力提供额外监督:

其中为教师模型,为学生模型。

  1. 注意力蒸馏损失(:针对流基VLA的架构特点定制——仅对齐动作token(a)与视觉-语言token(vl)的交叉注意力分布,而非所有token的注意力:

其中,KL为KL散度。

3. 注意力蒸馏的关键优化

  • token范围限制:流基VLA中,视觉-语言token仅作为条件上下文,动作token才是生成核心。若蒸馏所有token的注意力(包括视觉-语言token间的自注意力),会过度约束学生模型,干扰预训练表征,导致训练不稳定(table1(c))。
Shallow-π:三星研究院实现流式VLA模型深度压缩与2倍推理加速图4
  • 层位置选择:仅在中间层应用注意力蒸馏。早期层因初始化时直接复制教师底层,表征已对齐;顶层则通过任务损失与蒸馏损失实现输出对齐,无需额外约束。table1(b)显示,中间层应用时,6层模型的成功率达94.6%,显著高于早期层(93.9%)与后期层(94.1%)。

三、实验验证:性能与效率的双重突破

1. 模拟基准实验(LIBERO)

实验以为教师模型,验证不同层数学生模型的性能。核心结果如下:

  • 性能保留:蒸馏后的6层模型(-L6、-L6)平均成功率仅下降1%以内,其中-L6的平均成功率达95%,与教师模型(96%)几乎持平(table2)。
Shallow-π:三星研究院实现流式VLA模型深度压缩与2倍推理加速图5
  • 效率提升:FLOPs与CUDA推理时间均减少超过50%,-L6的推理时间仅10.5ms,较教师模型(22.6ms)提速2.15倍。
  • 方案优越性:相较于从头训练的小型backbone模型(如SmolVLA),蒸馏模型在成功率(95% vs 87%)与推理延迟(10.5ms vs 26.0ms)上均占优,验证了蒸馏优于“从头训练小模型”的核心假设。

2. 真实世界实验(边缘设备部署)

在Jetson Orin(ALOHA机器人)与Jetson Thor(RB-Y1人形机器人)上,针对动态场景、复杂操纵任务与未见过的环境进行测试:

  • 动态任务表现:在转盘(15deg/s)上的插销、泡沫插入等任务中,6层模型的成功率显著超越教师模型与SmolVLA。例如插销任务中,蒸馏模型实现10/10成功,教师模型为7/10,而SmolVLA完全失败(0/10);同时推理延迟降至110ms,较教师模型(364ms)减少254ms(table3)。
Shallow-π:三星研究院实现流式VLA模型深度压缩与2倍推理加速图6
  • 复杂任务适配:在需要手-躯干协同的回收、开盖插销任务中,的蒸馏模型成功率达85%(17/20),较教师模型(12/20)提升明显,推理时间从130ms降至78ms(table3)。
  • 泛化能力:面对未见过的环境扰动(如插销初始位置偏移3cm、垃圾桶位移10cm),蒸馏模型仍保持良好性能(插销任务3/5成功,回收任务15/20成功),这得益于低延迟带来的更快观测更新,减少了开环执行导致的失败(figure11)。
Shallow-π:三星研究院实现流式VLA模型深度压缩与2倍推理加速图7

3. 关键现象验证

  • 层减少 vs token减少:figure2清晰展示,减少Transformer层数对延迟的降低效果远优于减少视觉token。在H100 GPU上,层数从18减至4层,延迟下降3.3倍;而token从256减至64,延迟仅下降1.1倍。这是因为Transformer层串行执行,延迟直接累积;而token计算可并行化,现代GPU能高效处理。

  • 跳层方法的局限性:figure4显示,当跳层数量超过3层,模型成功率骤降,即使基于敏感性排序选择跳层,也无法避免性能崩溃——这证明流基VLA的层功能与去噪动态深度耦合,单纯依赖相似度或敏感性的跳层策略难以替代结构化的蒸馏压缩。

Shallow-π:三星研究院实现流式VLA模型深度压缩与2倍推理加速图8

四、结论与未来方向

核心贡献

  1. 提出首个针对流基VLA的联合蒸馏框架,实现VLM backbone与动作头的层数大幅削减(最高70%),同时保留层间特征传递的架构需求。
  2. 定制化设计三重蒸馏目标,尤其是中间层交叉注意力蒸馏,解决了流基模型中动作生成与条件上下文的对齐问题。
  3. 通过工业级边缘部署验证,在复杂动态场景中实现近10Hz的端到端推理,为实时机器人操纵提供了高效解决方案。

局限与未来

当前框架的主要局限是训练阶段需同时加载教师与学生模型,计算成本较高。未来可通过以下方向优化:

  1. 选择性冻结模型组件,降低蒸馏过程中的显存消耗;
  2. 筛选高信息价值的训练样本,提升蒸馏效率;
  3. 结合视觉token剪枝、扩散步数减少等互补优化方向,进一步提升推理吞吐量。

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
三星
more
为通透显示而生 iQOO 15 Ultra搭载2K三星珠峰屏
这次真的遥遥领先?台积电2nm芯片量产落地,三星、英特尔彻底慌了
Galaxy S26系列发布定档:2nm芯片首发,国行3月上市
三星电子聘任前微软欧盟政策高管强化合规应对
三星电子2025年净利润同比增长31.2%
三星拟关停一座8英寸晶圆厂?
8亿部Gemini设备在路上!三星AI“全家桶”来了:冰箱AI管吃喝,电视AI教你做饭
三星凭借 Q4 破纪录的业绩重夺 DRAM 市场第一
强力反弹:三星利润爆增160%,DDR5 价格一年飙 3 倍!
三星Ballie卒!昔日CES明星无疾而终,我们需要怎样的AI机器人?
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号