E0:离散扩散新框架,大幅提升 VLA 模型泛化与操控精度

具身智能之心 2025-11-29 10:00

一、出发点与背景

机器人在开放环境中的操作需要模型具备三大核心能力:复杂视觉场景感知、自然语言指令理解、精准可靠的动作生成。视觉-语言-动作(VLA)模型作为统一框架,通过大规模多模态预训练,旨在实现跨任务、场景和物体类别的泛化,但现有方案仍面临关键瓶颈:

  • 泛化能力不足:难以适配多样的任务指令、环境配置和相机视角;
  • 动作控制粗糙:生成的动作往往不够精细,在插装、抓取特定图案物体等细粒度操作中易失败;
  • 建模范式矛盾:离散建模(自回归、掩码式离散扩散)受限于动作词汇量,连续扩散建模与预训练backbone的符号结构语义错位,且与真实机器人的量化控制特性不匹配。

现有方法可分为两类(见figure1):

E0:离散扩散新框架,大幅提升 VLA 模型泛化与操控精度图1
  • 离散建模:依赖语言分词器的固定词汇表,动作分辨率有限,掩码式方法存在分布失配问题;
  • 连续建模:在欧氏空间操作,与VLM/VLA的符号结构语义脱节,且忽略机器人硬件(控制频率、编码器分辨率)带来的信号量化特性。

二、 E0核心创新点

针对上述问题,提出框架,核心创新集中在三点:

  1. 连续化离散扩散范式:将动作生成建模为对量化动作token的迭代去噪,直接对独热动作向量添加高斯噪声,遵循Tweedie公式保持前向-反向一致性,避免掩码式方法的分布失配;
  2. 灵活细粒度动作表示:支持任意数量的离散分箱(最高可达2048及以上),突破自回归模型256分箱的限制,在不牺牲推理速度的前提下提升动作分辨率;
  3. 球面视角扰动增强:通过模拟相机在观测球面上的运动生成扭曲图像,结合相对球面嵌入,无需额外数据即可提升模型对相机视角变化的鲁棒性。

三、 技术框架介绍

整体架构与建模逻辑

的架构以PaliGemma开源VLM为backbone,新增3亿参数的动作专家网络(见figure2(a)),核心逻辑是将连续动作离散化后,通过扩散模型实现迭代优化,同时保留与预训练视觉语言模型的兼容性。

E0:离散扩散新框架,大幅提升 VLA 模型泛化与操控精度图2

动作表示采用分位数离散化策略,过滤异常值以保证机器人推理的稳定性:

  • 单步动作维度:(3平移+3旋转+1夹爪)或(7关节角+1夹爪,适配Franka机械臂);
  • 动作块设计:将H个未来时间步的动作组合为动作块,总长度,实验中设以平衡时序一致性与响应性。

训练与推理流程

训练流程(figure2(b))

  1. 多模态观测编码:将RGB图像、语言指令、机器人本体感受态(关节角)编码到同一嵌入空间;
  2. 动作离散化:通过1%-N%分位数将连续动作转换为独热向量表示的离散token;
  3. 高斯加噪:采样时间步(服从Beta分布,偏向高噪声区域),对独热向量添加噪声:

其中为平滑因子,用于稳定训练;

  1. 损失函数:最小化预测token与真实token的交叉熵损失,保证时序一致性。

推理流程

  1. 初始化噪声动作序列,编码观测生成键值缓存(跨注意力复用);
  2. 多步迭代去噪:每轮接收当前噪声动作序列与固定观测缓存,预测动作token的分类分布,解码为独热向量后重新加噪进入下一轮;
  3. 确定性解离散化:N轮迭代后,将最终离散token映射为连续动作,形成可执行的动作块。

球面视角泛化机制

为解决相机视角偏移导致的性能下降问题:

  1. 球面扭曲:将图像像素反投影到固定深度的3D点,施加偏航角和俯仰角旋转后重新投影,模拟相机动态视角;
  2. 相对球面嵌入:定义3D偏移向量(径向、水平、垂直位移),通过可学习投影函数融入图像token,显式建模相机相对位移。

四、 相关工作

自回归VLA模型

以RT1、RT-2、OpenVLA为代表,通过token预测生成动作,与预训练backbone架构亲和,但动作分辨率受限于固定分箱数,细粒度控制能力不足。保留其上下文对齐优势,同时突破分箱数限制。

扩散基VLA模型

Diffusion Policy、RDT、π₀等采用连续扩散生成动作轨迹,表达能力强但语义对齐弱。将扩散建模迁移到离散空间,兼顾扩散的精细优化与符号结构的语义兼容性。

离散扩散

现有方法多基于掩码建模(如BERT-like掩码),存在分布失配问题。直接对独热向量加噪,通过自回归式反馈机制实现渐进式优化,无需额外架构复杂度即可达到竞争性能。

五、 实验验证

仿真实验

在三大基准(LIBERO、VLABench、ManiSkill)的14个环境中,均达到SOTA性能,平均超过基线10.7%:

  • LIBERO:平均成功率96%,在复杂场景中展现更精准的抓取与指令执行能力(table9);
E0:离散扩散新框架,大幅提升 VLA 模型泛化与操控精度图3
  • ManiSkill:在插装、充电插头插入等高精度任务中表现最优,平均成功率55.2%,显著优于π₀、RDT等基线(figure10、table10);
E0:离散扩散新框架,大幅提升 VLA 模型泛化与操控精度图4
E0:离散扩散新框架,大幅提升 VLA 模型泛化与操控精度图5
  • VLABench:成功区分特定图案扑克牌、麻将牌及绘画风格,解决连续动作模型的语义推理短板(figure4、figure7)。
E0:离散扩散新框架,大幅提升 VLA 模型泛化与操控精度图6
E0:离散扩散新框架,大幅提升 VLA 模型泛化与操控精度图7

真实世界实验

基于Franka Research 3机械臂,在8类任务(短时序:拾取、按键、堆叠等;长时序:连续拾取、抽屉操作+放置等)中,平均成功率45.6%,显著高于π₀(43.1%)和π₀ FAST(10.0%)(table2)。即使在训练数据中未见过的物体位置配置下(如交换红绿方块位置),仍能准确完成堆叠任务(figure5)。

E0:离散扩散新框架,大幅提升 VLA 模型泛化与操控精度图8
E0:离散扩散新框架,大幅提升 VLA 模型泛化与操控精度图9

消融实验

  • 球面视角增强:使在相机扰动下的平均成功率从66.5%提升至83.9%,有效缓解视角过拟合(table3);
E0:离散扩散新框架,大幅提升 VLA 模型泛化与操控精度图10
  • 分箱数:2048分箱为性能拐点,进一步增加分箱数会引入优化噪声(figure6(a));
  • 动作块长度:10-20步平衡响应性与时序一致性,过长会导致累积误差(figure6(b))。
E0:离散扩散新框架,大幅提升 VLA 模型泛化与操控精度图11

六、 局限与未来方向

6.1 现存局限

  1. 特定任务语义对齐不足:在VLABench的Select Painting任务中表现较弱,部分失败源于基准标注逻辑问题而非模型缺陷;
  2. 复杂协调任务瓶颈:双臂协同、长时程时序依赖任务(如递麦克风、堆叠三个碗)性能不及单臂任务,混合任务训练可能稀释特定技能;
  3. 机械交互建模不足:对开关旋转、笔记本开合等需要精细力矩控制的任务,仍存在操作精度短板。

6.2 未来方向

  • 优化视觉-语言接地:针对艺术风格识别等语义密集型任务,增强跨模态对齐能力;
  • 模块化任务适配:设计自适应任务采样策略,避免混合训练中的技能稀释;
  • 融合机械动力学:引入物理模型先验,提升对铰接物体、力矩依赖型任务的控制精度。

参考

[1] E0: Enhancing Generalization and Fine-Grained Control in VLA Models via Continuized Discrete Diffusion

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
more
Seeds | 星际光年发布臂手一体灵巧手,完成Pre-A轮融资
发布对标特斯拉的「臂手一体」新品,灵巧手公司星际光年完成Pre-A轮融资丨36氪首发
一月两轮!造出“能刷手机”灵巧手的清华系团队又拿融资了!
机器人灵巧手操作(Dexterous Manipulation)”的求职路线
显著优于传统丝杠,陶瓷丝杠路线或为灵巧手重要方向?
灵巧手数据不再“卡脖子”:DexCanvas数据集为具身智能铺平“最后一公里”
NeurIPS 25 | 中大&UC Merced等开源RAPID Hand,重新定义多指灵巧手数据采集
灵巧手的“ChatGPT时刻”:一个数据集正在试图教会机器人感觉
北京灵巧手创企融资数亿,蚂蚁又投了
灵心巧手:三年内把灵巧手价格打到500元以下
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号