E0：离散扩散新框架，大幅提升 VLA 模型泛化与操控精度

一、出发点与背景

机器人在开放环境中的操作需要模型具备三大核心能力：复杂视觉场景感知、自然语言指令理解、精准可靠的动作生成。视觉-语言-动作（VLA）模型作为统一框架，通过大规模多模态预训练，旨在实现跨任务、场景和物体类别的泛化，但现有方案仍面临关键瓶颈：

泛化能力不足：难以适配多样的任务指令、环境配置和相机视角；
动作控制粗糙：生成的动作往往不够精细，在插装、抓取特定图案物体等细粒度操作中易失败；
建模范式矛盾：离散建模（自回归、掩码式离散扩散）受限于动作词汇量，连续扩散建模与预训练backbone的符号结构语义错位，且与真实机器人的量化控制特性不匹配。

现有方法可分为两类（见figure1）：

离散建模：依赖语言分词器的固定词汇表，动作分辨率有限，掩码式方法存在分布失配问题；
连续建模：在欧氏空间操作，与VLM/VLA的符号结构语义脱节，且忽略机器人硬件（控制频率、编码器分辨率）带来的信号量化特性。

二、 E0核心创新点

针对上述问题，提出框架，核心创新集中在三点：

连续化离散扩散范式：将动作生成建模为对量化动作token的迭代去噪，直接对独热动作向量添加高斯噪声，遵循Tweedie公式保持前向-反向一致性，避免掩码式方法的分布失配；
灵活细粒度动作表示：支持任意数量的离散分箱（最高可达2048及以上），突破自回归模型256分箱的限制，在不牺牲推理速度的前提下提升动作分辨率；
球面视角扰动增强：通过模拟相机在观测球面上的运动生成扭曲图像，结合相对球面嵌入，无需额外数据即可提升模型对相机视角变化的鲁棒性。

三、技术框架介绍

整体架构与建模逻辑

的架构以PaliGemma开源VLM为backbone，新增3亿参数的动作专家网络（见figure2(a)），核心逻辑是将连续动作离散化后，通过扩散模型实现迭代优化，同时保留与预训练视觉语言模型的兼容性。

动作表示采用分位数离散化策略，过滤异常值以保证机器人推理的稳定性：

单步动作维度：（3平移+3旋转+1夹爪）或（7关节角+1夹爪，适配Franka机械臂）；
动作块设计：将H个未来时间步的动作组合为动作块，总长度，实验中设以平衡时序一致性与响应性。

训练与推理流程

训练流程（figure2(b)）

多模态观测编码：将RGB图像、语言指令、机器人本体感受态（关节角）编码到同一嵌入空间；
动作离散化：通过1%-N%分位数将连续动作转换为独热向量表示的离散token；
高斯加噪：采样时间步（服从Beta分布，偏向高噪声区域），对独热向量添加噪声：

其中，为平滑因子，用于稳定训练；

损失函数：最小化预测token与真实token的交叉熵损失，保证时序一致性。

推理流程

初始化噪声动作序列，编码观测生成键值缓存（跨注意力复用）；
多步迭代去噪：每轮接收当前噪声动作序列与固定观测缓存，预测动作token的分类分布，解码为独热向量后重新加噪进入下一轮；
确定性解离散化：N轮迭代后，将最终离散token映射为连续动作，形成可执行的动作块。

球面视角泛化机制

为解决相机视角偏移导致的性能下降问题：

球面扭曲：将图像像素反投影到固定深度的3D点，施加偏航角和俯仰角旋转后重新投影，模拟相机动态视角；
相对球面嵌入：定义3D偏移向量（径向、水平、垂直位移），通过可学习投影函数融入图像token，显式建模相机相对位移。

四、相关工作

自回归VLA模型

以RT1、RT-2、OpenVLA为代表，通过token预测生成动作，与预训练backbone架构亲和，但动作分辨率受限于固定分箱数，细粒度控制能力不足。保留其上下文对齐优势，同时突破分箱数限制。

扩散基VLA模型

Diffusion Policy、RDT、π₀等采用连续扩散生成动作轨迹，表达能力强但语义对齐弱。将扩散建模迁移到离散空间，兼顾扩散的精细优化与符号结构的语义兼容性。

离散扩散

现有方法多基于掩码建模（如BERT-like掩码），存在分布失配问题。直接对独热向量加噪，通过自回归式反馈机制实现渐进式优化，无需额外架构复杂度即可达到竞争性能。

五、实验验证

仿真实验

在三大基准（LIBERO、VLABench、ManiSkill）的14个环境中，均达到SOTA性能，平均超过基线10.7%：

LIBERO：平均成功率96%，在复杂场景中展现更精准的抓取与指令执行能力（table9）；

ManiSkill：在插装、充电插头插入等高精度任务中表现最优，平均成功率55.2%，显著优于π₀、RDT等基线（figure10、table10）；

VLABench：成功区分特定图案扑克牌、麻将牌及绘画风格，解决连续动作模型的语义推理短板（figure4、figure7）。

真实世界实验

基于Franka Research 3机械臂，在8类任务（短时序：拾取、按键、堆叠等；长时序：连续拾取、抽屉操作+放置等）中，平均成功率45.6%，显著高于π₀（43.1%）和π₀ FAST（10.0%）（table2）。即使在训练数据中未见过的物体位置配置下（如交换红绿方块位置），仍能准确完成堆叠任务（figure5）。