首个长时序端到端VLA模型！西湖大学×浙大最新SOTA，真实场景 5 步任务成功率提升 900%！

资讯配图

在机器人操作场景中，长时序任务始终是难以跨越的技术壁垒，现有机器人往往在前几个步骤就出现错误累积，导致整个任务失败。

西湖大学&浙江大学的研究团队针对这一挑战提出了Long-VLA——首个专门为长时序机器人操作设计的端到端视觉-语言-动作模型。该模型在10步任务序列上的平均完成长度达到4.75，相比基线方法提升了15%以上。

我们开设此账号，想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外，也想和大家一起见证它到底是泡沫还是又一场热浪？

欢迎关注【深蓝具身智能】👇

资讯配图

技能链接问题

长时序任务的核心障碍

错误传播的恶性循环

传统VLA（视觉-语言-动作）模型采用子任务分解策略处理复杂任务：将"准备一顿饭"分解为多个独立的子任务，每个子任务由一个局部策略处理。这种方法降低了单个行为的学习复杂度，却忽略了子任务间的相互依赖。

问题出现在任务边界——

当机器人完成"拿取食材"后，如果放置位置略有偏差，后续的"切菜"子任务就会从一个次优状态开始。这种状态偏移在多个子任务间累积，形成动态耦合和错误传播现象。

实验数据显示，在5步任务序列中，基线方法的成功率从第一步的93.3%骤降至第五步的51.1%。

▲图1｜与以往方法相比，(a) 采用统一模型但仅限于短时任务且无法解决技能链问题（SC），(b) 将长时任务分解为移动与交互阶段，采用两个独立模型，降低了学习复杂度但仍无法解决SC，以及 (c) 在分解基础上引入自适应输入策略以解决SC，(d) 我们的Long-VLA是专为长时任务设计的统一模型，并通过掩码实现输入级自适应，有效解决了SC。Long-VLA在性能和鲁棒性上均超越以往最先进方法。©️【深蓝具身智能】编译

现有解决方案的根本缺陷

研究人员尝试过两种主要解决路径：

在线自适应优化：

通过执行过程中的实时调整来纠正错误，例如动态修改奖励函数或进行在线微调。然而，VLA模型依赖大规模离线数据训练，难以集成需要实时反馈的在线方法。

模块化架构设计：

如Plan-Seq-Learn方法使用不同输入模态解耦运动规划和执行过程。但模块分离阻碍了端到端学习，与VLA框架统一的数据驱动理念直接冲突。这些方法在解决技能链接问题的同时，破坏了VLA模型的核心优势——可扩展性和数据效率。

Long-VLA

阶段感知输入掩码

移动-交互双阶段分解

Long-VLA将每个子任务精细分解为两个阶段。

▲图2｜ Long-VLA概述。(a) 任务分解，结合对齐的视觉观测与语言标注。(b) 阶段感知掩码使模型在注意力计算中能够有选择性地关注相关token，无需修改输入结构。(c) 使用带有阶段感知掩码的分解数据进行端到端训练。©️【深蓝具身智能】编译

移动阶段中，机器人的主要任务是空间导航，此时第三人称视角提供更全面的环境信息，而抓取器视角信息价值有限。
交互阶段中，机器人需要执行精确操作，抓取器视角能提供更细致的操作细节，减轻视觉分布偏移。

这种分解策略的有效性在初步实验中得到验证：在CALVIN数据集上，结合移动策略的MDT模型在5步任务上的成功率从51.1%提升至54.2%。

但训练两个独立模型会增加系统复杂度，限制数据利用效率。

统一架构下的自适应输入

Long-VLA 的关键创新在于输入级适应策略。

模型为每个输入 token 分配二进制掩码, 其中表示第i个 token 参与注意力计算, 表示该 token 被屏蔽。掩码向量扩展为注意力掩码矩阵, 确保注意力仅在活跃 token 对间计算:

这种设计保持输入结构一致性，避免了直接移除模态造成的结构变化。

在移动阶段，模型屏蔽抓取器视角，专注于第三人称导航信息；在交互阶段，模型屏蔽可能造成干扰的第三人称信息，聚焦于精确操作所需的局部细节。

检测增强的多模态融合

Long-VLA集成目标检测增强空间理解能力。

使用LoRA微调的Grounding DINO在第三人称图像中预测像素级边界框，通过可训练的位置编码器将边界框投影到潜在空间。检测特征通过FiLM策略调制静态相机特征：

其中⊙表示逐元素乘法，和是可学习投影矩阵，初始化为零以确保无偏融合。

L-CALVIN基准

长时序任务的标准化评估

超越传统评估局限

原始CALVIN基准将34个任务分为11个主要类别，限制单个序列中不能出现同类别的两个任务。

这种约束将最大序列长度限制在11步，且随机生成验证过程效率低下。更关键的是，5步的评估长度无法充分暴露长时序任务中的性能退化问题。

L-CALVIN移除类别约束，将所有34个任务视为独立类别，支持生成超过10步的任务序列。基准采用结构化生成方法（Algorithm 2），增量选择可执行任务，相比随机采样验证的传统方法效率提升约3倍。

资讯配图

▲表1｜在不同任务时长下，MDT与增强了移动策略（MP）的MDT的对比。

L-CALVIN数据集通过目标对象状态变化检测进行相位分解。

切分点设置在对象状态变化前10-15帧，确保相位对齐的视觉一致性，移动阶段指令基于检测到的对象和位置自动生成。

如"move to the red block"，而交互阶段保持原始CALVIN标注，如"take the red block and rotate it to the right"。

技术深度解析

训练范式设计

Long-VLA扩展原始动作表示，添加一维阶段标识符：移动阶段设为-1，交互阶段设为1。

训练过程使用单一分数匹配损失联合监督两个阶段：

总训练损失结合InfoNCE损失确保视觉目标与语言指令的语义一致性：

其中α = 0.1，通过实验优化确定。

检测模块集成

Grounding DINO 的集成不是简单的模块拼接，而是深度融合的设计。模型根据语言查询从第三人称图像中输出边界框集合:

边界框通过可训练位置编码函数投影到特征空间:

FiLM 机制的两个可学习矩阵和初始化为零, 确保训练初期不引入偏差, 允许模型逐渐学习最优的特征词调策略。

伪代码

我将原文设计的的长时序视觉-语言-动作（VLA）模型按照逻辑拆解为多个关键模块（1-10），实现对机器人复杂操作任务的高效学习与泛化。

注: 本伪代码为按照个人理解粗略复现, 精确且完整的代码请以作者后续开源为准。

整体上，这十个模块环环相扣，构成了一个兼具端到端训练能力和长时序泛化能力的统一VLA模型架构，具体如下：

首先，作者提出了阶段感知数据分解模块（1），将每个任务轨迹细分为移动和交互两个阶段，为后续建模奠定基础；

（1）阶段感知数据分解模块

FOR each trajectory IN dataset:    FOR each task IN trajectory:        DETECT cutting point (d) before state change (10~15 frames)        SPLIT trajectory INTO:            - moving_phase: frames [0, d]            - interaction_phase: frames [d+1, T]        LABEL moving_phase WITH moving-specific language instruction        LABEL interaction_phase WITH original instruction        STORE (moving_phase, instruction), (interaction_phase, instruction)

然后，通过目标检测模块（2）和目标编码器模块（3），实现对环境中目标物体的精准定位与目标意图的表达；

（2）目标检测模块（物体定位）

FOR each third-person image o_t IN moving_phase:    detection_boxes = GroundingDINO(language_query, o_t)    detection_features = ProjectToLatentSpace(detection_boxes)    static_view_features = ResNet18(o_t)    detection_enhanced_features = FiLM(static_view_features, detection_features)RETURN detection_enhanced_features

（3）目标编码器模块

IF language annotation is available:    goal_embedding = CLIP_text_encoder(language_instruction)ELSE:    goal_embedding = CLIP_image_encoder(future_observation)RETURN goal_embedding

观测编码器模块（4）将来自不同视角的观测数据编码为特征表征；

（4）观测编码器模块

gripper_view_embedding = ResNet18(gripper_camera_image)static_view_embedding = detection_enhanced_features (from Detection Module)RETURN gripper_view_embedding, static_view_embedding

为适应不同阶段的任务需求，输入级自适应掩码模块（5）动态调整多模态输入的关注点；

（5）输入级自适应掩码模块

FOR each token i IN multimodal input sequence:    IF current_phase == moving_phase:        mask[i] = 1 IF token is from third-person/static view or detection        mask[i] = 0 IF token is from gripper view    ELSE IF current_phase == interaction_phase:        mask[i] = 1 IF token is from gripper view or detection        mask[i] = 0 IF token is from static view    ELSE:        mask[i] = 1  // default: all active attention_mask = mask[i] * mask[j] (for all i, j pairs)APPLY attention_mask during Transformer attention computation

所有特征通过多模态Transformer编码器模块（6）进行融合，形成统一的感知表示；

（6）多模态Transformer编码器模块

INPUT = [static_view_embedding; gripper_view_embedding; goal_embedding; detection_features]ENCODE tokens WITH Transformer (GPT-2 style), using attention_mask from masking moduleoutput_tokens = TransformerEncoder(INPUT, attention_mask)RETURN output_tokens

随后，动作解码器（条件扩散模型）模块（7）根据融合后的感知信息生成具体的机器人动作；

（7）动作解码器（条件扩散模型）模块

INITIALIZE noisy action a0 ~ N(0, I)FOR t = T to 1:    // Denoising step    at-1 = DiffusionStep(at, output_tokens)MAP final action token to [x, y, z, e_rx, e_ry, e_rz, gripper_state]RETURN action

整个系统的训练在训练循环模块（8）中实现，确保模型能够端到端地学习长时序任务；

（8）训练循环模块

FOR each episode IN dataset:    DECOMPOSE episode INTO moving_phase, interaction_phase    FOR each phase IN [moving_phase, interaction_phase]:        ENCODE observations (Observation Encoder)        ENCODE goal (Goal Encoder)        ENCODE detection (Detection Module)        FORM input tokens        SET phase_id (-1 for moving, 1 for interaction)        APPLY phase-aware masking based on phase_id        ENCODE via Multimodal Transformer        PREDICT action via Diffusion Model        COMPUTE loss:            - Score matching (diffusion)            - InfoNCE goal alignment        UPDATE model parameters

实际部署时，机器人依据推理（策略执行）模块（9）分阶段执行策略，以适应复杂环境变化；

（9）推理（策略执行）模块

INITIALIZE phase_id = -1 (moving_phase)WHILE task not done:    OBSERVE current state    ENCODE current observation, goal, detection info    FORM input tokens    APPLY phase-aware masking according to phase_id    PASS tokens through Transformer and Diffusion Model    EXECUTE predicted action    IF object state change detected:        phase_id = 1 (interaction_phase)    // Optionally, phase_id can toggle back based on task progress

最后，在评估（L-CALVIN基准与真实任务）模块（10）中，通过仿真和真实环境的基准测试，系统验证了方法的有效性和泛化能力。

（10）评估（L-CALVIN基准与真实任务）模块

FOR each task sequence IN evaluation set:    RESET environment    FOR t = 1 TO sequence_length:        ROLLOUT policy (see Inference Module)        RECORD task success    COMPUTE sequence success rate, average length completedREPORT results

实验验证

仿真环境突破

在L-CALVIN基准的D→D设置中，Long-VLA的平均任务完成长度达到4.75，相比基线MDT的4.11提升15%。

更显著的改进出现在跨域ABCD→D设置中：Long-VLA达到8.24的平均长度，相比其他最先进方法有明显优势。

资讯配图

▲图3｜在L-CALVIN上的仿真性能。©️【深蓝具身智能】编译

性能提升随任务序列长度增加而放大。在10步序列的最后阶段，Long-VLA的成功率达到20%，而基线方法仅为11%，相对提升81%。

真实世界鲁棒性验证

真实世界实验设计了两个递进复杂度的任务。

排序任务包含8个连续步骤，要求机器人按特定顺序将积木放入碗中。清洁任务虽只有4步，但涉及按钮按压、物体抓取、放置等多种动作类型，视觉复杂度更高。

资讯配图

▲图4｜真实环境设置。©️【深蓝具身智能】编译

在排序任务中，Long-VLA在视觉干扰条件下的改进最为显著：成功率从基线的5%提升至50%，相对改进900%。

清洁任务的结果进一步证实了Long-VLA在复杂视觉环境中的优势：平均改进幅度达到150%以上。

▲图5｜在排序任务上的真实环境性能。©️【深蓝具身智能】编译

与最先进方法的对比

Long-VLA与多种类型的基线方法进行了对比。视频生成类VLA模型（GR-1、UP-VLA）的平均序列长度仅为2.96和2.88，而Long-VLA达到4.75。

基于VLM的模型（RoboVLMs、VLAS、OpenVLA）同样显示出明显的性能差距。

▲图6｜与SOTA方法在真实场景中的对比。（左：清理；右：排序）©️【深蓝具身智能】编译

三要素协同效应

消融实验验证了Long-VLA三个核心设计要素的独立贡献。分解策略单独使用时，排序任务的平均长度从2.3提升至3.6，提升57%。

这一改进主要来自移动阶段的精确控制，减少了子任务间的状态偏移。

资讯配图

架构无关性验证

Long-VLA的设计理念具有广泛适用性。在HULC架构上的验证实验显示，Long-VLA同样带来显著改进：平均任务长度从2.65提升至3.30，相对改进25%。

资讯配图

这一结果证明了阶段感知输入掩码策略的通用性，为其在更多VLA架构中的应用提供了支持。

可学习掩码的自适应行为

Long-VLA支持可学习掩码策略，让模型自主决定每个阶段的输入关注点。

训练结果显示，移动阶段中86.71%的注意力集中在静态相机视图，仅2.68%关注抓取器视图。交互阶段的模式完全相反：87.78%的注意力转向抓取器视图。

资讯配图

这一结果验证了人工设计的掩码策略与模型自主学习趋势的高度一致性，为阶段感知策略提供了理论支撑。

状态分布偏移的定量分析

研究团队通过控制实验量化了状态偏移的影响。在完成排序任务的第二步后，人为引入位置扰动、光照变化和视觉干扰，基线方法的成功率下降约50%，而Long-VLA保持80%左右的成功率。

资讯配图

这种鲁棒性源于Long-VLA在移动阶段对全局环境信息的充分利用，以及交互阶段对局部操作细节的精确关注。阶段间的输入适应有效减少了环境变化对后续任务的影响。

总结

Long-VLA代表了长时序机器人操作技术的重要突破。通过阶段感知输入掩码策略，模型有效解决了技能链接这一核心难题，在保持VLA框架统一性的同时实现了显著的性能提升。

同时也存在一些局限性：Long-VLA在阶段分割上仍依赖人工标注或预定义规则。虽然使用目标状态变化进行自动切分，但复杂场景中的分割准确性有待提升。此外，方法主要针对结构化的桌面操作任务设计，在非结构化或高度动态环境中的表现需要进一步验证。

编辑｜Jeffrey J

审编｜具身君

Ref：

论文题目：Long-VLA: Unleashing Long-Horizon Capability of Vision Language Action Model for Robot Manipulation

论文作者：Yiguo Fan, Pengxiang Ding, Shuanghao Bai, Xinyang Tong, Yuyang Zhu Hongchao Lu, Fengqi Dai, WeiZhao, Yang Liu, Siteng Huang, Zhaoxin Fan, Badong Chen, Donglin Wang

论文地址：https://arxiv.org/pdf/2508.19958

项目主页: https://long-vla.github.io/

工作投稿｜商务合作｜转载

：SL13126828869（微信号）

>>>第三届自主机器人技术研讨会早鸟报名中<<<

ABOUT US｜关于ARTS