RSS 2026 | 别再让机器人看错重点,GuidedVLA给动作解码器装上可控可解释的注意力专家

机器之心 2026-06-12 16:51
RSS 2026 | 别再让机器人看错重点,GuidedVLA给动作解码器装上可控可解释的注意力专家图1
RSS 2026 | 别再让机器人看错重点,GuidedVLA给动作解码器装上可控可解释的注意力专家图2

具身智能要想真正走进复杂真实场景,VLA(Vision-Language-Action,视觉 - 语言 - 动作)模型只会「看图听话再出动作」还不够。更关键的问题是:当机器人伸手之前,它到底看向了哪里?


如果模型真的盯住了目标物,理解了当前操作阶段,也掌握了空间几何,动作自然更稳。但在很多端到端训练的 VLA 中,动作解码器仍然像一个黑箱。它可能在关注杯子,也可能在关注背景纹理、相机伪影、光照变化,甚至只是记住了训练场景里的摆放习惯。


一换场景,就容易「看错重点」。


针对这一问题,复旦大学可信具身智能研究院、上海交通大学、香港大学 OpenDriveLab 等机构提出了 GuidedVLA。它的核心思路非常直接:不要再让动作解码器自己在黑箱里「悟」该看什么,而是显式指定不同 attention head 的职责,让它们分别学习物体定位、空间几何和任务阶段。


说白了,GuidedVLA 给 VLA 的动作解码器写了一张「注意力分工表」。


这让机器人动作生成不只是更强,也变得更可控、更可解释:哪个头看物体,哪个头看深度,哪个头判断任务走到哪一步,都有明确分工。


目前,该工作已被 RSS 2026 接收,代码、模型和数据集均已开源。


RSS 2026 | 别再让机器人看错重点,GuidedVLA给动作解码器装上可控可解释的注意力专家图3


GuidedVLA 真机与仿真演示:研究团队把可控、可解释的注意力头专门化机制接入 π0 基座,在多类操作任务中验证了其泛化能力。


01 机器人失败时,它到底看错了什么?


当前 VLA 模型的主流路线,是把动作作为一种特殊模态接入视觉语言模型。模型接收图像观测和语言指令,再输出机器人动作。


这条路线很强,也足够简洁。


但它有一个隐含前提:动作解码器能够自动学会哪些视觉和语言特征与任务真正相关。


现实并不总是这样。


论文观察到,在缺少显式引导时,VLA 的 action decoder 容易过拟合伪相关(spurious correlations)。比如背景纹理、偶然的相机伪影、环境噪声,都可能被模型当成决策线索。某些 cross-attention head 偶尔会看向正确区域,但这种行为高度随机,会随着场景和 head 改变。


这就像一个学生做题时,偶尔能抓住关键词,但并没有形成稳定的方法论。


研究团队在 LIBERO-Plus layout 扰动设定下量化了这一问题。π0 基线的物体注意力正确率仅为 26.5%;技能识别方面,linear probe 准确率也只有 48.4%


这组数字说明,VLA 的大脑里不缺视觉语言知识,真正不稳定的是动作解码这最后一环。


GuidedVLA 的科研问题也由此展开:如果动作解码器总是在隐式学习,能不能直接告诉它该看什么?


02 给动作解码器一张「注意力分工表」


RSS 2026 | 别再让机器人看错重点,GuidedVLA给动作解码器装上可控可解释的注意力专家图4

GuidedVLA 的核心洞见,是把 action decoder 从一个「单体黑箱」拆成一组功能专家。


Transformer 的多头注意力天然包含多个 attention head。过去,这些 head 的功能大多由端到端训练自己形成,研究者很难控制它们具体学到什么。GuidedVLA 则反过来做:人为指定部分 head 的任务,用不同辅助信号监督它们捕捉不同的任务相关因子。


这套分工主要包含三类注意力专家。


Object Head:负责看对目标物


它监督注意力图集中到任务相关物体区域,比如要抓的物体、要放的位置,同时抑制干扰物和背景区域。对于杂乱桌面、小目标或透明物体,这一步尤其关键。机器人很多时候不是不会抓,而是从第一眼就没有稳定地看对目标。


Skill Head:负责知道现在做到哪一步


很多机器人任务不是单步操作,而是长程序列。比如先抓取、再移动、再放置;先扫垃圾、再倒入托盘。如果模型不清楚当前处在哪个阶段,就可能提前跳步,或者在最后一步突然失败。Skill Head 通过技能阶段监督,让动作解码器显式感知任务进度。


Depth Head:负责看懂 3D 几何


有些失败并不是语义错了,而是几何不准。按铃、插入、套叠、对齐高度,都需要更可靠的空间信息。Depth Head 不通过额外 loss 监督,而是结构性地接入冻结深度编码器的特征,让特定 head 只 attend 到深度 keys/values 上,从而补上标准 2D 视觉编码器缺少的几何感。


三类 head 对应机器人操作中的三个基础问题:



这正是 GuidedVLA 可解释性的来源:把动作决策拆成了可以指定、可以观察、可以验证的注意力分工。


03 为什么它能即插即用?


直接改造一个已经预训练好的 VLA,很容易带来另一个问题:新监督还没学好,原来的能力先被破坏了。


GuidedVLA 借鉴了 ControlNet 式残差适配器来避免这一点。它保留原始主干注意力分支,同时新增一个 factor-specific 的控制分支。这个控制分支通过 zero-initialized projection 再与主分支融合。


由于 ZeroConv 在训练开始时初始化为 0,控制分支一开始不会干扰原模型行为;随着训练推进,它再逐步把 object、skill、depth 等任务相关偏置注入动作解码器。


换句话说,它不是推倒重训,而是在 π0 这样的基座模型上加一个可插拔控制层。


先保住原来的能力,再把该看的重点加进去。


为了让这套机制可扩展,团队还设计了自动因子标注流水线。物体掩码由 Qwen3-VL 给出前景点提示,再用 SAM2 在视频段中传播掩码,最后进行人工核验;技能标签由 Qwen3-VL 按预定义技能表生成阶段标签,并转换为软目标;深度头则直接使用冻结深度编码器特征,不需要人工深度标注。


效率提升也很明显:92% 的 episode 无需人工修正。标注 50 个 episode 时,自动流水线约需 4 分钟,纯人工则约需 43.5 分钟


也就是说,GuidedVLA 并不是用高昂人工成本换来可解释性,而是把「显式引导」做成了一套可以规模化的训练接口。


04 GuidedVLA 在泛化测试上真的能看对重点,提升稳定性吗?


GuidedVLA 真正要证明的是:这种可控、可解释的分工,能否在分布偏移和真实机器人上带来稳定收益。


首先是 LIBERO-Plus。这个基准专门评估机器人策略在分布偏移下的鲁棒性,包含相机视角、机器人初态、语言变化、光照、背景、噪声和布局 7 类扰动。


在总分上,π0 为 68.2,加入 object head 后达到 73.4,加入 skill head 后为 72.5,加入 depth head 后为 71.7。三类 head 全部加入后,GuidedVLA 达到 75.4,超过 DreamVLA 的 69.9、OpenVLA-OFT 的 69.6、RIPT-VLA 的 68.4 等对比方法。


RSS 2026 | 别再让机器人看错重点,GuidedVLA给动作解码器装上可控可解释的注意力专家图5

LIBERO-Plus 结果表:GuidedVLA 在 7 类扰动维度和 4 类任务上整体表现更强,三类注意力专家叠加后平均成功率达到 75.4。


更有意思的是,不同 head 的优势和它们的职责高度吻合:object head 在 Object 套件上单头最强,skill head 在 Goal 套件上单头最强,depth head 在 Spatial 套件上单头最强。


这证明了三类注意力专家真的在各自擅长的问题上发挥作用。


RSS 2026 | 别再让机器人看错重点,GuidedVLA给动作解码器装上可控可解释的注意力专家图6

RoboTwin 2.0 结果:GuidedVLA 在 8 个随机化、未见设定的操作任务中,将 π0 平均成功率从 77.38% 提升到 90.63%。


在 RoboTwin 2.0 上,这种分工也非常直观。Click Bell 需要精确控制 Z 轴,depth head 将成功率从 35% 提升到 63%;Beat Hammer Block 需要高度对齐,成功率从 78% 提升到 96%;Lift Pot 涉及严格的抓取、稳定、抬起序列,skill head 取得单头最佳结果。


一个负责看准,一个负责排步骤,一个负责补几何。


这就是「注意力专家」的价值。


05 到真机上,还能扛住干扰物和光照变化吗?


真实机器人实验覆盖两个双臂平台:ALOHA AgileX 和 PSI-Bot RealMan。前者包括水果蔬菜分拣、叠碗放架、清洁桌面等家庭任务;后者包括烧杯放入加热套、套叠烧杯、将烧杯放上加热装置等实验室操作任务。


每个任务和模型进行 20 次试验。团队设置了三类泛化条件:物体位置变化的 In-Domain 设定、加入干扰物和杂乱场景的 Scene 设定,以及光强 / 色温变化的 Lighting 设定。


结果显示,GuidedVLA 在三类设定下都稳定优于 Base Policy:



真机任务示例:叠碗放架。长程操作中,Skill Head 帮助模型维持阶段感,避免中途跳步。


真机任务示例:烧杯放入加热套。透明刚性物体和紧几何约束更考验目标定位与空间几何。


06 可解释性验证:因子质量越高成功率越高


RSS 2026 | 别再让机器人看错重点,GuidedVLA给动作解码器装上可控可解释的注意力专家图7

因子质量与任务成功率的关系:Object、Skill、Depth 三类因子质量越高,整体成功率越高。


GuidedVLA 进一步回答了一个更有趣的问题:这些因子质量真的和任务成功率相关吗?


团队没有只做「有无注意力头」的二元对比,而是连续调节三类因子质量,观察成功率变化。


Object Head 方面,随着落在物体区域内的注意力比例从 0.25 增加到 1.0,成功率从 61.3% 提升到 77.4%。这说明动作 token 是否真正看向目标物,会直接影响操作表现。


Skill Head 方面,随着技能识别准确率提高,成功率从 66.2% 提升到 77.7%。模型越清楚当前任务阶段,越不容易在长程任务中跳步或乱序。


Depth Head 方面,当真实深度特征比例从 0 增加到 1.0,成功率从 15.0% 提升到 74.2%。对于精细操作,明确的 3D 几何线索是任务能否成功的关键条件之一。


RSS 2026 | 别再让机器人看错重点,GuidedVLA给动作解码器装上可控可解释的注意力专家图8

三类注意力专家的可视化结果:Object Head 聚焦目标区域,Depth Head 编码 3D 结构,Skill Head 跟踪任务阶段变化。


更进一步,论文还验证了「分工」本身的重要性。一个自然想法是:既然 object、skill、depth 都有用,能不能让所有 head 一起学习所有因子?


答案是否定的。


专门化分工优于「一锅烩」式混合训练。在 Spatial、Goal、Long 以及总体分数上,GuidedVLA 都明显领先 mixture 方案。


当所有 head 混合学习所有目标时,不同因子的特征会纠缠在一起,性能反而下降。t-SNE 可视化显示,GuidedVLA 中专门化的 object、depth、skill head 形成了更清晰的分簇;而 mixture 方案中,不同 head 的表征明显重叠。


RSS 2026 | 别再让机器人看错重点,GuidedVLA给动作解码器装上可控可解释的注意力专家图9

左:GuidedVLA 的专门化注意力头形成更清晰的特征分簇;右:Mixture 方案中,不同 head 的表示明显重叠,因子之间更容易纠缠。


这说明 GuidedVLA 的关键不只是「多加监督」,而是「让不同监督进入不同专家」。


可控,来自可指定。


可解释,来自可分工。


总结


GuidedVLA 最值得关注的地方,是它把动作解码器中最黑箱的一部分,变成了可以被人为指定、观察和验证的结构。


过去,VLA 输出一个动作,研究者很难判断它到底看对了目标物、理解了任务阶段,还是只是依赖某个视觉捷径。GuidedVLA 则把这个过程拆成 object、skill、depth 三类注意力专家,让动作决策出现了更清晰的内部分工。


当然,这项工作仍然依赖预定义因子。如何自动发现任务相关因子,尤其是在连续任务中自动发现技能结构,仍是未来需要进一步探索的问题。


但它给出了一条很务实的路线:让 VLA 不只是变大,也要变得更可控、更可解释。


让每一次操控,都有迹可循。


RSS 2026 | 别再让机器人看错重点,GuidedVLA给动作解码器装上可控可解释的注意力专家图10


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
机器人
more
卷到一万块,机器人降价潮来了
8天卖3000台,优必选超仿生机器人凭什么仅限成年人买?
至“关”重要!给机器人装上“活关节”→
机器人自动化焊接参数混合ID3算法优化研究
机器人零部件“大考”:谁吃到了人形机器人量产的第一波红利?
“十五五”医疗装备攻坚:手术机器人站上风口,投资赛道分层突围
Xbotics具身朋友圈01期 | ATEC:一场让机器人挑战真实世界的比赛
攻坚混箱装卸痛点,因格智能发布Messol-S具身智能装卸机器人
ICRA 顶会赛事过后,“一天跑通”成为人形机器人开发的新基准?
拟募资近8亿!国家“专精特新”小巨人加码工业机器人
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号