点击下方卡片,关注“具身智能之心”公众号
编辑丨具身智能之心
本文只做学术分享,如有侵权,联系删文
>>
更多干货,欢迎加入国内首个具身智能全栈学习社区:(戳我),这里包含所有你想要的。
当我们谈论具身智能时,常常默认一个前提:机器人能够清楚地看到世界。桌面上的杯子、抽屉的把手、机械臂末端与物体的接触位置,这些视觉信息构成了 Vision-Language-Action 模型理解任务、规划动作和执行操作的基础。
但现实世界并不总是这样理想。
灯光可能突然变暗,摄像头可能遇到噪声,运动中的手臂和物体可能产生模糊。对于人类来说,昏暗环境中的一个轮廓、一点移动痕迹,仍然足以帮助我们判断“物体在哪里”“手该往哪儿伸”。可对于许多依赖 RGB 图像的 VLA 模型来说,一旦画面中的纹理、颜色和边界被低照度破坏,原本稳定的语义 grounding 和动作预测就会迅速变得脆弱。
这正是 Event-VLA 试图解决的问题:不是让机器人在实验室的理想光照下表现更好,而是让它在真实世界里那些“不够明亮、不够干净、不够稳定”的场景中,依然能够可靠地完成操作。
从“看清世界”到“抓住变化”
现有 VLA 模型已经展现出强大的语言理解、视觉感知和动作生成能力。它们可以根据自然语言指令,结合图像观察,输出连续的机器人动作。然而,这类模型大多建立在一个隐含假设之上:RGB 图像足够清晰,视觉输入足够稳定。
问题在于,真实机器人部署时,这个假设经常失效。
低光照会吞掉颜色和纹理,传感器噪声会污染边缘,运动模糊会让物体轮廓变得不可靠。尤其在操作任务中,机器人真正需要的往往不是整幅图像的“漂亮外观”,而是动作发生时的局部物理变化:夹爪是否靠近物体,物体是否被推动,接触区域是否发生移动,边界是否还可追踪。
Event-VLA 的关键洞察就在这里:当 RGB 图像看不清时,事件相机仍然能捕捉到“变化”。
事件相机不是像普通相机那样一帧一帧记录绝对亮度,而是异步记录像素级亮度变化。它天然具有高动态范围、低延迟、对运动敏感等特点,因此在低照度、强动态或快速运动场景下,仍能保留边缘、轮廓和运动线索。换句话说,RGB 图像擅长提供语义外观,而事件流擅长捕捉动作时刻的物理残差。
Event-VLA 要做的,就是把这类“变化的线索”接入 VLA,让机器人在看不清颜色和纹理时,仍然能依据运动与边界信息稳定行动。
真正的难点:事件信息该接到哪里?

把事件相机接入 VLA,听起来似乎只是多加一个模态。但论文真正强调的是:问题不在于有没有事件信息,而在于事件信息应该如何进入模型。
一种直接做法是把事件 token 和 RGB、语言 token 一起塞进 VLA 的全局语义空间,让模型自己学习融合。但这会带来一个风险:预训练 VLA 原本已经形成了基于 RGB 和语言的语义先验,粗暴混入事件 token,可能扰乱原有的语义推理路径。
Event-VLA 没有选择这种“全局混合”的路线。它的设计原则更克制,也更贴近机器人操作本身:
语义理解继续交给预训练 VLA;事件信息只在动作生成路径中发挥作用。
也就是说,Event-VLA 不试图让事件流重新定义“这是什么物体”“这条指令是什么意思”,而是让事件流回答另一个更动作相关的问题:在当前动作时刻,哪些局部变化对下一步控制最重要?
这种设计让 Event-VLA 同时获得了两种能力:一方面保留预训练 VLA 的 RGB-语言语义先验,避免破坏原有能力;另一方面又把事件相机提供的动态物理线索注入动作预测,让模型在低光照下更稳。
PREI:把杂乱事件流变成动作可用的物理残差
原始事件流是稀疏、异步、时间不规则的。如果直接喂给 VLA,不仅难以对齐,还会增加建模复杂度。

为此,Event-VLA 提出了 PREI,即 Physical Residual Event Integration。它将事件历史压缩成紧凑的三通道物理残差图,用来描述动作时刻的不同变化线索:
第一类是瞬时变化,用来突出最近发生的机器人与物体运动;
第二类是显著变化,用来捕捉局部区域中更突出的事件活动,例如被操作物体附近的边缘变化;
第三类是持续痕迹,用来保留短时间内积累下来的轮廓结构,在 RGB 纹理和颜色退化时提供稳定参考。
这三个通道共同回答了一个问题:当画面变暗、纹理消失时,操作现场还有哪些“物理变化”值得机器人关注?
相比普通 event count 或 time surface 表示,PREI 不只是记录“哪里发生过事件”或“最近哪里有事件”,而是以多时间尺度整合动作相关残差信息。它更像是为 VLA 准备的一张动作线索地图,把事件相机捕捉到的高频变化,整理成模型可以高效利用的表示。

Action-Conditioned Event Interface:让动作来决定该看哪些事件
Event-VLA 的核心模块是 Action-Conditioned Event Interface。
它没有把事件 token 直接并入 VLA 主干的全局 self-attention,而是在 VLA 已经形成 RGB、语言、机器人状态和动作上下文之后,通过 gated cross-attention 和 query-guided routing,把事件信息选择性地注入动作表示。
这里的“选择性”非常关键。
机器人执行任务时,并不是所有事件变化都重要。灯光闪烁、背景噪声、无关区域的运动,都可能产生事件。Event-VLA 使用可学习的 action queries,从 VLA 的推理过程中提取任务相关的动作语义,再以动作需求为条件去聚合事件 token。也就是说,不是事件流主动打断语义空间,而是动作路径主动询问事件流:哪些变化对我下一步动作有用?
这种动作条件化的路由机制,使 Event-VLA 具备了更强的鲁棒性和更低的侵入性。
在正常光照下,它不会明显破坏原有 VLA 的表现;在低光照甚至近黑暗环境下,它又能调用事件残差信息,补上 RGB 图像丢失的边缘和运动线索。
从模拟到真实:黑暗中的成功率差距被拉开
Event-VLA 的实验并不是只停留在方法设计上。论文在 LIBERO、低可见度扩展基准 LIBERO-Cross,以及真实 Franka 机械臂平台上进行了验证。


在正常可见的 LIBERO benchmark 中,Event-VLA 平均成功率达到 96.5%,与 OpenVLA-OFT、ResVLA、MM-ACT 等强基线保持同一水平。这一点很重要,因为它说明加入事件路径并没有牺牲正常光照下的基础操作能力。即便在关闭事件路径的情况下,Event-VLA 仍能保持 96.2% 的平均成功率,证明其事件接口没有破坏原本的 RGB-语言动作路径。
真正的差异出现在低可见度环境中。

在 LIBERO-Cross 的 LL-Severe 设置下,也就是 RGB 图像遭遇严重低光照、噪声和运动模糊时,RGB-only 方法的性能明显下滑。MM-ACT 的平均成功率为 69.6%,OpenVLA-OFT 为 61.2%,而 Event-VLA 仍然保持 95.6% 的平均成功率。这个结果非常直观地说明:当 RGB 不再可靠时,事件残差成为动作预测的重要支撑。
消融实验也进一步证明,提升并不只是来自“多加了一个传感器”。在 LL-Severe 设置下,没有事件输入时平均成功率只有 60.6%;使用 time surface 可提升到 91.2%;而 PREI 进一步提升到 95.6%。在接口设计上,统一 token 编码虽然也能达到 95.1%,但带来显著更高的延迟开销;Event-VLA 的 query routing 达到 95.6%,额外延迟仅约 2.157 ms,在性能和效率之间取得了更好的平衡。

更重要的是,论文还进行了真实机器人部署。研究团队在 Franka Research 3 机械臂上,使用 DAVIS 事件相机、ZED 相机和 Orbbec 相机,评估正常、低光照和近黑暗三类条件。在真实环境中,Event-VLA 的平均成功率达到 65.0%,明显高于 RGB 基线;尤其在 near-dark 条件下,Event-VLA 成功率达到 52.5%,而对比方法仅为 15.0% 和 12.5%。
这说明 Event-VLA 不只是一个模拟环境里的优化技巧,而是在真实事件相机和真实机器人平台上,也展现出了面向部署的潜力。


Event-VLA 的价值:为具身智能补上“恶劣视觉条件”这一课
Event-VLA 的意义,不只是提出了一个新的多模态融合模块。更重要的是,它把 VLA 鲁棒性问题从“模型能力不够强”重新表述为“感知条件不总可靠”。
过去,很多 VLA 工作关注如何让模型理解更多指令、泛化到更多任务、生成更复杂动作。但当机器人走出稳定光照的实验室,它首先面对的可能不是更复杂的语言,而是更糟糕的视觉输入。
Event-VLA 给出的答案是:不要让 VLA 只依赖“看清楚”的 RGB 图像,而要让它学会利用动作发生时的物理变化。
它以 PREI 将事件流整理成动作相关的残差表示,以 action-conditioned routing 将事件信息注入动作路径,同时保留预训练 VLA 的语义能力。这种设计让事件相机不再只是一个额外传感器,而成为 VLA 在低可见度场景下的“动作感知补偿器”。
当然,论文也坦诚指出了当前限制:LIBERO-Cross 中的事件输入依赖 RGB-to-event 模拟器,真实评估的任务和环境规模仍有限;同时,事件相机硬件和同步也会增加系统部署复杂度。但作为一次面向真实世界鲁棒操作的探索,Event-VLA 已经清楚地展示了一个方向:未来的机器人不应只在光照充足时聪明,也应在黑暗、噪声和模糊中保持可靠。
当 RGB 图像逐渐失去颜色、纹理和边界,Event-VLA 让机器人仍能抓住那些微弱却关键的变化。它不是让机器“看得更亮”,而是让机器学会在看不清的时候,依然知道该如何行动。
总结
Event-VLA 是一个面向低光照和视觉退化场景的事件增强 VLA 框架,它通过 PREI 表示动作时刻的事件残差,并利用动作条件化的 query routing 将事件信息注入动作生成路径,在保留预训练 VLA 语义能力的同时,大幅提升机器人在低光照、近黑暗环境下的操作鲁棒性。
推荐阅读 :
