Event-VLA：让机器人在黑暗中也能“看见”动作的线索

点击下方卡片，关注“具身智能之心”公众号

编辑丨具身智能之心
本文只做学术分享，如有侵权，联系删文

更多干货，欢迎加入国内首个具身智能全栈学习社区：(戳我)，这里包含所有你想要的。

当我们谈论具身智能时，常常默认一个前提：机器人能够清楚地看到世界。桌面上的杯子、抽屉的把手、机械臂末端与物体的接触位置，这些视觉信息构成了 Vision-Language-Action 模型理解任务、规划动作和执行操作的基础。

但现实世界并不总是这样理想。

灯光可能突然变暗，摄像头可能遇到噪声，运动中的手臂和物体可能产生模糊。对于人类来说，昏暗环境中的一个轮廓、一点移动痕迹，仍然足以帮助我们判断“物体在哪里”“手该往哪儿伸”。可对于许多依赖 RGB 图像的 VLA 模型来说，一旦画面中的纹理、颜色和边界被低照度破坏，原本稳定的语义 grounding 和动作预测就会迅速变得脆弱。

这正是 Event-VLA 试图解决的问题：不是让机器人在实验室的理想光照下表现更好，而是让它在真实世界里那些“不够明亮、不够干净、不够稳定”的场景中，依然能够可靠地完成操作。

从“看清世界”到“抓住变化”

现有 VLA 模型已经展现出强大的语言理解、视觉感知和动作生成能力。它们可以根据自然语言指令，结合图像观察，输出连续的机器人动作。然而，这类模型大多建立在一个隐含假设之上：RGB 图像足够清晰，视觉输入足够稳定。

问题在于，真实机器人部署时，这个假设经常失效。

低光照会吞掉颜色和纹理，传感器噪声会污染边缘，运动模糊会让物体轮廓变得不可靠。尤其在操作任务中，机器人真正需要的往往不是整幅图像的“漂亮外观”，而是动作发生时的局部物理变化：夹爪是否靠近物体，物体是否被推动，接触区域是否发生移动，边界是否还可追踪。

Event-VLA 的关键洞察就在这里：当 RGB 图像看不清时，事件相机仍然能捕捉到“变化”。

事件相机不是像普通相机那样一帧一帧记录绝对亮度，而是异步记录像素级亮度变化。它天然具有高动态范围、低延迟、对运动敏感等特点，因此在低照度、强动态或快速运动场景下，仍能保留边缘、轮廓和运动线索。换句话说，RGB 图像擅长提供语义外观，而事件流擅长捕捉动作时刻的物理残差。

Event-VLA 要做的，就是把这类“变化的线索”接入 VLA，让机器人在看不清颜色和纹理时，仍然能依据运动与边界信息稳定行动。

真正的难点：事件信息该接到哪里？

把事件相机接入 VLA，听起来似乎只是多加一个模态。但论文真正强调的是：问题不在于有没有事件信息，而在于事件信息应该如何进入模型。

一种直接做法是把事件 token 和 RGB、语言 token 一起塞进 VLA 的全局语义空间，让模型自己学习融合。但这会带来一个风险：预训练 VLA 原本已经形成了基于 RGB 和语言的语义先验，粗暴混入事件 token，可能扰乱原有的语义推理路径。

Event-VLA 没有选择这种“全局混合”的路线。它的设计原则更克制，也更贴近机器人操作本身：

语义理解继续交给预训练 VLA；事件信息只在动作生成路径中发挥作用。

也就是说，Event-VLA 不试图让事件流重新定义“这是什么物体”“这条指令是什么意思”，而是让事件流回答另一个更动作相关的问题：在当前动作时刻，哪些局部变化对下一步控制最重要？

这种设计让 Event-VLA 同时获得了两种能力：一方面保留预训练 VLA 的 RGB-语言语义先验，避免破坏原有能力；另一方面又把事件相机提供的动态物理线索注入动作预测，让模型在低光照下更稳。

PREI：把杂乱事件流变成动作可用的物理残差

原始事件流是稀疏、异步、时间不规则的。如果直接喂给 VLA，不仅难以对齐，还会增加建模复杂度。

为此，Event-VLA 提出了 PREI，即 Physical Residual Event Integration。它将事件历史压缩成紧凑的三通道物理残差图，用来描述动作时刻的不同变化线索：

第一类是瞬时变化，用来突出最近发生的机器人与物体运动；

第二类是显著变化，用来捕捉局部区域中更突出的事件活动，例如被操作物体附近的边缘变化；

第三类是持续痕迹，用来保留短时间内积累下来的轮廓结构，在 RGB 纹理和颜色退化时提供稳定参考。

这三个通道共同回答了一个问题：当画面变暗、纹理消失时，操作现场还有哪些“物理变化”值得机器人关注？

相比普通 event count 或 time surface 表示，PREI 不只是记录“哪里发生过事件”或“最近哪里有事件”，而是以多时间尺度整合动作相关残差信息。它更像是为 VLA 准备的一张动作线索地图，把事件相机捕捉到的高频变化，整理成模型可以高效利用的表示。

Action-Conditioned Event Interface：让动作来决定该看哪些事件

Event-VLA 的核心模块是 Action-Conditioned Event Interface。

它没有把事件 token 直接并入 VLA 主干的全局 self-attention，而是在 VLA 已经形成 RGB、语言、机器人状态和动作上下文之后，通过 gated cross-attention 和 query-guided routing，把事件信息选择性地注入动作表示。

这里的“选择性”非常关键。

机器人执行任务时，并不是所有事件变化都重要。灯光闪烁、背景噪声、无关区域的运动，都可能产生事件。Event-VLA 使用可学习的 action queries，从 VLA 的推理过程中提取任务相关的动作语义，再以动作需求为条件去聚合事件 token。也就是说，不是事件流主动打断语义空间，而是动作路径主动询问事件流：哪些变化对我下一步动作有用？

这种动作条件化的路由机制，使 Event-VLA 具备了更强的鲁棒性和更低的侵入性。

在正常光照下，它不会明显破坏原有 VLA 的表现；在低光照甚至近黑暗环境下，它又能调用事件残差信息，补上 RGB 图像丢失的边缘和运动线索。

从模拟到真实：黑暗中的成功率差距被拉开

Event-VLA 的实验并不是只停留在方法设计上。论文在 LIBERO、低可见度扩展基准 LIBERO-Cross，以及真实 Franka 机械臂平台上进行了验证。

在正常可见的 LIBERO benchmark 中，Event-VLA 平均成功率达到 96.5%，与 OpenVLA-OFT、ResVLA、MM-ACT 等强基线保持同一水平。这一点很重要，因为它说明加入事件路径并没有牺牲正常光照下的基础操作能力。即便在关闭事件路径的情况下，Event-VLA 仍能保持 96.2% 的平均成功率，证明其事件接口没有破坏原本的 RGB-语言动作路径。

真正的差异出现在低可见度环境中。

在 LIBERO-Cross 的 LL-Severe 设置下，也就是 RGB 图像遭遇严重低光照、噪声和运动模糊时，RGB-only 方法的性能明显下滑。MM-ACT 的平均成功率为 69.6%，OpenVLA-OFT 为 61.2%，而 Event-VLA 仍然保持 95.6% 的平均成功率。这个结果非常直观地说明：当 RGB 不再可靠时，事件残差成为动作预测的重要支撑。

消融实验也进一步证明，提升并不只是来自“多加了一个传感器”。在 LL-Severe 设置下，没有事件输入时平均成功率只有 60.6%；使用 time surface 可提升到 91.2%；而 PREI 进一步提升到 95.6%。在接口设计上，统一 token 编码虽然也能达到 95.1%，但带来显著更高的延迟开销；Event-VLA 的 query routing 达到 95.6%，额外延迟仅约 2.157 ms，在性能和效率之间取得了更好的平衡。

更重要的是，论文还进行了真实机器人部署。研究团队在 Franka Research 3 机械臂上，使用 DAVIS 事件相机、ZED 相机和 Orbbec 相机，评估正常、低光照和近黑暗三类条件。在真实环境中，Event-VLA 的平均成功率达到 65.0%，明显高于 RGB 基线；尤其在 near-dark 条件下，Event-VLA 成功率达到 52.5%，而对比方法仅为 15.0% 和 12.5%。

这说明 Event-VLA 不只是一个模拟环境里的优化技巧，而是在真实事件相机和真实机器人平台上，也展现出了面向部署的潜力。

Event-VLA 的价值：为具身智能补上“恶劣视觉条件”这一课

Event-VLA 的意义，不只是提出了一个新的多模态融合模块。更重要的是，它把 VLA 鲁棒性问题从“模型能力不够强”重新表述为“感知条件不总可靠”。

过去，很多 VLA 工作关注如何让模型理解更多指令、泛化到更多任务、生成更复杂动作。但当机器人走出稳定光照的实验室，它首先面对的可能不是更复杂的语言，而是更糟糕的视觉输入。

Event-VLA 给出的答案是：不要让 VLA 只依赖“看清楚”的 RGB 图像，而要让它学会利用动作发生时的物理变化。

它以 PREI 将事件流整理成动作相关的残差表示，以 action-conditioned routing 将事件信息注入动作路径，同时保留预训练 VLA 的语义能力。这种设计让事件相机不再只是一个额外传感器，而成为 VLA 在低可见度场景下的“动作感知补偿器”。

当然，论文也坦诚指出了当前限制：LIBERO-Cross 中的事件输入依赖 RGB-to-event 模拟器，真实评估的任务和环境规模仍有限；同时，事件相机硬件和同步也会增加系统部署复杂度。但作为一次面向真实世界鲁棒操作的探索，Event-VLA 已经清楚地展示了一个方向：未来的机器人不应只在光照充足时聪明，也应在黑暗、噪声和模糊中保持可靠。

当 RGB 图像逐渐失去颜色、纹理和边界，Event-VLA 让机器人仍能抓住那些微弱却关键的变化。它不是让机器“看得更亮”，而是让机器学会在看不清的时候，依然知道该如何行动。

总结

Event-VLA 是一个面向低光照和视觉退化场景的事件增强 VLA 框架，它通过 PREI 表示动作时刻的事件残差，并利用动作条件化的 query routing 将事件信息注入动作生成路径，在保留预训练 VLA 语义能力的同时，大幅提升机器人在低光照、近黑暗环境下的操作鲁棒性。

END