AAAI 2026杰出论文奖 | ReconVLA：具身智能领域首次获得

AAAI 2026杰出论文奖 | ReconVLA：具身智能领域首次获得图1

作者丨机器之心

编辑丨具身智能之心

本文只做学术分享，如有侵权，联系删文

在长期以来的 AI 研究版图中，具身智能虽然在机器人操作、自动化系统与现实应用中至关重要，却常被视为「系统工程驱动」的研究方向，鲜少被认为能够在 AI 核心建模范式上产生决定性影响。

而 ReconVLA 获得 AAAI Outstanding Paper Awards，释放了一个清晰而重要的信号：让智能体在真实世界中「看、想、做」的能力，已经成为人工智能研究的核心问题之一。

1月30日（周五）晚19:30，我们很荣幸能邀请到AAAI 2026最佳论文ReconVLA的第一作者宋文轩，做客“具身智能之心”直播间。

本次直播将聚焦一个核心议题：抛开参数堆砌，回归操作任务的本质。

这是具身智能（Embodied Intelligence / Vision-Language-Action）方向历史上，首次获得 AI 顶级会议 Best Paper 的研究工作。这是一次真正意义上的 community-level 认可：不仅是对某一个模型、某一项指标的认可，更是对具身智能作为通用智能核心范式之一的肯定。

论文标题：ReconVLA: Reconstructive Vision-Language-Action Model as Effective Robot Perceiver
论文地址：https://arxiv.org/abs/2508.10333
论文代码：https://github.com/Chowzy069/Reconvla

VLA 模型关键瓶颈：机器人真「看准」了吗？

近年来，Vision-Language-Action（VLA）模型在多任务学习与长时序操作中取得了显著进展。然而，我们在大量实验中发现，一个基础但被长期忽视的问题严重制约了其性能上限：视觉注意力难以稳定、精准地聚焦于任务相关目标。

以指令「将蓝色积木放到粉色积木上」为例，模型需要在复杂背景中持续锁定「蓝色积木」和「粉色积木」。但现实中，许多 VLA 模型的视觉注意力呈现为近似均匀分布，不同于人类行为专注于目标物体，VLA 模型容易被无关物体或背景干扰，从而导致抓取或放置失败。

已有工作主要通过以下方式尝试缓解这一问题：

显式裁剪或检测目标区域（Explicit Grounding）
预测目标边界框作为中间输出（COT Grounding）

然而，这些方法并未从根本上改变模型自身的视觉表征与注意力分配机制，提升效果有限。

ReconVLA：重建式隐式视觉定位的新范式

为解决上述瓶颈，我们提出 ReconVLA，一种重建式（Reconstructive）Vision-Language-Action 模型。其核心思想是：

不要求模型显式输出「看哪里」，而是通过「能否重建目标区域」，来约束模型必须学会精准关注关键物体。

在 ReconVLA 中，动作预测不再是唯一目标。在生成动作表征的同时，模型还需要完成一项辅助任务：

重建当前时刻所「凝视」的目标区域 ----- 我们称之为 Gaze Region。

这一重建过程由轻量级扩散变换器（Diffusion Transformer）完成，并在潜在空间中进行高保真复原。由于要最小化重建误差，模型被迫在其内部视觉表示中编码关于目标物体的精细语义与结构信息，从而在注意力层面实现隐式而稳定的对齐。

这一机制更接近人类的视觉凝视行为，而非依赖外部检测器或符号化坐标监督。

方法概览

ReconVLA 的整体框架由两个协同分支组成：

1. 动作预测分支：模型以多视角图像、自然语言指令与机器人本体状态为输入，生成动作 token，直接驱动机器人执行操作。

2. 视觉重建分支：利用冻结的视觉 tokenizer，将指令关注的目标区域（Gaze region）编码为高保真潜在 token。主干网络额外输出同维度的重建 token，并以此作为条件，引导扩散去噪过程逐步复原目标区域的视觉表示。

重建损失在像素与潜在空间层面为模型提供了隐式监督，使视觉表征与动作决策在训练过程中紧密耦合。

大规模重建预训练

为赋予 ReconVLA 稳定的视觉重建与泛化能力，我们构建了一个大规模机器人预训练数据集：

数据规模：超过 10 万条交互轨迹，约 200 万张图像。
数据来源：BridgeData V2、LIBERO、CALVIN 等开源机器人数据集。
自动化标注：利用微调后的 Grounding DINO 或 Yolo 等方式，从原始图像中自动生成指令对应的目标物体区域（Gaze region），用于重建监督。