8 大具身基准 7 夺 SOTA！华为诺亚 OmniEVA，按需3D+实体约束，拉高上限？

资讯配图

从2D丝滑过渡至3D

机器人能在 2D 场景完成简单识别，却难应对 3D 堆叠、杂乱环境导航？

能规划出逻辑通顺的任务步骤，却因忽略机械臂可达范围、物体摆放空间等，在真实场景中 “寸步难行”？

这是当前多数模型，忽视真实机器人物理约束时，所面临的核心瓶颈！

这篇来自华为诺亚方舟实验室的工作OmniEVA，正瞄准这两大痛点 —— 以 Task-Adaptive 3D 接地机制动态调控 3D 融合，用实体感知推理框架融入物理约束。

我们开设此账号，想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外，也想和大家一起见证它到底是泡沫还是又一场热浪？

欢迎关注【深蓝具身智能】👇

资讯配图

为什么需要OmniEVA？

OmniEVA 的设计初衷，是针对具身智能中最常见的两大困境：

几何适配性缺口、具身约束缺口。

前者让模型在二维和三维任务之间徘徊，无法兼顾视觉语义和空间理解；后者则让推理结果脱离现实，机器人明明规划出了“合理”的方案，却因超出机械臂的工作空间或忽视物体遮挡而根本无法执行。

研究团队认为，想要让大模型真正落地到机器人身上，必须同时解决：何时需要三维与执行是否真的可行，这两大核心问题。

为此，论文提出了 OmniEVA 框架：

资讯配图

▲图1｜OmniEVA 的模型结构。左图展示了 OmniEVA 的整体架构，其核心在于一种新颖的任务自适应门控路由器，能够动态引入三维位置嵌入。中图展示了门控路由器模块的具体实现方式。右图给出了该门控路由器在不同任务中激活状态的示例©️【深蓝具身智能】编译

一方面，它通过任务自适应三维 Grounding（TAGR）机制，在需要空间推理时动态注入三维位置先验，而在仅依赖视觉语义时则保持轻量，从而避免冗余计算与性能牺牲；
另一方面，它引入具身感知推理，在规划过程中显式考虑任务目标与机器人本体的物理约束，确保推理出的计划既聪明又可执行。

接下来，本解读将依次展开：

（1）深入解析 OmniEVA 的方法设计，看看 TAGR 如何决定“要不要加三维”，以及具身感知推理如何将物理限制融入决策；

（2）总结实验结果与图表发现，观察它在问答、描述、指令执行等任务上的表现；

OmniEVA 的核心设计

任务自适应三维 Grounding（TAGR）

（1）模块作用与位置

TAGR 是整套框架里连接“任务需求”和“场景空间复杂度”的动态路由器，用来有选择地注入三维位置信息（3D positional encoding）。

它不把 3D 信息“一刀切”地加到所有任务上，而是按需打开或关闭。

（2）Patch 级三维位置编码（Patch-Level 3D PE）

编码过程如下：

先用相机参数把每一帧深度图投影到世界坐标系，得到每个像素对应的三维坐标；
与视觉编码器的图像 patch 划分对齐：把三维坐标也按同样的 patch 网格切分；
对每个patch 内的三维坐标求平均，得到“patch 级”的三维位置；
再将这些三维位置转换为与视觉 token 维度一致的向量，作为patch 级三维位置编码；
对多帧输入重复上述流程，最终得到与图像特征对齐、可与视觉流融合的 3D 位置特征。

资讯配图

（3）基于门控的动态 3D 注入（Gated Routing）

TAGR 的决策来自两类条件：

① 任务条件：把指令文本编码成一个任务向量，用来表达“这次任务到底需不需要三维推理”；

② 场景条件：把视觉特征在空间和时间上做全局聚合，得到一个“场景复杂度”的描述。

将任务向量与场景向量拼接后，送入一个轻量的感知-决策模块，输出一个二元门控信号：

① 门开：在视觉流里注入显式三维空间线索；

② 门关：只用二维视觉信息，不额外引入 3D。

这个门控可以理解成一种“专家混合（MoE）”的开关：

① “纯视觉专家”：仅用原始视觉 token；

② “融合专家”：用“视觉 token + 3D 位置编码”的混合表示。

最终输出的混合视觉表示与文本 token 一起送入大语言模型，生成响应。

（4）预训练

TAGR 先在“带深度感知”的数据上做预训练，目标是把输出对齐到标注答案。为了让门控稳定且可解释，训练时加入一个对门控分布的正则（以均衡先验为参照），防止门长期偏向某一状态。

预训练完成后，TAGR 参数被冻结，后续训练阶段不再改动。

资讯配图

专为具身任务设计的训练框架 (Embodiment-Aware Training Strategy)

为把“感知—推理—执行”统一到多样的具身任务里，论文提出了一个两阶段训练范式：

先打好“具身推理”底座，再通过“任务 & 具身约束”的强化微调，让模型学会生成可执行的计划。

资讯配图

▲图3｜OmniEVA 的训练范式。该方法采用两阶段级联方式逐步提升具身智能：第一阶段侧重构建广泛的推理基础，第二阶段将其落实到物理现实中，最终实现跨越多种真实场景的稳健任务执行©️【深蓝具身智能】编译

（1）全监督的具身推理微调

阶段目标

先建立一个稳健的“推理骨干”，让模型具备跨模态、跨时空的理解与推理能力。

数据构成包含两部分内容：

① 通用具身推理数据

覆盖 2D 图像、视频序列、3D 环境等多模态输入；任务包含空间关系指代、时间推理、视觉定位、场景描述、想象式补全等；

目的：强化时空推理与多模态理解的综合能力。

② 自建具身任务数据

在现有基准（如 Where2Place、PACO-LVIS）之外，拓展到导航、操作、复合任务；

重点考查：可供性预测、抓取可行性、主动探索等；

每个任务都带链式思考（CoT）标注，包括任务分解与决策理由，作为“热启动”，帮助模型内化结构化规划策略，为下一阶段的“具身优化”打好基础。

资讯配图

▲图4｜训练数据集的构成©️【深蓝具身智能】编译

（2）任务和部署感知强化微调

很多方法只追求“语义对不对”，忽略了“能不能执行”。TE-GRPO 的目标，是让模型输出既任务对齐、又物理可行的计划。

奖励构成（在原有“思考—回答”的格式奖励之外，新增两类关键反馈）

① 任务一致性奖励：评估回答是否满足任务语义要求，不涉及物理约束；例如指点任务里，指向是否落在目标区域内。

② 具身可行性奖励：评估计划在机器人约束下能否执行；例如是否满足运动学与可达性、是否被环境阻挡等（在模拟器内验证）。

二者分别对应两种优化目标：

前者更贴近离线评测的语义表现；后者直指真实执行的成功率。

（3）渐进式具身课程（Curriculum）

训练中采用从易到难的调度：早期更关注“语义正确”；随着训练推进，逐步提高“具身可行”的权重；

促使模型从“会说对”过渡到“会做对”，加速收敛并让策略更贴近现实约束。

（4）优化细节（概念化说明）

采用带截断更新与分布约束的策略优化范式（类似具有剪切项与 KL 正则的稳定更新），避免策略一步跳太大导致训练不稳；

每轮会对同一提示生成多份候选，按综合优势更新策略；

通过这套“任务+具身”的强化微调流水线，模型从“感知理解”逐步进化到“物理落地执行”，在多样真实场景中形成更可靠的规划与表现。

实验解析

评测设置与研究问题

本章围绕三件事评估方法有效性：

（1）动态三维 Grounding 是否增强多模态推理？机制如何起作用？
（2）具身感知推理是否在需要真实执行的任务上提高成功率？如何适配物理约束？
（3）能否通过组合原子能力，完成长时序任务？

具身推理基准（2D / 3D）

2D 输入的具身推理基准（四个）：Where2Place、VSI-bench、PACO-LVIS、RoboRefit。

覆盖静态图像与动态视频，考查空间/时间理解与多模态推理。

原子能力到下游任务的桥接评测（四个）：

① Where2Go：从多视角中选择下一最佳视角，在部分可观测环境里定位目标（贴近大空间目标搜寻）。

资讯配图

② Where2Fit：在桌面上预测可放置的二维点集合，需考虑位置、尺寸、碰撞等约束（对应 Mobile Placement-Easy）。

资讯配图

③ Where2Approach：识别不被椅子遮挡的可接近桌面空位，兼顾遮挡、底盘/机械臂约束（对应 Mobile Placement-Hard）。

资讯配图

④ Where2Grasp：按颜色、大小、位置、类别识别目标，强调以物体为中心的识别（对应 Mobile Pickup）。

资讯配图

3D 输入的具身推理基准（四个）：SQA3D、ScanQA、Scan2Cap、ScanRefer。

覆盖3D问答、场景描述与3D视觉定位，检验模型在富几何结构场景中的推理能力。

模拟器中的端到端评测

在一个 3000m² 办公环境上构建三类逐级难度评测（8类核心场景、95个常见物品类别）：

（1）Large-Space Object Seeking：

目标导航，评估在大空间中定位给定目标的能力。

（2）Local Mobile Manipulation：

30+ 场景，底盘位姿多样、物体类型/大小/位置多样。

Mobile Pickup：在多样桌面/场景中抓取目标。
Mobile Placement：分 Easy/Hard：

Easy：只需根据桌面占用情况确定放置点（同 Where2Fit 设置）。

Hard：需先确定底盘最优位姿，同时受桌面物品与周围椅子等环境约束（同 Where2Approach 设置）。

评估包含导航至目标位姿、规划安全放置轨迹与完成率。

（3）End-to-End Delivery：

在整层办公室中完成端到端物品递送；指标为整体成功率与平均完成时长。

动态三维 Grounding：跨多模态基准的验证

（1）对比基线

硬编码 3D：所有任务一律注入3D特征（常见于既有3D LLM路线）。
无 3D：完全视作传统2D MLLM。

结果：方法在 4 个任务中有 3 个领先，平均提升 1.22%；说明“按需注入三维”优于“始终/从不注入三维”，能在需要空间推理时发挥作用，而在不需要时避免额外负担，如图5所示。

资讯配图

▲图5｜对于TAGR模块的消融实验©️【深蓝具身智能】编译

（2）TAGR 何时被激活？

词触发统计

几何属性词（如 shape/square/rectangular）与空间动词（throwing/go/away）激活概率高；计数或泛化询问（many/nine）激活低——语言信号在一定程度上显式提示是否需要3D推理。

资讯配图

▲图6｜单词激活分析：不同提示类型的激活概率©️【深蓝具身智能】编译

定性案例：

案例一：问“桌子形状”为何，若出现“正方形/长方形”的歧义，3D门控激活概率更高（如 0.73）；

案例二：圆桌场景，二维线索足够时，激活概率较低（如 0.52）；

右侧两例为计数/颜色识别时门控不激活，体现 TAGR 能在不需要3D时自动省略。

资讯配图

▲图7｜训练数据集的构成©️【深蓝具身智能】编译

（3）与 SOTA 模型在 2D/3D 基准上的对比

2D 四基准：

在仅 8B 参数规模下，OmniEVA 全部达成 SOTA，平均 +10.45 超过上一代 SOTA（Robobrain-32B），并显著优于更大规模的 GPT-4o、Gemini-2.5-Pro 等。

资讯配图

▲图8｜对比实验定量结果©️【深蓝具身智能】编译

3D 四基准：

在 SQA3D / ScanQA / Scan2Cap 上分别领先（+2.3 / +0.3 / +8.5）；

在 ScanRefer（3D grounding）上总体略逊，但在纯文本 I/O的同等设置下达到 55.8，显著超过此前最佳 44.4（Spatial-3D-LLM），显示了端到端推理的稳健性与泛化能力。

导航下游：

预测 3D 子目标引导探索，SR/SPL 均超越 UniNavid，其中 SPL +5.4；

资讯配图

具身感知推理：从语义正确到可执行

（1）原子能力与下游任务上的量化结果

原子能力：

Where2Approach+28.95%；

Where2Fit+34.28%。

下游任务：

Mobile Placement：Easy +43%，Hard +50%。

资讯配图

（2）边界观察（抓取相关）

当低层抓取策略存在瓶颈时，r_embod 的作用会被掣肘：Where2Grasp 基准提升 +26.59%，但 Mobile Pickup 只有 +18.7%（靠 r_task），而仅靠 r_embod时无显著增益。

这表明：即使具身可行性信号到位，底层控制策略的泛化能力仍是最终能否成功执行的关键约束。

（3）对具身约束的适配过程

资讯配图

推理轨迹：

先做任务级分析（场景理解、常识性空间分析、文本定位可放置区域），再引入物理约束（可达性、工作空间边界）过滤候选，输出满足任务且可执行的放置区域。

对比：

未用 TE-GRPO 的模型也能识别桌面空位（任务层面可行），但常给出超出机械臂范围或执行效率较差的位置；

使用 TE-GRPO 的 OmniEVA 则更稳定地选择可达、可执行的区域。

长时序任务的组合与编排

在模拟器的 End-to-End Delivery 上验证：要求跨整层办公室完成端到端递送，评估整体成功率与平均完成时长；

通过将 Where2Go / Where2Approach / Where2Fit / Where2Grasp 等原子能力按需组合与排序，模型展现出面向真实流程的长时序执行能力。

总结

OmniEVA 通过任务自适应的三维 Grounding（TAGR），在确实需要空间/遮挡/几何推理时才按需注入 3D 位置信息；用具身感知的强化微调（TE-GRPO），把任务目标与机器人可达性、工作空间等物理约束写进训练与推理回路。

更重要的是，论文也给出了边界：

当底层抓取策略泛化不足时，具身约束奖励的收益会被削弱。

这为下一步的落地路线给出清晰指向——补齐低层技能的稳健性与泛化，继续打通从视觉语言理解到可执行控制的闭环。

面向实际应用，OmniEVA 的按需 3D 与具身约束范式，为“长时序、多约束、端到端”的机器人任务提供了一条可复制的工程路径。

各位读者觉得把这套思路接到自己的平台上，最先要补的短板会是哪一环：数据、算力，还是低层策略？

编辑｜阿豹

审编｜具身君

Ref

论文题目：Embodied Versatile PlAnner via Task-Adaptive3D-Grounded and Embodiment-aware Reasoning

论文地址：https://arxiv.org/pdf/2509.09332

项目地址：https://omnieva.github.io/

工作投稿｜商务合作｜转载

：SL13126828869（微信号）

>>>现在成为星友，特享99元/年<<<

【具身宝典】具身智能主流技术方案是什么？搞模仿学习，还是强化学习？｜看完还不懂具身智能中的「语义地图」，我吃了！｜你真的了解无监督强化学习吗？3 篇标志性文章解读具身智能的“第一性原理”｜解析｜具身智能：大模型如何让机器人实现“从冰箱里拿一瓶可乐”？｜盘点 | 5年VLA进化之路，45篇代表性工作！它凭什么成为具身智能「新范式」？动态避障技术解析！聊一聊具身智能体如何在复杂环境中实现避障

【技术深度】具身智能30年权力转移：谁杀死了PID？大模型正在吃掉传统控制论的午餐……｜全面盘点：机器人在未知环境探索的3大技术路线，优缺点对比、应用案例！｜照搬=最佳实践？分享真正的 VLA 微调高手，“常用”的3大具身智能VLA模型！机器人开源=复现地狱？这2大核武器级方案解决机器人通用性难题，破解“形态诅咒”！｜视觉-语言-导航（VLN）技术梳理：算法框架、学习范式、四大实践｜盘点：17个具身智能领域核心【数据集】，涵盖从单一到复合的 7 大常见任务类别｜｜90%机器人项目栽在本地化？【盘点】3种经典部署路径，破解长距自主任务瓶颈！｜VLA模型的「核心引擎」：盘点5类核心动作Token，如何驱动机器人精准操作？

【先锋观点】周博宇 | 具身智能：一场需要谦逊与耐心的科学远征｜许华哲：具身智能需要从ImageNet做起吗？｜独家｜ICRA冠军导师、最佳论文获得者眼中“被低估但潜力巨大”的具身智能路径｜独家解读 | 从OpenAI姚顺雨观点切入：强化学习终于泛化，具身智能将不只是“感知动作”

【非开源代码复现】非开源代码复现 | 首个能抓取不同轻薄纸类的触觉灵巧手-臂系统PP-Tac（RSS 2025）｜独家复现实录｜全球首个「窗口级」VLN系统：实现空中无人机最后一公里配送｜不碰真机也不仿真？（伪代码）伯克利最新：仅用一部手机，生成大规模高质量机器人训练数据！

我们开设此账号，想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外，也想和大家一起见证它到底是泡沫还是又一场热浪？‍

欢迎关注【深蓝具身智能】👇

【深蓝具身智能】的内容均由作者团队倾注个人心血制作而成，希望各位遵守原创规则珍惜作者们的劳动成果。

投稿｜商务合作｜转载：SL13126828869（微信）

点击❤收藏并推荐本文