点击下方卡片，关注【Xbotics具身智能实验室】公众号

更多具身干货，欢迎加入（戳我）

👉具身智能学习资料汇总：https://github.com/Xbotics-Embodied-AI-club/Xbotics-Embodied-Guide

👉具身智能求职/实习信息汇总：https://github.com/Xbotics-Embodied-AI-club/Xbotics-Embodied-AI-Job

你想要的这里都有~~

具身智能是一场肉眼可见的万亿生意，融资月月刷屏。但如果你去问那些真正在工厂、仓库、家庭场景里部署过机器人的工程师，他们会告诉你一个尴尬的事实：

同一个模型，在实验室固定工位上成功率95%，换一个相机角度、换一个机器人底座位置、甚至只是把桌子挪了20厘米，成功率就可能腰斩。

这不是某个模型的bug，而是当前整个VLA技术路线的系统性问题。而这个问题，正在成为具身智能商业化落地最被低估的障碍。

在讨论这个问题怎么解决之前，有一个重要的产业节点值得先讲清楚。

BEV进入具身：一个被低估的产业转折点

在自动驾驶领域，BEV（Bird's-Eye View，鸟瞰图）早已成为标配。2019年前后，特斯拉和一批自动驾驶公司发现，与其让模型分别处理多个摄像头的透视图，不如先把所有传感器信息“提升”到一个统一的俯视空间里，再做检测、跟踪和规划。这个转变，直接推动了自动驾驶感知系统的代际升级。

但在机器人操作领域，BEV长期缺席。

直到Dexterity-BEV这项工作出现，BEV才首次被系统性地引入具身智能的策略学习。这个引入，直接改写了具身智能的底层游戏规则。论文作者是跨维智能的算法团队。就在上周，正是这支队伍在WorldArena Track 2赛道正面硬刚英伟达、谷歌，以明显分差登顶全球第一。

在BEV进入具身之前，VLA模型本质上是在二维图像上做操作决策。 多视角图像各说各话，相机动一动模型就懵。BEV的引入，相当于给具身智能装上了一套“空间操作系统”——所有相机观测、所有机器人动作，都被投影到同一张俯视工作底图上。视角变化被归一化，坐标系混乱被统一。

可以说，这次将BEV引入具身，让整个赛道从此进入了一个新的快车道。 如果说之前的VLA是在“照片上做动作”，BEV引入后的VLA开始真正在“空间里做动作”。这条路线一旦跑通，异构机器人共享策略、跨场景零样本泛化，就不再是口号，而是有了工程底座。

坐标系里的万亿生意 | 从WorldArena全球第一到BEV重构具身基建：跨维智能正在铸造这个赛道最硬的护城河图1

BEV整体架构图

从这个节点出发，我们再来看VLA当前面临的问题和解决路径，会看得更清楚。

VLA的“降维打击”，打到了自己身上

过去两年，VLA模型的快速崛起，很大程度上得益于2D视觉语言模型的溢出效应。π0、Gr00t这些头部模型，无一例外都继承了互联网规模预训练的VLM作为backbone。

这条路线的逻辑是清晰的：既然大模型已经在互联网图文上学会了理解“杯子”、“桌子”、“倒水”这些概念，那再往上接一个action head，理论上就能让机器人看懂图片并输出动作。

但这个逻辑有一个隐蔽的裂缝。VLM擅长的是语义理解，不是几何推理。

它知道你面前的是“杯子”，但很难精确判断杯子相对于机械臂末端的三维位置。而机器人操作恰好是一个几何问题——你差5毫米，抓取就失败了。你差5度，拧瓶盖就滑了。

更致命的是，真实部署中，相机位置、机器人底座、桌面布局几乎不可能保持训练时的状态。而RGB图像对视角变化高度敏感：同一个杯子，正前方拍摄在图像中间，斜上方拍摄可能在左下角。对纯2D模型来说，这是完全不同的输入分布。

这就是为什么BEV的引入如此关键。 它从根本上改变了输入表示的性质：不再让模型面对一堆视角各异的透视图，而是让所有观测先映射到同一张俯视空间地图上。这个转变，让模型从“死记相机角度”的困境中解脱出来，开始学习真正的空间关系。

坐标系混乱：跨本体泛化的隐形天花板

如果说视角问题是感知层面的障碍，那坐标系混乱就是控制层面的更深层问题。

不同机器人厂商、不同数据集、不同实验室，对同一个“抓取”动作的表达方式可能完全不同。有的用7个关节角，有的用末端执行器的6DoF位姿，有的相对于机器人base frame，有的相对于桌面world frame，有的左右臂各用各的局部坐标系。

这就好比，同样一句话“往左走三步”，在不同的地图软件里，指向的是完全不同的目的地。因为每个软件对“左”的定义不一样。

在双臂机器人场景中，这个问题更严重。左右臂往往各自拥有独立的子坐标系，它们之间的base offset无法被模型直接感知。模型不得不从数据里“猜”左右手之间的空间关系。

这带来一个反直觉的结论：在很多情况下，堆更多数据不一定让模型更强，反而可能把更多无关的坐标差异喂进去，让模型更困惑。

而Dexterity-BEV通过BEV的引入，给出了一个根本性的解法：把动作也翻译成BEV底图上的绝对位姿，让不同机器人、不同数据集的“抓取”变成同一个数学语言。这个让无数团队掉坑的隐形天花板，第一次被系统性地炸掉了。

Dexterity-BEV 的产业启示：建一层“空间翻译层”

Dexterity-BEV的核心思想可以浓缩成一句话：不放弃2D VLM的预训练红利，但在输入和输出之间强制插入一层3D空间对齐。

坐标系里的万亿生意 | 从WorldArena全球第一到BEV重构具身基建：跨维智能正在铸造这个赛道最硬的护城河图2

BEV如何通过顶点图和顶点谱，在2D基础上加入3D位置信息

首先，它给每一个RGB像素补充三维坐标信息。利用深度图和相机内外参，把每个像素点反投影到真实三维空间中，形成aligned vertex map。不同相机看到的同一个物理点，在这个map里被映射到同一个空间位置。

其次，它选择BEV作为统一的“工作空间底图”。把多相机观测投射到一个俯视平面上，形成一张标准化的BEV image。这是BEV首次被用于机器人操作策略学习。 无论相机从什么角度拍摄，这张俯视图都保持稳定——杯子在桌面上的位置、机械臂和物体的相对关系，一目了然。

最后，也是最关键的一步：把机器人的动作也翻译成这张底图上的绝对位姿。

从产业角度看，这相当于在所有异构机器人之上建了一层统一的“空间翻译层”，让整个赛道从此进入了一个新的快车道。让整个行业看到了一个清晰的路径：如果这套管线能够固化，异构机器人就可以共享策略，极大地降低从一个本体迁移到另一个本体的成本。

未来竞争：数据集的“几何一致性”决定模型上限

Dex-BEV这篇文章最重的工作在数据处理pipeline。

它涉及相机内参外参的统一标定、GUI手动3D对齐、ICP点云配准、用视觉基础模型补全缺失深度、注册高质量URDF模型、统一TCP定义、对轨迹做跨数据集的时间和空间重采样……

这些东西毫无性感可言，但它们是将来把竞争对手直接关在门外的铜墙铁壁。未来机器人数据集不能再只存RGB图像、语言指令和动作标签了。一个真正可用的高质量数据集，至少应该包含：相机内外参、深度图或可恢复的深度信息、机器人URDF、统一TCP定义、末端执行器在统一坐标系下的SE(3)轨迹、多视角时间同步信息。

以后标注数据，不能只标“成功了还是失败了”，还必须标“在以什么坐标系、相对于哪个参考系做动作”。谁有能力把多来源、多形态、多机器人平台的数据，清洗和重构成几何一致的高质量样本，谁就能在基础模型竞争中占据难以撼动的高点。模型结构可以追赶，但数据管线的工程量、经验积累和工具链成熟度，不是短期能复制的。

现实门槛与演进方向

当然，Dexterity-BEV当前的方案也有门槛。

它依赖相对完善的相机外参标定。在完全非结构化的环境中，外参标定本身就是一个难题。

下一步的关键突破方向是calibration-free BEV lifting——让模型通过端到端学习或结合视觉基础模型，自动恢复相机参数和空间结构，减少对显式标定硬件的依赖。

但论文作者也给出了一个非常诚实的判断：目前视觉基础模型的精度，距离可靠、实时、反应式的机器人控制还有距离。它们可以帮助补全数据，但暂时不能完全取代管线式的几何对齐。

这个判断本身就是有价值的。它告诉行业：短期内，工程化的数据管线仍然是必须投入的硬功夫。

结语

具身智能行业正站在一个残酷的分水岭上。之前还在疯卷模型参数，真正的赢家已经在疯狂搭建数据空间基础设施。

跨维这次将BEV系统性地引入具身，并为此构建了从3D对齐到统一SE(3)动作表示的完整管线，本质上是在定义这波万亿浪潮的底层操作系统。

这不只是一篇论文，而是一张通往真实规模化部署的门票。从此以后，谁能用几何一致的标准化数据喂出跨本体、跨场景的通用策略，谁就能吃掉具身智能最大的一块蛋糕。

这听起来不够惊艳，但这就是最深的护城河，也是最值钱的护城河。

跨维智能的Dexterity-BEV在真实双臂机器人平台测试视频

-END-

Ask Me Anything｜提问箱

❝
对文章有疑惑，或想聊更深？欢迎把你的问题丢给我们：技术方案、实操踩坑、课程与资料、项目合作、职业发展，都可以问。
怎么问：在评论区留言，或私信公众号
我们会做什么：每周集中整理高质量问题并公开回复，重点问题邀请作者或嘉宾深度解答；典型问题会加入知识库并持续更新。
提问小提示：尽量说明「你的目标—当前做法—期望产出」，附上必要信息（硬件/软件版本、数据规模等），能更快获得有用答案。
一起把问题变成知识，推动社区进步 🚀

坐标系里的万亿生意 | 从WorldArena全球第一到BEV重构具身基建：跨维智能正在铸造这个赛道最硬的护城河图3