ICRA 2026 维也纳释放的信号：具身智能不拼单点，原力灵机押注的是一整套系统

点击下方卡片，关注“具身智能之心”公众号

6月5日，维也纳。IEEE国际机器人与自动化会议（ICRA 2026）在多瑙河畔圆满结束。据知，该届大会主题是"Robots for All"，86个国家和地区的8000多位学者与产业人士涌入会场，这是机器人学界一年一度规格最高的集结。

逛完大半个展区后，有一个展台让我们停留时间远超预期——Dexmal 原力灵机。原因很简单：一家成立仅一年多的公司，在ICRA上同时亮出了自研大模型、开源框架、真机评测平台、学术论文和商业落地案例，并且每一项拿出来，技术细节都经得起追问。

带着"挨个拆"的心态，我们仔细看了看。

Part01

背景：

这帮人从哪来，想做什么

原力灵机核心班底来自旷视科技。

旷视的基因在这个团队身上很明显：大规模分布式训练的工程能力、AI算法研究的学术底子、以及把技术做成产品再批量交付的落地经验。这个组合在纯视觉AI公司里不稀奇，但放到具身智能领域里——既要训大模型、又要搞机器人控制、还要把方案塞进真实产线——就相当稀缺了。

他们的核心主张是"具身原生"（Embodiment-Native）。

这不是一个marketing词汇，而是一个明确的技术路线选择。当下VLA领域的主流做法，是用通用的预训练VLM（比如用海量互联网图文数据训出来的多模态模型）作为backbone，再在下游接入action head进行微调。这条路的优势是启动快、数据丰富，但原力灵机认为它有结构性缺陷：

通用VLM的预训练目标和具身任务之间存在根本性的gap。 模型在预训练阶段学到的是"看图说话"的表征，而不是"如何理解物理世界中力、空间和运动的关系"。后期无论怎么微调，这个底层表征的偏差都很难完全消除。

所以原力灵机的选择是：从数据采集、训练范式、到模型架构，全部以真实物理世界中的机器人作业为第一设计原则，从零训练一个为具身场景原生构建的模型。

这条路更重、更慢、启动门槛更高，但他们赌的是天花板更高。

Part02

DM0：

为什么2.4B参数能跑赢更大的模型

展台上最吸引技术讨论的是DM0——原力灵机的具身原生大模型，在RoboChallenge真机评测中位居全球第一。

拆开它的技术核心，有三层东西值得细看。

多源异构数据联合预训练

DM0联合阶跃星辰和千里科技，做了一件行业里此前没人做过的事：将机器人多感知数据、智能驾驶数据和互联网数据三类完全不同模态、不同分布的数据，在同一个模型中联合训练。

这里面的技术挑战不小。三类数据的采样频率不同（机器人操作数据通常是30-50Hz的连续轨迹，智驾数据有自己的时间戳逻辑，互联网数据是离散的图文对）、标注体系不同、甚至坐标系都不统一。要把它们揉进同一个训练pipeline并且让模型真正从中受益，数据工程和训练策略上需要大量的对齐工作。

但收益也很明确：

机器人数据提供精细的操作轨迹和力反馈信号，教模型"怎么动手"；
智驾数据提供大规模的3D空间理解和动态物体运动预测能力，教模型"怎么理解空间"；
互联网数据提供海量的语义知识和常识推理能力，教模型"怎么理解世界"。

三类数据形成互补，让DM0在训练数据的规模和多样性上，远超任何一家只用自有机器人数据的公司。

多任务、跨本体统一建模

DM0覆盖了灵巧操作、环境导航、全身控制三大核心任务类型，并且在8类不同的机器人本体上进行联合训练。

"8类本体联合训练"这件事的技术含义是：模型的action space并不绑定某一个特定的机械结构。不同机器人的自由度数量、关节类型、末端执行器形态都不一样，DM0需要学到的是操作任务的底层结构（task structure），而非某一台机器的运动学参数。

用原力灵机的说法——"让模型忘掉电机参数，学到操作的本质。"

从技术实现上看，这意味着模型在action表征层面做了某种形式的抽象和解耦——它输出的不是直接的关节角指令，而是更高层的操作意图，再由下游的本体适配层映射到具体的执行空间。这使得同一个模型，换一个从未见过的机器人本体时，适配成本大幅降低。

物理空间思维链 + 2.4B的参数效率

DM0最"反直觉"的一点：只有2.4B参数，任务成功率却大幅超越行业内参数量大得多的模型。

它的做法是将思维链推理（Chain-of-Thought）延伸到物理空间，形成"感知→空间推理→决策→动作"的连贯链路。模型不是一步到位地从图像映射到动作，而是中间经历了显式的空间推理过程——物体在哪、障碍物怎么分布、下一步该往哪个方向施力、力度多大。

这种设计让模型在处理长程连续任务时尤其稳定——不会在第三步抓对了、第四步就偏了，因为每一步都有推理链在"盯着"全局状态。操作精度突破亚毫米级。

2.4B参数能做到这个效果，本身就是对"具身原生"路线的一个很强的验证：当数据、架构、训练范式全部对齐"真实物理世界"这一个目标时，你不需要用几百亿参数去"暴力拟合"，较小的模型就能达到甚至超越更大模型的性能。这在边缘部署和实时控制上的意义不言而喻——2.4B的推理延迟和算力需求，跟70B完全不是一个量级。

据悉，原力灵机即将推出DM系列的下一代模型DM0.5，主攻泛化能力的进一步突破——目标是成为当前具身大模型中泛化能力最强的版本。如果说DM0已经在真机评测中证明了"具身原生"路线的上限，那么DM0.5显然要把这个上限继续往上推。具体的技术细节尚未完全披露，但从DM0的架构演进逻辑来看，更大规模的跨域数据、更强的本体泛化机制、以及更精细的推理链路，大概率是核心升级方向。这个模型一旦放出来，行业又有新的硬仗要打。

Part03

Dexbotic：

模块化的具身原生框架

如果说DM0是一个训好的模型，Dexbotic就是"用来训模型"的那套基础设施。

它的定位是"具身智能时代的PyTorch"——全球第二、国内唯一的通用具身智能开源框架，目前已服务清华、北大、普林斯顿、帝国理工等数十家机构以及腾讯等企业，汇聚了超千位开发者。

从技术架构上看，Dexbotic有五个值得关注的设计特征：

第一，多源数据混合训练管线。 支持用同一套pipeline融合互联网多模态数据、自动驾驶数据和机器人实操数据。数据对齐、格式统一、采样策略这些脏活累活，框架帮你处理。

第二，操作与导航的统一建模。 不把manipulation和navigation当作两个独立任务分别建模，而是在框架层面就将端到端操作、长时序任务规划、导航算法和泛化微调统一覆盖，让机器人的"手、眼、脑、步"在一个闭环里运转。

第三，模仿学习 + 强化学习的接力机制。 Dexbotic负责VLA预训练与监督微调（模仿学习阶段），其配套的RLinf模块承接强化学习后训练。从"学会通用常识"到"把成功率刷上去"，两步走通。

第四，模块化解耦架构。 将Vision Encoder、LLM和Action Expert三个核心组件解耦，每个模块可以独立升级。换一个更强的视觉编码器？换一个更大的语言模型？换一个不同的动作生成头？在Dexbotic里都不需要推翻重来。这也使得快速适配不同的模型和不同的机器人本体变得可行。

第五，标准化的全流程工具链。 从数据清洗标注、到训练调参、到benchmark评测、到硬件适配、到真机部署，Dexbotic提供了一套统一的标准流程，大幅降低每个环节的重复造轮子成本。

一句话概括：它试图把"训一个能用的具身大模型"这件事，从"只有少数顶级团队才能搞定的手艺活"变成"按照标准流程就能跑通的工程问题"。

Part04

IntentionVLA：

隐式意图推理的新突破

ICRA的论文Poster环节，原力灵机展示了一篇学术工作——IntentionVLA，由原力灵机和中科院自动化所联合完成。

它瞄准的是VLA领域一个已知但尚未被很好解决的问题：隐式意图推理。

ICRA 2026 维也纳释放的信号：具身智能不拼单点，原力灵机押注的是一整套系统图2

原力灵机汪天才在ICRA现场做论文讲解

论文链接：https://arxiv.org/abs/2510.07778

问题定义

当前SOTA的VLA模型几乎都遵循同一个范式：预训练阶段在大规模多模态数据上做通用任务（图像描述、VQA等），微调阶段学"指令→动作"的映射。这个pipeline里，模型从头到尾都只被训练来处理显式指令——你得说清楚"做什么"、"对哪个物体"、"放到哪里"。

但真实的人机交互不是这样的。人会说"我待会儿要开会"（意思是帮我把笔记本和咖啡准备好）、"这个房间有点乱"（意思是去收拾一下）。这类隐式意图需要模型做两件事：1) 推断出人的真实目标；2) 把这个目标分解为可执行的动作序列。

现有VLA模型干不了这事，根本原因有两个：

预训练阶段的多模态任务跟具身场景关联有限，模型缺乏推理密集型的训练经验；
微调阶段只做"指令→动作"的直接映射，没有建立推理引导操作的能力。

方法：课程式训练 + 高效推理

IntentionVLA的解法是一个课程式训练范式（curriculum training paradigm）：

阶段一：推理能力注入。用精心设计的推理数据集，训练模型同时完成三件事——意图推断（intent inference）、空间定位（spatial grounding）、和紧凑的具身推理（compact embodied reasoning）。这一步让模型获得"想明白"的能力。

阶段二：推理引导微调。在action微调阶段，将第一阶段的紧凑推理输出作为条件信号（context），注入到动作生成过程中。这样做的好处是：推理提供了高层次的任务理解作为引导，同时推理链路本身是紧凑的（不是那种冗长的CoT），不会显著增加推理延迟。

这个设计的精巧之处在于：它把"思考"和"执行"拆成了两个耦合但可分别优化的阶段，而不是像之前的工作那样把所有东西混在一个end-to-end的loss里。

实验结果

IntentionVLA的实验表现相当扎实。在直接指令场景下，它的任务成功率比π0高出18个百分点——这说明即使在不需要推理的"常规模式"下，课程式训练带来的表征增强也在持续起作用。而在意图指令场景下，也就是需要模型自己去推断用户真正想要什么的情况下，IntentionVLA比此前处理类似问题最好的方案ECoT高出了28个百分点，差距已经不是"微调trick能弥补"的量级了。

更值得注意的是分布外泛化能力。在训练阶段完全没见过的OOD意图任务上，IntentionVLA的成功率超过了所有基线方法的两倍以上。这说明课程式训练确实让模型学到了可迁移的推理能力——它不是在训练集里记住了几种固定的意图模式然后做模板匹配，而是真正具备了面对新情境时"从第一性原理出发去推断意图"的泛化性。

最后一个数据同样让人印象深刻：在零样本人机交互场景中——即模型从未针对这类任务做过任何专门训练——IntentionVLA依然达到了40%的成功率。零样本条件下接近一半的成功率，意味着这套推理机制已经具备了相当的开放世界适应能力，距离"真正可用的自然人机交互"又近了一步。

从技术趋势上看，IntentionVLA指向的方向很明确：下一代VLA的竞争焦点，不只在action质量上，更在reasoning能力上。 谁能让机器人"想明白再动手"，谁就能在真实场景的复杂交互中占据优势。

Part05

RoboChallenge：

8万次真机测试背后的评测标准

RoboChallenge是原力灵机与Hugging Face联合发起的全球首个大规模真机评测平台，目前也是全球最大的。

已有智元、星海图、星动纪元等近20家具身智能企业联合运营，累计完成全球超8万次真机测试，阿里千问、小米、千寻智能等均参与其中。

为什么这件事重要？

具身智能领域有一个长期困扰所有人的问题：仿真和真机之间的sim-to-real gap，让benchmark数字的参考价值大打折扣。 在MuJoCo或Isaac Sim里跑出99%的成功率，一上真机可能直接对折。这导致不同公司、不同模型之间缺乏一个可信的横向对比基准。

RoboChallenge的核心价值就在这里——所有评测都在真实物理机器人上完成，没有仿真滤镜。 你的模型到底能不能稳定抓取、能不能处理光照变化、能不能应对物体摆放的随机性，全由物理世界给答案。

ICRA 2026 维也纳释放的信号：具身智能不拼单点，原力灵机押注的是一整套系统图3

RoboChallenge ICRA Competition 2026颁奖现场

ICRA2026期间，Dexmal × AGIBOT联合举办的RoboChallenge ICRA Competition 2026宣告收官。获奖队伍被邀请到维也纳现场，原力灵机联合创始人汪天才现场颁奖并做了学术分享。

这场比赛的技术含金量体现在两个层面：

一是任务设计。 不再是桌面抓取的单步demo，而是完整的商超场景全链路操作闭环：自主导航至货架→精细化取货→移动至推车→放置商品。这意味着模型需要同时具备导航规划、精细操作、长程任务管理的综合能力，任何一个环节掉链子整个任务就失败。

二是评测方式。 全程通过API远程接入，选手的算法直接驱动真实物理机器人进行实测。代码写完提交，机器人实时执行，结果当场出。没有人工干预的余地，也没有挑"最好那一次"的机会。

这种评测标准如果能在行业里立住，对所有从业者都是好事——至少大家终于有了一把共同认可的尺子。

Part06

技术落地的商业闭环

最后要说的是原力灵机的商业落地板块——AI原生的物流机器人仓储方案商。

它把不同类型的机器人融合到一条完整的仓储链路中，覆盖"存—搬—拣"全流程：从货物入库的自动存储、到跨库区的自动搬运、再到精细的分拣操作，用AI调度将各环节打通。

目前已服务的客户包括优衣库和宁德时代。这两个名字代表了两种完全不同的仓储场景——前者是服装电商的高SKU、高频次、柔性拣选需求；后者是制造业的高精度、高可靠性、重载搬运需求。能同时服务这两类客户，说明方案本身的通用性经受住了真实产业场景的验证。

从技术闭环的角度看，物流机器人解决方案的价值不仅是"在赚钱"——它还意味着原力灵机拥有一个持续产生真实场景数据的渠道。仓储机器人每天跑的每一趟任务，都是高质量的具身数据来源，这些数据反过来又能喂给DM0和Dexbotic做迭代训练。

模型→框架→评测→落地→数据回流→模型升级——这个飞轮，至少在逻辑上已经闭合了。

Part07

写在最后

在ICRA 2026的展区里逛了几天，看了足够多的展台和demo。回过头来看原力灵机的东西，有一个判断逐渐清晰：

这家公司不是在做某一个"点"的技术突破，而是在搭一个"系统"。

DM0是模型层的竞争力，Dexbotic是基础设施层的生态入口，RoboChallenge是评测标准层的话语权，IntentionVLA是前沿研究层的技术储备，物流机器人是商业层的造血能力和数据来源。五个板块咬合在一起，形成了一个自洽的技术-商业系统。

这种打法的风险不言而喻——面铺得太广、资源分散、每条线都可能被专注做某一件事的对手超越。但它的优势在于：一旦各模块之间的协同效应真正跑起来（框架降低模型训练门槛→平台扩大评测覆盖→落地场景反哺数据→数据驱动模型升级），形成的壁垒就不再是某一个单点的benchmark分数，而是一个不断加速的系统。

成立一年，还太早下定论。但从ICRA 2026现场呈现出的技术密度来看，这家公司至少已经证明了一件事：

"具身原生"这条路，不只是一个理念，它是可以出成果的。

至于这些成果最终能转化为多大的产业价值，时间会给答案。

END