点击下方卡片,关注“具身智能之心”公众号

6月5日,维也纳。IEEE国际机器人与自动化会议(ICRA 2026)在多瑙河畔圆满结束。据知,该届大会主题是"Robots for All",86个国家和地区的8000多位学者与产业人士涌入会场,这是机器人学界一年一度规格最高的集结。
逛完大半个展区后,有一个展台让我们停留时间远超预期——Dexmal 原力灵机。原因很简单:一家成立仅一年多的公司,在ICRA上同时亮出了自研大模型、开源框架、真机评测平台、学术论文和商业落地案例,并且每一项拿出来,技术细节都经得起追问。
带着"挨个拆"的心态,我们仔细看了看。
Part01
背景:
这帮人从哪来,想做什么
原力灵机核心班底来自旷视科技。
旷视的基因在这个团队身上很明显:大规模分布式训练的工程能力、AI算法研究的学术底子、以及把技术做成产品再批量交付的落地经验。这个组合在纯视觉AI公司里不稀奇,但放到具身智能领域里——既要训大模型、又要搞机器人控制、还要把方案塞进真实产线——就相当稀缺了。
他们的核心主张是"具身原生"(Embodiment-Native)。
这不是一个marketing词汇,而是一个明确的技术路线选择。当下VLA领域的主流做法,是用通用的预训练VLM(比如用海量互联网图文数据训出来的多模态模型)作为backbone,再在下游接入action head进行微调。这条路的优势是启动快、数据丰富,但原力灵机认为它有结构性缺陷:
通用VLM的预训练目标和具身任务之间存在根本性的gap。 模型在预训练阶段学到的是"看图说话"的表征,而不是"如何理解物理世界中力、空间和运动的关系"。后期无论怎么微调,这个底层表征的偏差都很难完全消除。
所以原力灵机的选择是:从数据采集、训练范式、到模型架构,全部以真实物理世界中的机器人作业为第一设计原则,从零训练一个为具身场景原生构建的模型。
这条路更重、更慢、启动门槛更高,但他们赌的是天花板更高。
Part02
DM0:
为什么2.4B参数能跑赢更大的模型
展台上最吸引技术讨论的是DM0——原力灵机的具身原生大模型,在RoboChallenge真机评测中位居全球第一。
拆开它的技术核心,有三层东西值得细看。
多源异构数据联合预训练
DM0联合阶跃星辰和千里科技,做了一件行业里此前没人做过的事:将机器人多感知数据、智能驾驶数据和互联网数据三类完全不同模态、不同分布的数据,在同一个模型中联合训练。
这里面的技术挑战不小。三类数据的采样频率不同(机器人操作数据通常是30-50Hz的连续轨迹,智驾数据有自己的时间戳逻辑,互联网数据是离散的图文对)、标注体系不同、甚至坐标系都不统一。要把它们揉进同一个训练pipeline并且让模型真正从中受益,数据工程和训练策略上需要大量的对齐工作。
但收益也很明确:
机器人数据提供精细的操作轨迹和力反馈信号,教模型"怎么动手";
智驾数据提供大规模的3D空间理解和动态物体运动预测能力,教模型"怎么理解空间";
互联网数据提供海量的语义知识和常识推理能力,教模型"怎么理解世界"。
三类数据形成互补,让DM0在训练数据的规模和多样性上,远超任何一家只用自有机器人数据的公司。
多任务、跨本体统一建模
DM0覆盖了灵巧操作、环境导航、全身控制三大核心任务类型,并且在8类不同的机器人本体上进行联合训练。
"8类本体联合训练"这件事的技术含义是:模型的action space并不绑定某一个特定的机械结构。不同机器人的自由度数量、关节类型、末端执行器形态都不一样,DM0需要学到的是操作任务的底层结构(task structure),而非某一台机器的运动学参数。
用原力灵机的说法——"让模型忘掉电机参数,学到操作的本质。"
从技术实现上看,这意味着模型在action表征层面做了某种形式的抽象和解耦——它输出的不是直接的关节角指令,而是更高层的操作意图,再由下游的本体适配层映射到具体的执行空间。这使得同一个模型,换一个从未见过的机器人本体时,适配成本大幅降低。
物理空间思维链 + 2.4B的参数效率
DM0最"反直觉"的一点:只有2.4B参数,任务成功率却大幅超越行业内参数量大得多的模型。
它的做法是将思维链推理(Chain-of-Thought)延伸到物理空间,形成"感知→空间推理→决策→动作"的连贯链路。模型不是一步到位地从图像映射到动作,而是中间经历了显式的空间推理过程——物体在哪、障碍物怎么分布、下一步该往哪个方向施力、力度多大。
这种设计让模型在处理长程连续任务时尤其稳定——不会在第三步抓对了、第四步就偏了,因为每一步都有推理链在"盯着"全局状态。操作精度突破亚毫米级。
2.4B参数能做到这个效果,本身就是对"具身原生"路线的一个很强的验证:当数据、架构、训练范式全部对齐"真实物理世界"这一个目标时,你不需要用几百亿参数去"暴力拟合",较小的模型就能达到甚至超越更大模型的性能。这在边缘部署和实时控制上的意义不言而喻——2.4B的推理延迟和算力需求,跟70B完全不是一个量级。
据悉,原力灵机即将推出DM系列的下一代模型DM0.5,主攻泛化能力的进一步突破——目标是成为当前具身大模型中泛化能力最强的版本。如果说DM0已经在真机评测中证明了"具身原生"路线的上限,那么DM0.5显然要把这个上限继续往上推。具体的技术细节尚未完全披露,但从DM0的架构演进逻辑来看,更大规模的跨域数据、更强的本体泛化机制、以及更精细的推理链路,大概率是核心升级方向。这个模型一旦放出来,行业又有新的硬仗要打。
Part03
Dexbotic:
模块化的具身原生框架
如果说DM0是一个训好的模型,Dexbotic就是"用来训模型"的那套基础设施。
它的定位是"具身智能时代的PyTorch"——全球第二、国内唯一的通用具身智能开源框架,目前已服务清华、北大、普林斯顿、帝国理工等数十家机构以及腾讯等企业,汇聚了超千位开发者。
从技术架构上看,Dexbotic有五个值得关注的设计特征:
第一,多源数据混合训练管线。 支持用同一套pipeline融合互联网多模态数据、自动驾驶数据和机器人实操数据。数据对齐、格式统一、采样策略这些脏活累活,框架帮你处理。
第二,操作与导航的统一建模。 不把manipulation和navigation当作两个独立任务分别建模,而是在框架层面就将端到端操作、长时序任务规划、导航算法和泛化微调统一覆盖,让机器人的"手、眼、脑、步"在一个闭环里运转。
第三,模仿学习 + 强化学习的接力机制。 Dexbotic负责VLA预训练与监督微调(模仿学习阶段),其配套的RLinf模块承接强化学习后训练。从"学会通用常识"到"把成功率刷上去",两步走通。
第四,模块化解耦架构。 将Vision Encoder、LLM和Action Expert三个核心组件解耦,每个模块可以独立升级。换一个更强的视觉编码器?换一个更大的语言模型?换一个不同的动作生成头?在Dexbotic里都不需要推翻重来。这也使得快速适配不同的模型和不同的机器人本体变得可行。
第五,标准化的全流程工具链。 从数据清洗标注、到训练调参、到benchmark评测、到硬件适配、到真机部署,Dexbotic提供了一套统一的标准流程,大幅降低每个环节的重复造轮子成本。
一句话概括:它试图把"训一个能用的具身大模型"这件事,从"只有少数顶级团队才能搞定的手艺活"变成"按照标准流程就能跑通的工程问题"。
Part04
IntentionVLA:
隐式意图推理的新突破
ICRA的论文Poster环节,原力灵机展示了一篇学术工作——IntentionVLA,由原力灵机和中科院自动化所联合完成。
它瞄准的是VLA领域一个已知但尚未被很好解决的问题:隐式意图推理。

原力灵机汪天才在ICRA现场做论文讲解
论文链接:https://arxiv.org/abs/2510.07778
问题定义
当前SOTA的VLA模型几乎都遵循同一个范式:预训练阶段在大规模多模态数据上做通用任务(图像描述、VQA等),微调阶段学"指令→动作"的映射。这个pipeline里,模型从头到尾都只被训练来处理显式指令——你得说清楚"做什么"、"对哪个物体"、"放到哪里"。
但真实的人机交互不是这样的。人会说"我待会儿要开会"(意思是帮我把笔记本和咖啡准备好)、"这个房间有点乱"(意思是去收拾一下)。这类隐式意图需要模型做两件事:1) 推断出人的真实目标;2) 把这个目标分解为可执行的动作序列。
现有VLA模型干不了这事,根本原因有两个:
预训练阶段的多模态任务跟具身场景关联有限,模型缺乏推理密集型的训练经验;
微调阶段只做"指令→动作"的直接映射,没有建立推理引导操作的能力。
方法:课程式训练 + 高效推理
IntentionVLA的解法是一个课程式训练范式(curriculum training paradigm):
阶段一:推理能力注入。 用精心设计的推理数据集,训练模型同时完成三件事——意图推断(intent inference)、空间定位(spatial grounding)、和紧凑的具身推理(compact embodied reasoning)。这一步让模型获得"想明白"的能力。
阶段二:推理引导微调。 在action微调阶段,将第一阶段的紧凑推理输出作为条件信号(context),注入到动作生成过程中。这样做的好处是:推理提供了高层次的任务理解作为引导,同时推理链路本身是紧凑的(不是那种冗长的CoT),不会显著增加推理延迟。
这个设计的精巧之处在于:它把"思考"和"执行"拆成了两个耦合但可分别优化的阶段,而不是像之前的工作那样把所有东西混在一个end-to-end的loss里。
实验结果
IntentionVLA的实验表现相当扎实。在直接指令场景下,它的任务成功率比π0高出18个百分点——这说明即使在不需要推理的"常规模式"下,课程式训练带来的表征增强也在持续起作用。而在意图指令场景下,也就是需要模型自己去推断用户真正想要什么的情况下,IntentionVLA比此前处理类似问题最好的方案ECoT高出了28个百分点,差距已经不是"微调trick能弥补"的量级了。
更值得注意的是分布外泛化能力。在训练阶段完全没见过的OOD意图任务上,IntentionVLA的成功率超过了所有基线方法的两倍以上。这说明课程式训练确实让模型学到了可迁移的推理能力——它不是在训练集里记住了几种固定的意图模式然后做模板匹配,而是真正具备了面对新情境时"从第一性原理出发去推断意图"的泛化性。
最后一个数据同样让人印象深刻:在零样本人机交互场景中——即模型从未针对这类任务做过任何专门训练——IntentionVLA依然达到了40%的成功率。零样本条件下接近一半的成功率,意味着这套推理机制已经具备了相当的开放世界适应能力,距离"真正可用的自然人机交互"又近了一步。
从技术趋势上看,IntentionVLA指向的方向很明确:下一代VLA的竞争焦点,不只在action质量上,更在reasoning能力上。 谁能让机器人"想明白再动手",谁就能在真实场景的复杂交互中占据优势。
Part05
RoboChallenge:
8万次真机测试背后的评测标准
RoboChallenge是原力灵机与Hugging Face联合发起的全球首个大规模真机评测平台,目前也是全球最大的。
已有智元、星海图、星动纪元等近20家具身智能企业联合运营,累计完成全球超8万次真机测试,阿里千问、小米、千寻智能等均参与其中。
为什么这件事重要?
具身智能领域有一个长期困扰所有人的问题:仿真和真机之间的sim-to-real gap,让benchmark数字的参考价值大打折扣。 在MuJoCo或Isaac Sim里跑出99%的成功率,一上真机可能直接对折。这导致不同公司、不同模型之间缺乏一个可信的横向对比基准。
RoboChallenge的核心价值就在这里——所有评测都在真实物理机器人上完成,没有仿真滤镜。 你的模型到底能不能稳定抓取、能不能处理光照变化、能不能应对物体摆放的随机性,全由物理世界给答案。

RoboChallenge ICRA Competition 2026颁奖现场
ICRA2026期间,Dexmal × AGIBOT联合举办的RoboChallenge ICRA Competition 2026宣告收官。获奖队伍被邀请到维也纳现场,原力灵机联合创始人汪天才现场颁奖并做了学术分享。
这场比赛的技术含金量体现在两个层面:
一是任务设计。 不再是桌面抓取的单步demo,而是完整的商超场景全链路操作闭环:自主导航至货架→精细化取货→移动至推车→放置商品。这意味着模型需要同时具备导航规划、精细操作、长程任务管理的综合能力,任何一个环节掉链子整个任务就失败。
二是评测方式。 全程通过API远程接入,选手的算法直接驱动真实物理机器人进行实测。代码写完提交,机器人实时执行,结果当场出。没有人工干预的余地,也没有挑"最好那一次"的机会。
这种评测标准如果能在行业里立住,对所有从业者都是好事——至少大家终于有了一把共同认可的尺子。
Part06
技术落地的商业闭环
最后要说的是原力灵机的商业落地板块——AI原生的物流机器人仓储方案商。
它把不同类型的机器人融合到一条完整的仓储链路中,覆盖"存—搬—拣"全流程:从货物入库的自动存储、到跨库区的自动搬运、再到精细的分拣操作,用AI调度将各环节打通。
目前已服务的客户包括优衣库和宁德时代。这两个名字代表了两种完全不同的仓储场景——前者是服装电商的高SKU、高频次、柔性拣选需求;后者是制造业的高精度、高可靠性、重载搬运需求。能同时服务这两类客户,说明方案本身的通用性经受住了真实产业场景的验证。
从技术闭环的角度看,物流机器人解决方案的价值不仅是"在赚钱"——它还意味着原力灵机拥有一个持续产生真实场景数据的渠道。仓储机器人每天跑的每一趟任务,都是高质量的具身数据来源,这些数据反过来又能喂给DM0和Dexbotic做迭代训练。
模型→框架→评测→落地→数据回流→模型升级——这个飞轮,至少在逻辑上已经闭合了。
Part07
写在最后
在ICRA 2026的展区里逛了几天,看了足够多的展台和demo。回过头来看原力灵机的东西,有一个判断逐渐清晰:
这家公司不是在做某一个"点"的技术突破,而是在搭一个"系统"。
DM0是模型层的竞争力,Dexbotic是基础设施层的生态入口,RoboChallenge是评测标准层的话语权,IntentionVLA是前沿研究层的技术储备,物流机器人是商业层的造血能力和数据来源。五个板块咬合在一起,形成了一个自洽的技术-商业系统。
这种打法的风险不言而喻——面铺得太广、资源分散、每条线都可能被专注做某一件事的对手超越。但它的优势在于:一旦各模块之间的协同效应真正跑起来(框架降低模型训练门槛→平台扩大评测覆盖→落地场景反哺数据→数据驱动模型升级),形成的壁垒就不再是某一个单点的benchmark分数,而是一个不断加速的系统。
成立一年,还太早下定论。但从ICRA 2026现场呈现出的技术密度来看,这家公司至少已经证明了一件事:
"具身原生"这条路,不只是一个理念,它是可以出成果的。
至于这些成果最终能转化为多大的产业价值,时间会给答案。
