点击下方卡片,关注“具身智能之心”公众号
上个周末跟做具身算法的同学吃饭,他跟我聊了下近期数采行业的动态:
我们现在最缺的,不是成功数据,是高质量的失败数据。
我第一反应是想反驳他。这两年但凡聊具身,绕不开的就是数据。真机成功数据越多越好,采数据的外包一家接一家,大家比的是谁的干净轨迹多、飞轮转得快。怎么会缺失败数据?失败的轨迹,不都是该被第一时间过滤掉的废料吗?
他摇头,说了一句话:你想想人类学习的过程。
这话让我这两天认真调研了下。不止是他们,PI、Generalist,还有国内的智元,其实都在卷失败数据。更准确的说,是失败后纠错的数据。就像一个孩子学骑车,能让他记住的不是哪次没摔,是哪次摔了、怎么摔的;一个老师傅手稳,是因为他见过所有出岔子的瞬间,知道边界在哪。
换句话说,只见过成功的机器人,是最脆弱的机器人。
而今天我才发现,国内已经有人把这件事做到了底:数万条机器人「翻车」的记录(打滑、磕碰、飞溅)等等,被专门做成了一个数据库。靠着这套「失败数据库」,训练得到了 MWA™ 隐空间世界模型,今天登顶了 RoboCasa 全球第一。
这家公司,叫无界动力。他们昨天发布了全球首个“长时序双向物理因果链”隐空间世界模型——MWA™ 具身通用大脑,同时在由斯坦福大学等顶尖机构联合发起的具身智能权威榜单 RoboCasa GR1 TableTop 中刷新行业纪录、荣登全球第一,超越英伟达 GR00T-N1.6、大晓机器人 ACE-EGO-0、小鹏 DIAL、高德 ABot-M0 等行业主流模型。

自创立之初起,一直坚持“隐空间世界模型+强化学习”双轮驱动的技术路径:以“隐空间世界模型”建立“世界观”,认知客观世界的物理规律与因果关系,构筑起物理世界认知与未来状态预测的核心能力;以强化学习塑造“价值观”,基于高频的试错、解决与奖励,将对物理世界的深刻理解沉淀为改变现实的精准执行策略。
这条技术路径的选择,源于其基于第一性原理对具身大脑本质的思考与洞察:具身大脑的终极目标是让机器人拥有类人的世界认知建模能力,而非构建客观世界的完整复刻模型。真正的智能不需要在世界的像素层面(或微观层面)去一比一还原世界的所有冗余,而是应当像人类大脑一样,在高度抽象的隐空间中,直击物理因果与高维度常识的本质。
为拓展具身通用大脑在多元真实场景中的泛化边界,无界动力在“隐空间世界模型”的基础上,采用“双向动力学”架构,推出首个“长时序双向物理因果链”隐空间世界模型。MWA™ 摒弃了像素空间预测的冗余噪音与高算力消耗,全程在统一共享潜空间完成推演,实现高能效精准表征。同时,MWA™ 创新性地实现了时序 Chunk 级逆向动力学建模机制,突破传统世界模型“单步潜动作推理”的桎梏,重构逆向动力学模型的输出范式,使之具备长时序因果归纳能力,可批量推理输出连续多步 Latent Action Chunk 动作组,有效解决机器人长周期作业连贯、高精度执行难题。
在模型架构的突破创新基础之上,MWA™ 也正在全领域的真实场景中淬炼进化:从半结构化的工业产线到开放的商业空间,再到复杂多变的家庭环境,在这些极具挑战的实战中,机器人不仅将前沿的物理因果推理能力转化为切实的商业价值,更通过真实交互持续沉淀高价值数据,形成了“场景牵引—数据反哺—模型进化”的强劲飞轮效应,推动技术不断向更高阶跃迁。
01.
“隐空间世界模型+强化学习”:
双轮驱动的技术路径
长期以来,具身智能行业在技术路径上存在着激烈的范式交锋。其中,以端到端动作预测为核心的 VLA(视觉-语言-动作)大模型路线,曾凭借强大的语义联动能力推动了行业的早期迭代。然而,这种传统以语言为中介的具身模型架构,试图将连续的物理世界强行塞入离散的语义空间,其泛化天花板已然显现:当模型试图跨入高动态、多元化的严苛实体产业场景时,往往缺失对物理边界与规律的认知,从而失去了在多变场景中自主预测与长效进化的能力。
靠动作模仿和语义理解,无法让机器人拥有自主应对真实世界的能力,为大幅拓展机器人在多元真实场景中的应用边界,无界动力采用“隐空间世界模型+强化学习”双轮驱动的技术路径,让机器人真正建立起认知客观世界物理规律与因果关系的“世界观”,以及持续自主进化最终输出精准策略操作的“价值观”。

隐空间世界模型建立“世界观”的核心逻辑,在于它剥离了视觉表象,直击物理因果的本质。不同于视频生成类世界模型执着于预测“下一帧画面长什么样”,隐空间世界模型可以过滤掉与决策无关的像素细节,把注意力聚焦在物理世界的本质规律上,让机器人真正理解动作与物理世界变化之间的因果关系,从而构筑起物理世界认知与未来状态预测的核心能力。但仅仅理解物理世界还不够,机器人要走向多元场景落地,还需要强化学习来塑造其行动的“价值观”。如果说隐空间世界模型负责预判后果,强化学习则负责权衡利弊。在落地“零容错”的真实应用场景之前,强化学习已在真实交互中完成了高频的试错、解决与奖励,最终转化为对世界施加影响的精准策略操作。
“隐空间世界模型+强化学习”双轮驱动的技术路径,本质上完成了从“理解物理世界”到“输出精准控制策略”的闭环,在赋予机器人独立应对复杂未知环境能力的同时,不断自主迭代进化,从而将对物理世界的深刻理解沉淀为改变现实的精准执行力,赋能具身智能跨越多元场景,加速走向更大规模的应用落地。
02.
MWA™:首创“长时序双向物理因果链”隐空间世界模型
为进一步提升模型长程决策稳定性与因果推理精确性,无界首创“长时序双向物理因果链”隐空间世界模型——MWA™ 具身通用大脑,通过时序 Chunk 级逆向动力学建模机制,输出连续多步 Latent Action Chunk 动作组,为机器人在多元复杂场景下的长时间、连贯、精准的任务执行提供了全新的潜空间时序建模方案。
MWA™ 在“隐空间世界模型”的基础上,采用“双向动力学”架构,在具身通用大脑中建立起了一套正逆双向的逻辑协同。当面临海量无标注的多源异构数据时,逆动力学编码器负责“由果推因”的因果复盘,通过观察前后时序画面的空间结构变化,从时序画面中抽离出通用的抽象“场景交互变化表征”,自主将时序信号淬炼为通用的物理常识。预训练完成后,逆动力学编码器权重将被冻结,成为固定不变的通用物理评判基准,为后续策略训练提供稳定的潜态对齐目标。与此对应,正动力学解码器负责“脑内沙盘”的正向推演,将抽象动作表征注入视觉特征,正向推演未来场景可能发生的变化。通过一正一反的双向自监督机制,模型得以在抽象动作空间里反复校正预测偏差,确保了机器人决策的稳健性。
同时,MWA™ 进一步完成关键技术升级,首创“长时序双向物理因果链”隐空间世界模型,创新性地实现了时序 Chunk 级逆向动力学建模机制,突破行业传统单步瞬时潜动作推理的固有局限,可批量推理输出连续多步 Latent Action Chunk 动作组,首次实现长时序连续动作链推演与秒级完整操纵事件前置推演,从根本上补齐了传统世界模型长周期操控易误差累积、动作不连贯的技术短板。

“双向动力学”的高效运转,核心在于以潜动作(Latent Action)作为物理因果的“载体”,其本质是通过逆动力学编码器,将导致画面改变的动作转化为高维向量。该向量不对应特定的硬件控制序列,而是抽象、通用的“场景交互变化表征”。这种通用表征的引入,突破了具身通用大脑的两大训练瓶颈:一是摆脱了对动作标签的高度依赖,让模型仅凭观察前后画面变化就能“由果推因”,深度盘活了“无标签原始数据”,从互联网上的海量视频中自主汲取通用物理常识;二是天然约束了隐空间边界,让隐空间注意力完全聚焦于动态交互动作本身,让机器人的决策更精准,实现了数据能效的飞跃。

物理因果“载体”的建立,让 MWA™ 实现了“先练脑,再练手”的训练闭环。 在预训练阶段,模型可充分利用互联网上的海量无标注视频等数据,建立对客观世界的物理规律与因果关系的认知。在策略训练阶段,基于已沉淀的物理世界常识,同时通过融合强化学习,模型不再需要大量真机数据就能将抽象的“场景交互变化表征”精准映射为硬件本体的控制指令。这种两阶段的训练模式,打破了对“动作标签”的高度依赖,真正为具身通用大脑走向多元场景、规模化部署提供了清晰且可行的演进路径。
03.
AnyPhys for RL:
行业首创负样本核心数据体系
在构建“长时序双向物理因果链”隐空间世界模型的同时,MWA™ 从底层架构上原生适配强化学习机制,深度耦合强化学习训练范式,构建“物理因果建模 + 强化学习试错 + 边界认知进化”的全新具身智能进化逻辑。
目前,行业数据集普遍存在“重正轻负、样本单一”的共性问题,绝大多数由纯粹的正样本构成,或仅掺杂极少量的负样本。单一的样本结构无法支撑强化学习所需的稠密奖励训练,模型缺少多维度样本对照与边界约束,面对真实工况中的异常扰动时,极易因认知缺失陷入决策瘫痪、泛化能力不足。针对这一核心痛点,无界动力首创 AnyPhys 负样本核心数据体系,将深层负样本、细粒度边界失稳样本、用于策略对齐的次优样本与基准正样本深度交织,构建出高信息稠密性的物理边界坐标系,补齐了强化学习稠密训练所需的全维度样本短板。
之外,还摒弃了传统单一最大化成功奖励的模式,建了一套自动区分正、负、次优、边界样本的方法论,实现强化学习的复杂稠密奖励设计。无需额外人工标注,可充分复用带瑕疵的演示数据,显著增强机器人实操精度与泛化能力。例如在精密接插类任务中,基于机器人位姿搭建全局空间图,以末端三维距离为运动代价,求解抵达目标的最短路径,借助剩余路径距离量化动作进度,清晰辨别前进、倒退、停滞状态,实现自动对样本进行打分和分类。算法兼容离线模仿加权、在线稠密奖励两类训练场景,在高精密插接任务实测中,噪声数据下任务成功率最高提升 5 倍。

目前,AnyPhys 已累计沉淀数万条专属失败、失稳、临界边界样本,构建起覆盖绝大多数工业、商业及生活场景的物理失效知识库。依托该体系,无界动力得以通过海量打滑、磕碰、飞溅等失败轨迹反向推演物理临界阈值,精准建模不同工况下的物理稳定域,让每一次动作决策都有清晰的物理安全边界作为支撑。
04.
登顶具身智能权威榜单 RoboCasa
在由斯坦福大学等顶尖机构联合发起的具身智能权威榜单 RoboCasa GR1 TableTop 中,无界动力与中科院自动化所联合发布的首个隐空间世界模型 MWA™ - WALA 以 75.2% 的平均任务成功率刷新行业纪录、荣登全球第一,超越英伟达 GR00T-N1.6、大晓机器人 ACE-EGO-0、小鹏 DIAL、高德 ABot-M0 等行业主流模型。
实测数据显示,MWA™ - WALA 相比第二名模型任务成功率提升 2.4% ,同时在多步骤连贯操作、受限空间物件拿取、零散物件精准拾取等高频难点任务中表现尤为突出。

RoboCasa 涵盖多种非标厨房环境及交互物件,并引入强随机光影与杂物干扰,是目前检验具身通用大脑泛化能力最严苛的仿真测试基准之一。MWA™ - WALA 能在强不确定性中稳定作业,核心得益于其对无标签原始数据的深度激活。对比测试表明,MWA™ - WALA的全场景泛化能力大幅跃升,以实测数据验证了无标签海量数据训练在攻克具身通用大脑泛化瓶颈、推进多场景应用中的实际价值。

