开源王炸！WALL-OSS 打破机器人 “纸上谈兵” 困局性能直接干翻 PI 公司 π0 模型

欢迎关注具身智能大讲堂

9月8日自变量机器人甩出王炸，宣布开源WALL-OSS端到端基础模型，这不是普通模型，而是行业内首个专门面向物理世界交互的端到端具身智能统一模型。

简单说，这个模型的优势在于：依靠大规模多模态预训练，它既能看懂场景、听懂指令，又能把语言和动作精准绑定，动手操作稳定性很强。更突出的是，它通过紧密耦合的架构和多策略训练，将指令推理、拆分子任务、细化动作等流程，在一个可微分框架里无缝完成，中间没有衔接问题。

最关键的是，官方公布的测试结果显示，WALL-OSS 在多个指标上，性能超过了 PI 公司的 π0 模型。

1► WALL-OSS成功破解空间交互能力问题

机器人为啥总停留在实验室，没法像手机电脑一样走进千家万户？核心卡壳在 “举一反三” 的能力上——模型泛化性太差了。

你看现在的大模型多猛，语言和视觉领域都玩出花了，但一到 “看懂三维空间”“动手干活” 这些事儿上，就像被点了穴。这也是为啥ChatGPT这类语言模型再能聊，也直接操控不了机器人的胳膊腿。

就算是Gemini 2.5、GPT-5这种能同时处理文字和图像的全能选手，目前也还是 “纸上谈兵” ，它们没法真的摸到、碰到物理世界，更没法根据互动调整自己，连个能落地的动作指令都生成不出来。说白了，如果“理解动作、生成动作” 这关过不去，通用人工智能（AGI）就还很远。

2► 为啥会这样？三个坎儿绕不开

第一，数据和模态跟不上。视觉模型早就学会过滤杂音、抓核心信息了，文字和图片在海量网络数据里泡久了，单拎出来或者混着用都挺溜。但机器人的动作是在三维空间里随时间连续变化的，怎么提取这种动作的关键特征，之前研究得太少；而且动作和文字语义怎么对应上，也缺海量数据来练。更麻烦的是，现实场景里的指令往往很抽象，比如 “把桌子收拾干净”，这跨模态的翻译难度可不是一般大。

第二，训练的 “素材” 不对味。语言模型在文字堆里练够了，理解机器人需要的语义还行；但视觉方面就拉胯了 —— 机器人 “看” 世界是第一人称视角，跟网上那些随便拍的图片完全不是一回事。用这些不搭边的素材练出来的模型，到了真实场景里自然抓瞎。

第三，训练目标南辕北辙。语言模型和图文模型练的是 “猜下一个词 / 画面”，目标是离散的；可机器人的动作轨迹是连续的高频信号，得用扩散模型这类专门的方法建模。硬把这两种目标凑一起，只会让语言和动作 “对不上暗号”，泛化能力更差。

WALL-OSS 模型直接甩出三个大招，把机器人听懂指令+动手干活的难题撕开了个口子。

先看架构方面，WALL-OSS采用了混合专家紧密耦合的独特设计。现在主流的视觉 - 语言 - 动作模型要么搞大一统，要么搞各管一摊，但WALL-OSS模型却不一样。它给不同训练任务配了专属的前馈网络，就像给翻译、导航、动手这些活儿分了专门的小秘书，跨模态协作效率直接拉满。

将视觉语言模型（VLMs）迁移至动作建模

这么一来，既不会像大一统设计那样，让动作训练干扰到原本视觉-语言模型的肌肉记忆，也不会像各管一摊那样，让视觉和语言沦为动作生成的背景板，导致机器人听不懂复杂指令。

资讯配图

训练方法分两步走。第一步灵感阶段，先把成熟的视觉-语言模型的核心组件拿过来复用，通过具身视觉问答（比如问杯子在桌子左边还是右边）让机器人练出空间推理的本事，同时塞入离散动作目标让它先对抬手、弯腰这类动作有个大概认知。到了第二步整合阶段，直接把离散动作预测换成更高级的流匹配，先冻结视觉-语言模型只练动作相关的流头，再解冻整体一起优化，相当于让视觉、语言、动作三个模块彻底打通任督二脉。

训练和推理流程

更牛的是，WALL-OSS搞出了统一跨层次思维链。以前的思维链推理宽度不够，现在直接拓宽到从抽象语义到具体动作的全链条——比如从收拾桌子这个指令，一路细化到先拿起杯子放到茶几，再把书本摞好。关键是这一切都在一个可微分的框架里完成，不像以前的多模块系统那样，因为模块之间的接口不兼容导致误差越积越大。这么一来，机器人处理长流程任务的成功率和听话程度都飙升了。

值得一提的是，WALL-OSS模型手里还攥着个一张王牌，它构建了一个以 “具身” 为核心的多源数据集，时长直接干过10000小时。这里面既有自己攒的机器人动作数据，也有开源的动作素材，还有多模态的视觉问答内容。简单说，自家数据保证了质量和任务复杂度，开源数据帮着提升跨场景、跨环境的适应力，视觉问答数据则专门强化“看 + 说”的能力，顺便给空间、时间推理能力打基础。

在所有评估任务中与前沿策略的性能对比。

左图：分布内（ID）性能对比。右图：分布外（OOD）性能对比

实测数据更能说明问题。在机器人动作准确性和泛化性的比拼中，WALL-OSS不管是数据充足还是数据有限的情况，都比π0表现更优。尤其是在零样本指令跟随任务里，面对没见过的物体指令，WALL-OSS的任务进度依旧能保持高位，泛化能力甩了π0一截。

再看长流程任务，比如摆桌子、整理卧室这类需要拆解步骤的活儿，WALL-OSS靠着自带的子任务生成和思维链推理，把π0远远甩在身后。π0在这些场景里常犯 “阶段性失忆”的毛病，要么反复做同一个动作，要么漏了步骤，而WALL-OSS却能一步接一步稳稳推进。

积木拼写任务中的指令跟随准确率

在拼细节的积木拼写任务里，差距更明显。WALL-OSS对字母块的识别和摆放准确率远超π0，尤其是字母类任务，WALL-OSS 的正确率能达到87%，而π0才9%，几乎是随机乱摆的水平。这波对决，WALL-OSS 算是把π0按在地上摩擦了。

3► 结语与未来：

WALL-OSS靠着紧密耦合的架构设计、创新的两阶段训练策略、统一跨层次思维链，再加上精心攒出来的多源数据集，直接把视觉-语言模型和具身智能之间的那道鸿沟给填平。在理解真实场景、生成动作、听指令干活这些事儿上，WALL-OSS都表现得相当能打。目前这套开源模型已在GitHub以及huggingface两个开源平台上线。

开源地址：https://github.com/X-Square-Robot/wall-x

END