
2026 年初,国内具身智能赛道掀起了一波开源潮,越来越多团队开始公开自己的视觉-语言-动作(VLA)模型、数据集与训练框架。与此同时,行业竞争也逐渐集中到 benchmark 成绩、任务成功率以及跨任务泛化能力上,尤其是在标准化或已训练任务中的表现。
这股竞赛背后藏着一个行业里心照不宣的困境。大多数 VLA 模型的评测,都是在针对特定任务微调之后才进行的。说白了,就是先技术细节,而是关乎整条技术路线的根本问题:我们是在训练「通用机器人大脑」,还是在为每台机器人定制一套任务脚本?
就在这场关于泛化能力的追问中,自变量机器人(X Square Robot)选择了一种更直接的回答方式:直接把没有经过任何任务微调的预训练模型搬上真实机器人,在 17 个任务上公开测试。这个模型叫 Wall-OSS-0.5。

项目链接:
https://x2robot.com/oss#resources 论文地址:
https://x2robot.com/api/files/file/wall_oss_05.pdf 代码仓库:
https://github.com/X-Square-Robot/wall-x 模型权重:WALL-OSS-FLOW / WALL-OSS-FAST(Hugging Face)
要理解这项研究成果的意义,需要先知道机器人策略模型是怎么被训练出来的。
一个典型的 VLA 模型会先吸收大量的视觉和语言数据,形成对世界的基础认知,就像一个刚从大学毕业、学过很多理论的新人。但要让它真正上手操作,还需要针对具体岗位进行「在职培训」:给它看几百条这个任务的示范轨迹,让它学会「怎么拧螺丝」或者「怎么折叠毛巾」。
问题在于,这种「考前培训」模式让人很难判断:是大学课程(预训练)起了作用,还是培训班(微调)解决了问题?过去的多数论文都是在微调之后才汇报成绩,让预训练阶段的真实贡献始终藏在迷雾里。
Wall-OSS-0.5 提出的问题是:如果不允许微调,预训练的模型能干什么?
答案出乎意料地乐观。
预训练即可部署
Wall-OSS-0.5 是一个 VLA 模型,在超过 20 种机器人形态、每轮超过 100 万条轨迹的数据上完成预训练,同时混入了约 9000 万条多模态语料。

Wall-OSS-0.5 能力概览:涵盖预训练真实机器人行为、下游适配、仿真迁移及具身多模态理解。
自变量团队随后把这个完全没有任务特定微调的预训练 checkpoint,直接放到真实机器人上跑了 17 个任务,涵盖语义理解、刚性物体操作、柔性物体操作、精细操作和长程多步操作五大类别。
结果非常亮眼!400k 预训练步数的 checkpoint 在 17 个零样本任务中,4 个任务的得分超过 80 分(满分 100 分):

400k 预训练 checkpoint 达到了及格分数的任务(零样本)。
积木分拣(Block Sorting):100 分(已见任务)
水果分拣(Fruit Sorting):96 分(已见任务)
套环叠放(Ring Stacking):86 分(已见任务)
绳子收紧(Rope Tightening):82 分(未见任务,柔性操作)
需要特别注意的是「绳子收紧」这个任务。它是一个完全没有在预训练集中出现过的柔性物体任务,属于 17 个任务中最难的类型之一——不仅需要双臂协调,还要感知绳子的松紧状态并动态调整力度。
能以 82 分的成绩完成,是这次实验最有说服力的数据点之一:模型不是「背过」这道题,而是真的迁移了某种可复用的操作能力。
从训练进度来看,这些能力并非一开始就有。随着预训练步数增加(从 50k 步到 400k 步),见过的任务平均得分从 26.1 升至 50.0,没见过的任务平均得分从 24.2 升至 53.6——两条曲线几乎并排上升。这意味着模型积累的能力确实在向新任务迁移,而不只是记住了训练分布里的任务样板。

不同的预训练 checkpoint 的零样本评估趋势。
论文称这种现象为能力的阶梯式涌现(staircase emergence):积木分拣从大约 50 分跳跃到 100 分,套环叠放从 73 分跳跃到 100 分,都发生在训练中后期的某个临界点。这像极了大语言模型中观察到的涌现现象。更重要的是,到 400k 步时,整体平均任务进度还在上升,尚未饱和,这意味着更长的预训练有望能带来更多提升。我们也期待进一步的研究为我们揭示具身智能预训练的 Scaling Law。
当然,零样本并非万能。毛巾折叠(10 分)、餐桌摆设(9 分)、充电器插接(9 分)这三个任务几乎无法完成,它们涉及柔性形变和精细对准,是对精度要求最高的类别,单靠预训练还远远不够。

不同预训练步数的 checkpoint 在不同已见和未见任务上的零样本表现。
这些任务清晰地描绘出当前能力边界:一旦任务的「语义理解」成分占主导,预训练就能发挥;一旦涉及精度等更多要求,就需要微调来补足。
不仅学得快,还越动越聪明?
如果说零样本测试证明了 Wall-OSS-0.5 拥有「物理直觉」,那么在需要针对特定任务进行微调的场景下,它则展现出了作为基座模型的「先验优势」。
微调阶段的大幅领先
在包含 15 项真实机器人任务的微调评估中,Wall-OSS-0.5 展现了极高的学习效率与上限。对比行业标杆 π0.5,在同样的微调数据预算下,Wall-OSS-0.5 的平均任务进度达到了 60.5,不仅领先前者 17.5 分,更是在涵盖抽屉整理、碗中放勺等 10 项核心操作任务的子集上,将领先优势扩大到了 26 个百分点。

这种优势在主流仿真基准测试中同样表现稳健:
高难度操作:在 RoboCasa 厨房模拟环境的精密插入(Insertion)任务中,Wall-OSS-0.5 的成功率达到了 39.6%,而 π0.5 仅为 4.0%,在强约束任务的处理上实现了近乎一个数量级的提升。

在 RoboCasa 厨房操控任务中的分项对比。Wall-OSS-0.5 在 articulated(关节)及 insertion(插入)等精细操控任务中优势极为明显。
适配效率:在 LIBERO 单臂操控基准上,Wall-OSS-0.5 仅需 20k 步微调即达到 97.5% 的平均成功率,不仅成绩超越了 π0.5 经过 30k 步训练的成绩,更直接节省了约三分之一的算力与适配时间。

场景鲁棒性:在包含 50 个双臂协作任务的 RoboTwin 平台中,面对充满光照与背景干扰的随机化场景,Wall-OSS-0.5 依然保持了 80.9% 的高成功率,展现出极强的域外泛化能力。
动作训练还能倒逼感知能力进化
在以往的具身智能研发中,让模型「肢体发达」(学会操作)往往伴随着「头脑简单」(视觉-语言理解能力退化)的代价。但 Wall-OSS-0.5 在接受高强度的动作训练后,其基础图文理解能力不仅没有崩坏,反而迎来了对机器人至关重要的「能力重塑」。
测试显示,该模型在具身视觉定位任务上的能力暴涨了 21.8 分,在 Placement reasoning(放置推理)任务中提升了 11.0 分。这标志着模型并没有因为学习动作而变成一个只会输出坐标的「盲目机器」,而是主动将自身庞大的通用视觉算力,倾斜到了「寻找目标、判断方位、推理落点」这些操控任务最急需的感知能力上。

多模态感知能力的「能力重塑」。通过协同训练,模型将通用视觉算力转化为机器人更急需的具身感知能力,在 Grounding 和 Where2Place 等任务上表现出显著的性能跃迁。
这种「鱼与熊掌兼得」的特性,证明了其协同训练方案不仅有效,而且在物理世界的感知与操作之间建立了一种良性的互补关系。
Wall-OSS-0.5 为什么这么强?
从结果来看,Wall-OSS-0.5 着实相当强,甚至可以说有点反常:一个从未见过这些任务的预训练模型,零样本就能完成柔性双臂操作;微调后更是在多个任务上将 π0.5 甩开 30 个百分点以上。这种级别的领先,不像是某个超参数调得更好的结果,而更像是底层训练逻辑上的系统性差异。
那么,它到底做对了什么?
答案其实隐藏在一个被很多人忽视的差异中:大语言模型输出文本是「一截一截」的离散状态,而机器人的物理动作必须是「丝滑连贯」的连续曲线。如果把动作直接以连续信号灌入主干,这股信号对习惯了文字接龙的 VLM 来说太微弱,根本无法撼动其底层认知。论文数据也印证了这一点:训练稳定后,流匹配损失对主干的梯度贡献仅剩约 5%。
换句话说,要想让连续动作直接「教会」主干大脑,几乎是徒劳的。自变量团队的解法是:既然连续信号太弱,那就借道离散,把梯度强行送进去。以下四项设计,共同支撑起这套「用离散路径传梯度、用连续路径做执行」的训练框架。
梯度桥接:让动作反向塑造主干大脑
当前主流的 VLA 训练大多采取「分层隔离」策略:先用海量视觉-语言数据预训练主干,再在其顶部挂一个动作专家单独训练。这种做法虽然安全,但代价是主干模型本身永远学不会「动作」,它只是在为动作专家提供特征,并不真正理解物理世界的可操作结构。
Wall-OSS-0.5 的方法是:梯度桥接协同训练。团队将动作离散化为特殊的「字符 Token」,与文本 Token 拼接到同一条自回归序列中,用大模型最原生、最强烈的交叉熵损失进行训练。
这一支路就像在 VLM 大脑中架起了一座「梯度桥」,强迫主干在预训练阶段就把「看、说、动」统一在同一套表征空间里。同时,模型保留流匹配损失用于生成连续动作,并辅以多模态交叉熵损失作为锚点防止视觉语言能力退化。三路信号协同开火,消融实验证明:一旦砍掉这座「桥」,真实机器人任务成功率会出现断崖式下降。

梯度桥接效应验证。实验证明,将动作监督通过「梯度桥」直接引入主干,远胜于简单的分层隔离策略。
视觉对齐的动作 Tokenizer:传递语义,而非数字
梯度桥建好了,但跑在桥上的是什么货?如果离散 Token 只是对动作做机械的数值压缩,那传进主干大脑的只是一串没有物理意义的编号,主干学到的也只是统计学上的共现。业界广泛使用的 FAST Tokenizer 就存在这个问题:它能还原动作,但并不知道这个动作「对应画面里发生了什么」。
Wall-OSS-0.5 训练了一个视觉对齐的残差向量量化 Tokenizer。它在量化动作的同时,强制 Token 的表征与对应时刻的视觉特征对齐,并要求其预测下一帧的视觉变化。这样一来,每一个动作 Token 都同时承载了「电机怎么转」和「画面怎么变」两层信息。它和视觉、语言进入了同一个语义空间,主干网络在预测下一个动作时,其实就是在脑海里进行高维度的时空推演。

视觉对齐动作 Tokenizer 的工作流。模型不仅压缩动作,更强制动作表征与视觉特征对齐,赋予 Token 真正的「物理含义」。
动作空间监督:把好钢用在刀刃上
主干懂了语义,但最终指挥机器人躯体干活的,还得靠连续分支输出的轨迹。流匹配的标准做法是预测「速度」(噪声到目标的瞬时方向)。然而,机器人的物理动作轨迹有一个特性:整体形状(低频结构)决定任务能否完成,而高频细节几乎不影响成败。如果在速度空间里算损失,模型会像强迫症一样,把大量算力浪费在拟合无关的高频抖动上。
自变量团队直接修改了底层逻辑:把损失从「预测速度」改写为「预测重建出来的最终动作」。这在数学上等价于对动作轨迹成型初期(高噪声阶段)进行了自动加权。这就好比让画师先集中精力把人体的骨架打准,再去描绘衣服的褶皱,让模型在仿真中跑出了远超前人的收敛速度和稳定性。

动作空间监督 vs 速度空间监督。通过将学习重心调整至轨迹结构的塑造,模型在训练效率和成功率上均表现更优。
DMuon:扫除异构计算的系统工程路障
上述极其精妙的多源监督架构,带来了一个工程层面的副作用:模型内部参数尺度与梯度强度高度异构:VLM 骨干来自大规模预训练,动作头则是从头初始化,三路损失反传的梯度量级系统性失配。
这是 Muon 优化器的用武之地:通过 Newton-Schulz 迭代对更新矩阵做正交化,能有效缓解这种异构困难。但原生的 Muon 单步开销大得离谱。
为此,团队实现了 DMuon(分布式 Muon)。结合基于 LPT 的专属所有权调度以及回收迭代冗余计算的 CuteDSL 内核,他们把引入 Muon 的整体开销从 2x 降至 0.02x,缩减了约 100 倍。这种即插即用的系统级优化,让这套庞杂的训练配方在大规模集群上真正成为现实。
四项设计,各有侧重,但指向同一个目标:让主干网络在预训练阶段就真正「经历」过动作,而不只是「见过」动作数据。梯度桥确保动作监督能穿透进主干;语义 Tokenizer 确保穿透进去的是有物理意义的信号;动作空间监督确保连续执行路径把好钢用在刀刃上;DMuon 则确保这套精密配方在真实的大规模训练中跑得起来。
开放,是通向通用机器人的唯一密码
自变量机器人(X Square Robot)成立于 2023 年 12 月,是国内较早押注「端到端通用具身智能大模型」路线的创业公司之一。
在商业模型之外,自变量一直将开源作为推动行业进步的重要方式。此前发布的 WALL-OSS 系列模型已开放给开发者社区,配套提供训练代码与技术文档,并通过「具亮计划 2026」黑客松活动鼓励开发者在真实机器人上复现与创新。
Wall-OSS-0.5 是这一系列的最新版本,在前代基础上将评估标准推进到了「预训练 checkpoint 直接上真机」的更高维度,并且模型权重、训练配方、消融实验与底层优化器实现一并公开。
当然,具身智能还有很长的路要走。毛巾折叠和充电器插接还在 10 分以下,长程任务仍依赖单帧视觉输入……这些未解决的问题,论文里写得很清楚,团队也没有回避。
整体而言,Wall-OSS-0.5 为具身智能研究提供了一套经过真机验证、可以被复现和挑战的基线,可以成为关注这个方向的研究者和开发者进一步探索开拓的起点。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com