π0.5开源前,国内也开源了一个强大的端到端统一基础模型!具备强泛化和长程操作

具身智能之心 2025-09-11 10:03

昨天Physical Intelligence开源了π0.5(π0的升级版本,通过知识隔离训练获得更强的开放世界泛化能力)今天看到了项目主页上已经更新了0.5的信息。

资讯配图

π0.5通过异构任务协同训练实现广泛的泛化能力,这也是业内首次论证端到端学习型机器人系统能在全新家庭环境中执行长周期精细操作技能,例如完成厨房或卧室的清洁工作。

端到端系统是业内公认的最终形态,国内外的具身团队都在深入研究不断突破。最近自变量机器人CTO王昊和physical intelligence的研究员柯丽一鸣(Kay Ke)有一期对话节目《临近机器人GPT-3时刻,具身智能开源模型的加速演进》,里面针对开源模型的话题展开了一些讨论。非常巧,就在π0.5开源的前一天,自变量机器人也开源了他们的端到端具身智能基础模型WALL-OSS。

去项目网页上看了下,WALL-OSS有一整套完整可复现的具身大模型方案,包括预训练模型权重、训练代码、数据集接口,甚至还附带了详细部署文档,开发者可以在自己的机器人上直接跑通闭环流程。

资讯配图

这个模型对行业有什么意义?在此之前,先来说下当下的一些困境吧。

现有视觉语言模型的空间感知与具身理解能力仍存在局限。将VLMs迁移至具身领域时,暴露出模态间、预训练数据分布与训练目标之间的根本性错配,导致动作理解与生成成为通往通用人工智能的核心瓶颈。

资讯配图

WALL-OSS通过大规模多模态预训练实现:(1)具身感知的视觉-语言理解,VLMs预训练知识可以无痛迁移到操作任务;(2)强大的语言-动作关联;(3)鲁棒的操控能力,保留了VLMs的语言视觉理解能力,又具备细粒度动作执行能力。

采用紧耦合架构与多策略训练,实现统一跨层级思维链:在单一可微分框架内无缝整合指令推理、子目标分解与细粒度动作合成。

WALL-OSS在复杂长周期操控任务中达成高成功率,展现出强大的指令遵循能力、复杂场景理解与推理能力,性能超越现有强基线模型,为从视觉语言模型到具身基础模型的演进提供了可靠且可扩展的路径。

项目和代码开源链接:

Huggingface:

https://huggingface.co/x-square-robot

GitHub:

https://github.com/X-Square-Robot/wall-x

项目链接:

https://x2robot.com/en/research/68bc2cde8497d7f238dde690

WALL-OSS

下图为现有视觉语言动作(VLA)模型的结构范式。(a) 混合设计通过离散动作建模(DAM)或连续动作建模(CAM)直接扩展原始VLM,遵循下一词元预测范式,典型代表如RT-2和OpenVLA。然而动作监督会显著扰动原始VLM的权重分布,导致动作指令遵循与泛化能力大幅退化,从而产生动作过拟合。(b)解耦设计采用独立分支进行动作预测,并与VLM交互提取信息,如π0。其局限在于视觉和语言仅作为动作生成的辅助信号;这种松耦合架构削弱了动作预测的指令遵循能力。

资讯配图

WALL-OSS整体结构如下图所示,采用QwenVL2.5-3B作为主干网络。该模型接收视觉输入与文本指令,根据训练阶段生成不同输出,同时始终保持对相同多模态输入的条件依赖。

资讯配图

训练方式:先离散、后连续、再联合

仅需要RTX 4090级别的同等算力显卡,开发者便能完成WALL-OSS从训练到推理部署的全过程。更重要的是,WALL-OSS在保证低成本训练的同时,依旧实现了顶尖的泛化表现。

WALL-OSS的预训练过程包括两个主要部分:视觉语言模型的启发(Inspiration)和三种模态(视觉 - 语言 - 动作)的整合(Integration),整体pipeline归结为先离散、后连续再联合。

启发部分(Inspiration Stage)

首先重用预训练视觉语言模型的原始前馈网络,并通过具身视觉问答增强它们,以加强机器人环境中的空间推理。训练目标包括mask语言建模、图像 / 视频 - 文本对比学习、指令遵循以及时间顺序 / 因果关系建模,以建立强大的grounded视觉语言先验。同时引入离散动作目标,其中文本token与通过 FAST tokenization获得的离散动作token对齐:

资讯配图

此阶段为视觉语言模型配备粗略的、语义grounded的动作感知,输出包括思维链推理、子任务预测和离散 FAST 动作tokens。具身视觉问答增强了视觉语言模型在具身环境中的空间理解能力,而 FAST token预测提供了粗略的动作理解。这为初始视觉语言模型赋予了基本的具身推理和动作感知。

整合阶段:共享注意力+专家分流架构( Integration Stage)

基于上述先验知识,通过流匹配方法将离散动作预测替换为连续动作建模。

该阶段分为两个步骤:(1)冻结视觉语言模型,仅训练Action FFN下的流匹配头;(2)解冻视觉语言模型进行联合优化。

在融合阶段,视觉、语言和动作表征通过注意力机制交互,同时采用静态路由器将动作中心特征导向Action FFN,视觉-语言特征导向Vision-Language FFN。在第一阶段,构建噪声样本并对速度场进行回归拟合。

资讯配图

通过梯度路由设置(仅优化流匹配头与动作前馈网络)。来自Inspiration Stage阶段的监督信号在此稳定了跨模态注意力机制,既有效保持了视觉语言先验知识,又为连续动作预测提供了可靠的参数初始化基础。

第二阶段,采用相同的流匹配目标联合优化两个模块:通过梯度路由实现 和 (即解冻视觉语言模型并与动作分支联合训练)。

这种集成方式能够在紧耦合架构中实现细粒度的动作输出,迫使模型整合多模态信息以高效完成多模态任务,从而实现不同模态间的对齐。

统一跨层级思维链

WALL-OSS将思维链推理的概念从传统的狭义思维链扩展到涵盖从语义到感觉运动整个范围的广义思维链:指令→推理(思维链)→子任务计划→连续动作。

这种统一的公式允许跨层次抽象级别的前向任意映射,使模型能够在单个可微分框架内无缝地在高级 deliberation 和低级执行之间过渡。

现有方法通常将这些级别分解为pipeline或多模块系统,其中指令首先传递给规划器以生成高级计划,然后由控制器执行,例如 Hi Robot 和 GR00T N1。虽然这些范式可以在短期内大幅降低训练和执行的难度,但它们引入了不可微分的接口,通过每个模块的容量限制系统性能,并且倾向于跨阶段累积误差。

相比之下,WALL-OSS 采用单个端到端模型,该模型联合学习跨抽象级别的映射,支持灵活的前向任意映射,其中模型可以根据任务复杂性和上下文需求自适应地利用完整的中间推理步骤或将指令直接映射到动作。

通过覆盖跨语义级别的映射,统一思维链通过具身视觉问答增强视觉语言模型中的空间理解,导致更强的grounded和动作预测,以及显著提高长时程任务成功率和指令遵循能力。此外,在推理期间,统一思维链可以自适应地决定是否调用思维链 / 子任务分解,甚至将推理与执行交错:为已完成的子任务发出动作,同时继续推理,从而为实时人机交互启用灵活的异步控制。

基于大规模真实场景训练

自变量一直坚持以真实世界数据为主要数据来源,构建具备精细操作能力的通用机器人。本项目还构建了一个以具身为中心的多源数据集,以解决缺乏大规模、对齐的VLA监督以及当前视觉语言模型的空间理解差距的问题。

该语料库提供数万小时的数据,包括三个互补组件:(1)用于高质量和任务复杂性的自收集机器人动作数据;(2)用于跨形态和跨环境泛化的开源动作数据;以及(3)用于保留和增强语言 - 视觉能力同时提供空间 - 时间和推理的额外监督的多模态视觉问答数据,如图4所示。

资讯配图

数据集的目标主要包括:(1)显式指令下的短程操作任务,侧重精度与泛化能力;(2)目标明确但流程隐式的长程推理任务,需要任务分解、进度跟踪和实时决策来完成多步骤流程。

标注和质量控制

这里构建了一个多模型pipeline,用于细粒度的步骤标注并辅以人工抽查,能够直接在轨迹上进行思维链(CoT)式的阶段监督。确保多传感器时间戳同步,进行异常值过滤、低质量 / 空闲帧移除、基于规则的验证以及人工审核,并进行自动增强(光照 / 背景)。为了与开源动作和多模态语料库保持平衡,选择了具有代表性的自行收集子集用于 WALL-OSS 的训练。

数据划分

项目按照场景/物体/任务/形态进行分层抽样,构建跨环境与跨形态的验证/测试集。针对长程任务和稀缺技能,采用温度控制重采样与困难样本上采样策略,以强化长程依赖关系与进度建模。

在两个训练阶段中,通过配额控制混合数据源,在保持视觉语言模型能力的同时联合提升连续控制性能。对视觉流施加轻度域随机化与遮挡扰动以增强鲁棒性。

实验分析

实验在具身视觉问答和六项机器人操作任务上围绕三个核心维度:1)语言指令理解、推理和泛化;2)长时程、多阶段任务的规划和执行;3)动作准确性和稳健性上进行了实验分析。

资讯配图

如表2所示,在自建的具身视觉问答基准上对比WALL-OSS与其原始基础模型(qwen2.5-vl-3b)的性能表现。在物体定位任务中,WALL-OSS取得显著优势。基础模型由于不熟悉预训练数据中罕见的具身操作场景,常被机械臂等元素干扰导致定位失败。类似趋势出现在场景描述任务中:基础模型经常产生与场景无关的幻觉描述,而WALL-OSS能准确描述机械臂的操作动作。在行动规划任务中,两种模型都容易误判当前任务阶段,但WALL-OSS能提供比基础模型更具体且切题的回答。这些发现共同证明,我们的预训练策略成功向视觉语言模型注入了以机器人为中心的场景知识,为其在后续操作任务中的表现奠定了关键基础。

资讯配图

在确认模型增强的场景理解能力后,进一步评估WALL-OSS能否在无需任务特定微调的情况下遵循新颖指令。该分析重点验证模型利用预训练能力泛化到未见任务表述的能力。

如图6所示,在抓取放置任务中评估两种指令类型下的表现:(1)涉及预训练阶段见过的物体与容器的指令;(2)包含完全新颖物品的指令。模型在已知物体指令上达到85%的平均任务进度,并在新物体指令上保持61%的性能表现。大多数失败案例源于对陌生物体选择抓取或放置位置时的轻微姿态偏差,而非对指令目标的语义误解。

这些结果表明,WALL-OSS能够在零样本设置中准确解释和执行操作指令。该能力得益于其多模态预训练框架:既保留了视觉语言模型固有的推理能力,又支持对新颖任务的强泛化性能。

资讯配图

除指令理解与推理能力外,有效的具身智能还需要精确鲁棒的动作执行能力。通过"垃圾收集"和"杯子抓取放置"两项任务,评估预训练对原始动作精度与泛化能力的影响。

实验结果表明:在充足演示数据下(垃圾收集任务,1000条演示),经过预训练的WALL-OSS和π0模型在分布内(ID)任务中达成100%成功率,而未预训练的DP模型仅达到80%。但当任务复杂度增加且数据量减少时(杯子抓取放置任务,500条演示),性能差距显著扩大:预训练模型保持90%以上成功率,而DP模型降至20%以下。在分布外(OOD)泛化测试中(新环境执行垃圾收集任务),DP模型成功率从80%骤降至0%,完全无法完成任务;相反,WALL-OSS和π0均保持80%以上成功率,展现出强大鲁棒性。

长程任务因其固有的复杂性、延迟监督信号以及执行误差跨阶段累积效应,为具身智能模型带来重大挑战。为解决这一问题,WALL-OSS通过动态的、由语言模型生成子任务的方式进行“目标分解”,这是解决长程任务复杂性、提升执行成功率和稳定性的关键。

复杂具身任务通常需要综合空间关系推理、物体属性认知和序列动作后果预测。虽然现有视觉-语言-动作(VLA)模型能直接将指令映射为动作,但在需要中间决策与常识推理的任务中往往表现不佳。为此这里也研究了思维链(CoT)提示如何帮助WALL-OSS通过显式中间推理来规划和执行多步行为。

受大语言模型(LLMs)成功启发,这里探索将CoT推理能力迁移至VLA模型。为评估推理与动作执行的整合效果,设计了"按颜色放置"和"积木拼写"两个需要中间逻辑推断的任务。在微调阶段,WALL-OSS通过仅1%的标注帧数据,学习联合生成CoT推理轨迹和子指令。推理时,模型自主生成CoT推理轨迹和子指令,并将其作为条件输入指导动作生成。在按颜色放置任务中,当目标涉及直接视觉匹配(如将红色毛线球匹配到红色纸张)时,CoT带来的增益有限。

然而在需要文本推理的挑战性场景中:例如要求将毛线球放置印有"红"字的纸张上,WALL-OSS的任务完成率显著超越所有基线模型。这表明直接动作模型仅适用于视觉直观任务,而融入CoT对于解决需要中间推理的指令条件任务至关重要。在积木拼写任务中,扁平化设置的基线模型任务进度接近零,再次证实缺乏任务分解对推理密集型任务极为不利。因此图6中仅报告GPT生成子任务设置下的基线结果,WALL-OSS在分布内(ID)和分布外(OOD)场景下均显著优于GPT生成子任务的基线。

分析表明:虽然GPT-4常能推断正确子指令,但其响应缺乏WALL-OSS展现的时效性与上下文适应性。尤其在视野遮挡等复杂场景中。此外,基线模型在GPT生成的高层策略与底层动作执行模块间存在脱节,导致对齐偏差和指令跟随性能下降。

资讯配图

除通用指令跟随外,许多现实任务需要对细粒度视觉与语言线索进行精准定位。因此,这里检验多模态协同训练在提升模型解析和执行细粒度物体特定指令方面的有效性。

如表3所示,WALL-OSS在积木拼写任务中准确率显著高于π0,尤其在识别和放置正确字母积木序列方面表现突出。π0在识别和操作特定字母积木时性能远逊于WALL-OSS。

效果一览

模型在Reasoning、长程规划与动作鲁棒性、Instruction Following等多个任务上进行了效果验证,如下所示。

Reasoning

长程规划与动作鲁棒性

指令跟随(Instruction Following)

写在最后

自变量机器人成立于2023年12月,聚焦自研“通用具身智能大模型”,以真实世界数据为主要数据来源,构建具备精细操作能力的通用机器人。至今成立不过两年,自变量已经构建起基于自研大模型+各类本体的产品矩阵。最近创始团队刚刚宣布完成了近10亿元A+轮融资,融来资金将大部分依旧投入全自研通用具身智能基础模型的持续训练。

从之前的切入点来看,这家公司选择非常正确。行业内基本形成本体和大脑2条方向的创业路线,硬件看宇树,大脑看自变量,希望团队能够在具身大模型领域给行业带来更惊艳的效果。


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源
more
全球第一!腾讯混元模型登顶开源热榜
AI边刷视频边思考!快手最新多模态大模型开源,80亿参数,实测推理超快
Qwen又立功,全球最快开源模型诞生,超2000 tokens/秒!
RSS'25开源|首个完全开源的全向视触觉传感器!灵巧手轻松实现纸类物体的抓取!
3999让机器人家务全包,抱抱脸联合创始人:开源YYDS!
DeepDiver-V2来了,华为最新开源原生多智能体系统,“团战”深度研究效果惊人
超150名全球大咖齐聚杭州!顶尖研究院、科技巨头、高校精英引爆开源AI热潮,GOSIM HANGZHOU 2025即将揭幕
美团开源的LongCat有这么多技术细节!附实测案例
自变量机器人开源基础模型;松延动力、原力灵机等完成融资;宇树科技即将递交IPO申请;优必选斩获2.5亿订单
王坚院士外滩演讲全文:开源不只是开放代码,把AI送入太空人类才能走出地球
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号