刚刚，稚晖君又开源了

资讯配图

GO-1的核心创新是ViLLA架构。

作者 | 江宇

编辑 | 漠影

机器人前瞻9月23日报道，智元机器人今日宣布全面开源其通用具身基座大模型GO-1（Genie Operator-1）。这是全球首个基于Vision-Language-Latent-Action (ViLLA)架构的具身智能模型，向全球开发者免费开放。

资讯配图

GO-1的核心创新是ViLLA架构。传统的VLA（Vision-Language-Action）模型直接从图像和文本预测动作，而ViLLA在两者之间引入“隐式动作标记”（latent action tokens），相当于为机器人构建一个“中间语义层”。

其共有三层结构：

1、VLM多模态理解层（基于InternVL2.5-2B）：处理多视角图像、语言指令和力觉信号。

2、Latent Planner隐式规划器：利用latent tokens完成长时序规划，解决复杂任务。

3、Action Expert动作专家：基于扩散模型输出高频率的低层次连续动作序列。

资讯配图

▲GO-1三阶段训练机制示意图

这种设计使模型能先抽象理解“动作语义”，再转化为具体操作，提高了跨场景与跨机器人平台的泛化能力。

GO-1的训练依托于AgiBot World Colosseo数据集。该数据集由100余台双臂人形机器人采集而成，包含超过100万条操作轨迹，覆盖217类任务、87项技能和106种场景，构建于家庭、零售、工业、餐饮、办公五大环境中，总面积超过4000平方米，涉及对象超过3000种。

与以往主要集中在短时、单一任务的数据不同，该数据集突出长时序操作，轨迹平均时长在30至60秒之间，并包含“倒水”“折叠衣物”等高复杂度任务。

资讯配图

其采集过程采用human-in-the-loop机制，所有数据均经过人工校验，甚至包括失败数据也会被标注和保留，以提升模型对异常情况的鲁棒性。

资讯配图

基于这一数据集训练的策略在真实复杂任务上的表现，比Open X-Embodiment数据集提升约30%，在未见场景中也展现出显著的泛化能力。

资讯配图

此外，GO-1在“倒水”“补货”等需要指令理解与位置泛化的任务上，成功率明显优于RDT和π0模型。在引入latent planner之后，其复杂任务的平均完成率额外提升了0.12分。

资讯配图

同时，该模型性能随着数据规模呈现幂律扩展关系，验证了持续提升的可能性。在相同任务下，人工校验过的数据比未校验数据带来了0.18分的性能增益。

资讯配图

除了真实数据集上的实验，GO-1也在仿真与真机评测中进行了验证。在Genie Sim和Libero两大主流仿真平台上，模型均取得领先成绩。在Genie G1真机实验中，其表现同样优于其他SOTA模型。

资讯配图

▲GenieSim仿真评测结果

资讯配图

▲Libero仿真评测结果

虽然GO-1基于AgiBot G1机器人数据预训练，但在松灵机器人、Franka机械臂等平台测试中也展现了良好的迁移效果。GIA模型采用通用数据接口（兼容LeRobot格式），便于开发者在不同硬件上进行微调与部署。

资讯配图

与此同时，智元机器人还推出了一站式开发平台Genie Studio，覆盖数据采集、管理、训练、仿真、部署等全流程，内置GO-1基座模型和完整工具链，支持真机一键编译与部署，旨在降低开发门槛并提升效率。

资讯配图

GitHub地址：

https://github.com/OpenDriveLab/AgiBot-World

Huggingface地址：

https://huggingface.co/agibot-world/GO-1

论文：

https://arxiv.org/abs/2503.06669

资讯配图