

机器人前瞻9月23日报道,智元机器人今日宣布全面开源其通用具身基座大模型GO-1(Genie Operator-1)。这是全球首个基于Vision-Language-Latent-Action (ViLLA)架构的具身智能模型,向全球开发者免费开放。
GO-1的核心创新是ViLLA架构。传统的VLA(Vision-Language-Action)模型直接从图像和文本预测动作,而ViLLA在两者之间引入“隐式动作标记”(latent action tokens),相当于为机器人构建一个“中间语义层”。1、VLM多模态理解层(基于InternVL2.5-2B):处理多视角图像、语言指令和力觉信号。2、Latent Planner隐式规划器:利用latent tokens完成长时序规划,解决复杂任务。3、Action Expert动作专家:基于扩散模型输出高频率的低层次连续动作序列。
▲GO-1三阶段训练机制示意图
这种设计使模型能先抽象理解“动作语义”,再转化为具体操作,提高了跨场景与跨机器人平台的泛化能力。GO-1的训练依托于AgiBot World Colosseo数据集。该数据集由100余台双臂人形机器人采集而成,包含超过100万条操作轨迹,覆盖217类任务、87项技能和106种场景,构建于家庭、零售、工业、餐饮、办公五大环境中,总面积超过4000平方米,涉及对象超过3000种。与以往主要集中在短时、单一任务的数据不同,该数据集突出长时序操作,轨迹平均时长在30至60秒之间,并包含“倒水”“折叠衣物”等高复杂度任务。
其采集过程采用human-in-the-loop机制,所有数据均经过人工校验,甚至包括失败数据也会被标注和保留,以提升模型对异常情况的鲁棒性。
基于这一数据集训练的策略在真实复杂任务上的表现,比Open X-Embodiment数据集提升约30%,在未见场景中也展现出显著的泛化能力。
此外,GO-1在“倒水”“补货”等需要指令理解与位置泛化的任务上,成功率明显优于RDT和π0模型。在引入latent planner之后,其复杂任务的平均完成率额外提升了0.12分。
同时,该模型性能随着数据规模呈现幂律扩展关系,验证了持续提升的可能性。在相同任务下,人工校验过的数据比未校验数据带来了0.18分的性能增益。
除了真实数据集上的实验,GO-1也在仿真与真机评测中进行了验证。在Genie Sim和Libero两大主流仿真平台上,模型均取得领先成绩。在Genie G1真机实验中,其表现同样优于其他SOTA模型。
▲GenieSim仿真评测结果

▲Libero仿真评测结果
虽然GO-1基于AgiBot G1机器人数据预训练,但在松灵机器人、Franka机械臂等平台测试中也展现了良好的迁移效果。GIA模型采用通用数据接口(兼容LeRobot格式),便于开发者在不同硬件上进行微调与部署。
与此同时,智元机器人还推出了一站式开发平台Genie Studio,覆盖数据采集、管理、训练、仿真、部署等全流程,内置GO-1基座模型和完整工具链,支持真机一键编译与部署,旨在降低开发门槛并提升效率。
GitHub地址:
https://github.com/OpenDriveLab/AgiBot-World
https://huggingface.co/agibot-world/GO-1https://arxiv.org/abs/2503.06669
