刚刚,稚晖君又开源了

机器人前瞻 2025-09-23 12:27

资讯配图资讯配图

GO-1的核心创新是ViLLA架构。
作者 |  江宇
编辑 |  漠影
机器人前瞻9月23日报道,智元机器人今日宣布全面开源其通用具身基座大模型GO-1(Genie Operator-1)。这是全球首个基于Vision-Language-Latent-Action (ViLLA)架构的具身智能模型,向全球开发者免费开放。

资讯配图

GO-1的核心创新是ViLLA架构。传统的VLA(Vision-Language-Action)模型直接从图像和文本预测动作,而ViLLA在两者之间引入“隐式动作标记”(latent action tokens),相当于为机器人构建一个“中间语义层”。
其共有三层结构:
1、VLM多模态理解层(基于InternVL2.5-2B):处理多视角图像、语言指令和力觉信号。
2、Latent Planner隐式规划器:利用latent tokens完成长时序规划,解决复杂任务。
3、Action Expert动作专家:基于扩散模型输出高频率的低层次连续动作序列。

资讯配图

▲GO-1三阶段训练机制示意图

这种设计使模型能先抽象理解“动作语义”,再转化为具体操作,提高了跨场景与跨机器人平台的泛化能力。
GO-1的训练依托于AgiBot World Colosseo数据集。该数据集由100余台双臂人形机器人采集而成,包含超过100万条操作轨迹,覆盖217类任务、87项技能和106种场景,构建于家庭、零售、工业、餐饮、办公五大环境中,总面积超过4000平方米,涉及对象超过3000种。
与以往主要集中在短时、单一任务的数据不同,该数据集突出长时序操作,轨迹平均时长在30至60秒之间,并包含“倒水”“折叠衣物”等高复杂度任务。

资讯配图

其采集过程采用human-in-the-loop机制,所有数据均经过人工校验,甚至包括失败数据也会被标注和保留,以提升模型对异常情况的鲁棒性。

资讯配图

基于这一数据集训练的策略在真实复杂任务上的表现,比Open X-Embodiment数据集提升约30%,在未见场景中也展现出显著的泛化能力。

资讯配图

此外,GO-1在“倒水”“补货”等需要指令理解与位置泛化的任务上,成功率明显优于RDT和π0模型。在引入latent planner之后,其复杂任务的平均完成率额外提升了0.12分。

资讯配图

同时,该模型性能随着数据规模呈现幂律扩展关系,验证了持续提升的可能性。在相同任务下,人工校验过的数据比未校验数据带来了0.18分的性能增益。

资讯配图

除了真实数据集上的实验,GO-1也在仿真与真机评测中进行了验证。在Genie Sim和Libero两大主流仿真平台上,模型均取得领先成绩。在Genie G1真机实验中,其表现同样优于其他SOTA模型。

资讯配图

▲GenieSim仿真评测结果

资讯配图

▲Libero仿真评测结果

虽然GO-1基于AgiBot G1机器人数据预训练,但在松灵机器人、Franka机械臂等平台测试中也展现了良好的迁移效果。GIA模型采用通用数据接口(兼容LeRobot格式),便于开发者在不同硬件上进行微调与部署。

资讯配图

与此同时,智元机器人还推出了一站式开发平台Genie Studio,覆盖数据采集、管理、训练、仿真、部署等全流程,内置GO-1基座模型和完整工具链,支持真机一键编译与部署,旨在降低开发门槛并提升效率。

资讯配图

GitHub地址:

https://github.com/OpenDriveLab/AgiBot-World

Huggingface地址:
https://huggingface.co/agibot-world/GO-1
论文:
https://arxiv.org/abs/2503.06669

资讯配图

资讯配图

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源
more
攻克大模型训推差异难题,蚂蚁开源新一代推理模型Ring-flash-2.0
刚刚,稚晖君又开源了
超强开源模型Qwen3、DeepSeek-V3.1,都被云计算一哥「收」了
智元机器人GO-1通用具身基座大模型全面开源!
马斯克辟谣“万台人形订单”;Figure再融超10亿美元;宇树官宣开源
集合通信库VCCL释放GPU极致算力,创智、基流、智谱、联通、北航、清华、东南重磅开源
深度解析宇树UnifoLM-WMA-0开源模型!
6.1B打平40B Dense模型,蚂蚁开源最新MoE模型Ling-flash-2.0
具身操作大模型InternVLA·A1上线,助力实现高动态场景下的多机器人协作 | 具身智能开源周 Day4
阿里王牌Agent横扫SOTA,全栈开源力压OpenAI!博士级难题一键搞定
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号