智元机器人GO-1通用具身基座大模型全面开源!

智元机器人 2025-09-23 10:30

点击上方蓝字

资讯配图

关注我们

继今年1月AgiBot World具身智能百万真机数据集开源后,通用具身基座大模型GO-1(Genie Operator-1)今日也正式在GitHub开源!这标志着全球首个采用Vision-Language-Latent-Action (ViLLA)架构的通用具身智能模型向全球开发者免费开放,将极大降低具身智能的技术门槛,推动行业快速发展。


GitHub: 

https://github.com/OpenDriveLab/AgiBot-World

Huggingface: 

https://huggingface.co/agibot-world/GO-1

Arxiv:

https://arxiv.org/abs/2503.06669


01/

技术突破:ViLLA架构引领具身智能新范式


GO-1采用的Vision-Language-Latent-Action (ViLLA)架构是具身智能领域的重大技术突破。与传统的Vision-Language-Action (VLA)架构相比,ViLLA通过引入隐式动作标记,成功弥合了图像-文本输入与机器人执行动作之间的语义鸿沟。这一创新使得机器人能够更好地理解人类意图,并将其转化为精确的动作执行。


ViLLA架构的核心在于其三层协同设计。VLM多模态理解层基于InternVL-2B构建,能够处理多视角视觉图片、力觉信号、语言输入等多模态信息,为整个系统提供强大的场景感知和指令理解能力。Latent Planner隐式规划器通过预测隐式动作标记,实现了对复杂操作任务的高层次规划和理解。Action Expert动作专家则基于扩散模型,能够生成高频率、高精度的连续动作序列,确保机器人能够执行精细的操控任务。


资讯配图


02/

平台支持:Genie Studio一站式开发平台


Genie Studio是智元机器人专为具身智能场景打造的一站式开发平台,为开发者和合作伙伴提供全栈式解决方案,覆盖数据采集、数据管理、模型训练与微调、仿真评测、模型构建与部署等全流程。平台提供开箱即用的GO-1基座模型,集成Video Traning方案和统一训练框架,内置完整的开发工具链,可实现真机一键编译&部署,显著提升开发效率,助力具身智能技术的快速落地与应用。


官网入口

https://genie.agibot.com/geniestudio

购买咨询

https://www.zhiyuan-robot.com/Contact/Business


资讯配图


03/

社区共建:

打造开源社区生态


虽然GO-1仅基于AgiBot G1机器人数据进行预训练,但该模型已经在松灵机器人、方舟机器人、Franka机械臂等不同本体上进行了充分的验证测试。这些跨本体验证结果表明,GO-1具备良好的可移植性,能够适应不同机器人的运动学特性和控制接口。



在仿真环境测试方面,GO-1在Genie Sim和Libero等主流仿真平台上均取得了领先的性能表现。


GenieSim仿真评测结果:

资讯配图

   

Libero仿真评测结果:

资讯配图


针对真机部署场景,GO-1模型充分考虑了用户多样化的机器人平台需求,不仅提供了Genie Studio一站式开发平台来支持Genie G1本体的数据采集、模型微调和部署,同时特别集成了通用LeRobot数据格式,支持其他机器人本体的数据采集、模型微调和部署。


通过Genie Studio,在Genie G1真机实验中,GO-1相比于其他SOTA模型也取得了领先的性能。


资讯配图


04/

立即开始:

开启你的具身智能之旅


现在就访问我们的GitHub仓库,下载GO-1模型,开始你的具身智能开发之旅。无论你是经验丰富的AI研究者,还是刚刚踏入这个领域的新手,GO-1都将为你提供强大的技术支撑和无限的创新可能。



- END -


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源 机器人
more
阿里Qwen3-Omni开源发布,重新定义多模态,继GPT-4o之后,真正的全能AI来了?
马斯克辟谣“万台人形订单”;Figure再融超10亿美元;宇树官宣开源
刚刚,斯坦福用AI设计出新病毒并成功存活!Evo 2大模型在线创造生命,代码已开源
60Hz的连续推理效率!上海 AI Lab开源端到端双系统导航大模型InternVLA·N1
阿里云容器服务覆盖AI全流程,团队透露:OpenAI训练GPT时就用了我们的开源能力
阿里王牌Agent横扫SOTA,全栈开源力压OpenAI!博士级难题一键搞定
【AI】王坚院士外滩演讲全文:AI时代,开源的内涵正在发生“革命性变化”!
DeepSeek V3.1-Terminus 正式发布:一个更懂工具、更纯粹的开源AI智能体
里程碑!逻辑智能发布全球首个完全开源语音大模型框架LLaSO,语音AI迎来新纪元
创新引领,开源开放,共创智能世界生态新选择
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号