首个机器人世界模型开源平台发布

盖世具身智能 2025-08-14 17:46
资讯配图

加入具身智能产业群,请加微信gasgoo111,出示名片

近日,智元机器人推出行业首个面向真实世界机器人操控的统一世界模型平台 Genie Envisioner(GE),并宣布将开源全部代码、预训练模型及评测工具。


该平台创新性地将未来帧预测、策略学习与仿真评估整合进以视频生成为核心的闭环架构,首次实现机器人在同一世界模型中完成从感知到决策再到执行的端到端推理流程。


资讯配图

图片来源:智元机器人


传统机器人学习系统普遍采用"数据收集—模型训练—策略评估"的分阶段开发模式,各环节相互独立且依赖任务特定调优,导致开发复杂度高、迭代周期长。


GE平台通过构建统一的视频生成世界模型,破解了这一碎片化架构瓶颈。基于约3000小时的真实机器人操控视频数据(涵盖超100万条真机记录),平台建立了语言指令到视觉空间的直接映射,完整保留机器人与环境交互的时空动态信息。


核心突破在于视觉中心的世界建模范式。区别于主流VLA(Vision-Language-Action)方法依赖语言抽象,GE直接在视觉空间中建模机器人与环境交互动态,实现对物理规律的精准捕捉。这一范式带来显著性能跃升:


跨平台泛化效率提升:在Agilex Cobot Magic等全新机器人平台上,GE-Act动作模型仅需1小时(约250个演示)遥操作数据即可高质量执行任务,优于需大规模多本体预训练的π0和GR00T模型;


长时序任务执行突破:在折叠纸盒等超10步连续任务中,GE-Act成功率高达76%(π0为48%,UniVLA/GR00T为0%),关键归因于视觉空间显式建模时空演化的能力及创新的稀疏记忆模块设计。


技术架构由三大协同组件构成:


GE-Base多视角视频基础模型:采用自回归视频生成框架,通过头部与双臂腕部三路视角输入保持空间一致性,结合稀疏记忆机制增强长时序推理。训练分两阶段:3-30Hz多分辨率时序适应训练提升运动鲁棒性,5Hz固定采样策略对齐微调;


GE-Act平行流匹配动作模型:160M参数轻量架构通过交叉注意力机制将视觉表征转换为控制指令,采用"慢-快"异步推理(视频DiT 5Hz/动作模型30Hz),在RTX 4090 GPU实现200毫秒54步实时响应;


GE-Sim层次化动作条件仿真器:通过Pose2Image条件与运动向量编码,将控制指令精确转换为视觉预测,支持闭环策略评估与数据生成,每小时可完成数千次策略rollout。


为量化世界模型质量,团队同步推出EWMBench评测套件,从场景一致性、轨迹精度等维度评估建模能力。在Kling、OpenSora等模型对比中,GE-Base在关键指标均领先且与人类判断高度吻合。平台现已开放项目主页、论文及代码仓库,推动具身智能从"被动执行"向"想象—验证—行动"范式演进。


-END-


往期热点

1

吉利整合继续,这次“动刀”智能化业务

2

曝通用汽车拟重启自动驾驶汽车项目

3

小马智行Q2营收大增,Robotaxi量产驶入加速带


-----------


盖世汽车身智能社群目前已覆盖

域控、智能底盘、辅助驾驶

软件定义汽车、半导体、激光雷达...

资讯配图


          探索更多        


 

资讯配图
                            
                            
                            
                            
                            
                            
                            
                            
                            
                            
资讯配图
资讯配图                            
资讯配图                            
资讯配图                            
资讯配图                            
资讯配图                            
资讯配图                            
资讯配图                            
资讯配图                            
资讯配图                            
资讯配图                            


 


点击“阅读原文”下载盖世汽车APP

资讯配图

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源 机器人
more
让64张卡像一张卡!浪潮信息发布新一代AI超节点,支持四大国产开源模型同时运行
港大联手月之暗面等开源OpenCUA:人人可造专属电脑智能体
OpenAI开源了!手机也能流畅跑
刚刚,小红书开源了首个多模态大模型dots.vlm1,性能直追SOTA!
牛津开源!第一人称3D视觉数据集Oxford Day and Night:聚焦挑战性光照条件下的新视角合成和视觉重定位
文心开源服务站赋能DAY·成都站圆满落幕,共绘西部AI创新生态新篇章
PID学习太痛苦?这个开源库让你效率翻倍!
OpenAI没开源的gpt-oss基础模型,他去掉强化学习逆转出来了
量智融合!量子神经网络开发套件正式开源
最强开源具身大脑模型!智源研究院提出面向真实环境的RoboBrain 2.0,显著提升空间与时序推理能力
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号