开源碰撞寻求突围,智元推出统一世界基础机器人操作平台,星海图开放双系统VLA模型

头部科技 2025-08-14 18:31
资讯配图
资讯配图
文丨丁灵波
具身智能赛道下一步的技术突破点在哪里,各路厂商正在展开不同方向的探索。
日前,星海图宣布开源全身智能VLA模型G0和首个开放场景高质量真机数据集,今天,智元机器人接棒又推出了一个机器人世界模型开源平台——Genie Envisioner。
作为当下业内比较热门的两家具身智能公司,后起之秀星海图成立不到两年累计融资已近15亿元,智元机器人如今估值更是达150亿元,两家公司的开源新动作有望为机器人行业带来怎样的改变?
资讯配图
最新开放世界数据集
今年以来,视觉-语言-动作(VLA)模型已成为一种关键范式,旨在让机器人能够在物理世界中自主感知、推理并执行复杂任务,尽管取得了显著进展,但由于大规模、高质量的开放世界机器人数据稀缺,这一领域仍存在显著瓶颈。
现有数据集主要受限于任务真实性不足和环境丰富度欠缺,这些局限会削弱训练模型在面对多样真实世界场景时的泛化能力。
为应对这一挑战,星海图提出了Galaxea开放世界数据集,这是一个大规模、精心整理的开放真实世界移动操作数据集。
资讯配图
据了解,该数据集包含500小时的高保真数据,这些数据在人类生活和工作的真实场景中系统采集,涵盖50个不同场景中的150多项不同任务,独特之处在于,Galaxea开放世界数据集通过单一机器人具身持续采集,确保了数据的一致性和可靠性,全面的数据筛选与精准的语言标注进一步丰富了该数据集,为移动操作方法的基准测试提供了便利。
资讯配图
作为数据集的补充,他们还提出了G0双系统框架,将用于多模态规划的视觉-语言模型(VLM)与用于细粒度执行的视觉-语言-动作(VLA)模型相结合。
资讯配图
评测数据显示,在桌面整理、微波炉操作、铺床和积木堆叠四个基准任务上,与当前主流开源模型相比,G0在多项任务中表现优于知名具身模型π0,并在部分任务上实现了高达20%的性能提升,在仅使用100条任务轨迹进行微调的条件下,结合跨本体与单本体预训练的G0模型在平均进度得分上表现最佳,全面超越Benchmark模型π0,尤其在物体拾取与放置任务中优势明显
此外,星海图团队还构建了一个严格的基准测试,涵盖正常学习和少样本学习设置下的桌面操作、设备操作及长时程铺床等任务,实验表明,该高质量数据集和所提出的预训练策略能有效提升双系统的性能。
据悉,Galaxea开放世界数据集及相关模型将在未来几周内开源。
资讯配图
从拼凑方案到统一框架
相比较星海图,智元和新加坡国立大学、北航团队联合发布的首个机器人世界模型开源平台Genie Envisioner(GE)则在致力于解决“碎片化架构”问题。
在物理世界中实现感知、推理与行动的具身智能体,代表着人工智能系统的下一个前沿领域,而其核心仍存在一项根本性研究挑战:开发具备可扩展性与稳健性的机器人操作能力,即通过选择性接触来有目的地与物理环境交互并对其进行控制的能力。
尽管该领域的相关研究已取得显著进展,涵盖解析型框架、基于模型的框架、再到从大规模数据集中学习操作策略的数据驱动方法,但现有系统通常依赖于由独立的数据收集、训练和评估阶段拼凑而成的方案。
资讯配图
每个阶段都需要定制化的基础设施、人工整理和针对特定任务的调优,由此产生的阻碍可能会减缓迭代速度、掩盖失败模式,并阻碍大规模场景下的可复现性。
这些碎片化问题的焦点是目前仍缺乏一种能够以统一方式学习和评估操作策略的集成框架。
而GE平台的作用是将机器人感知、策略学习和评估整合到单一的闭环视频生成世界模型中,其核心是GE-Base,这是一个指令条件的多视角视频扩散模型,训练数据来自AgiBot-World-Beta 数据集,包含约3000小时的视频-语言配对数据,涵盖超过一百万次真实世界机器人操作片段。
资讯配图
此外,为弥合视觉表示与可执行机器人控制之间的差距,该团队提出了一种轻量级并行流匹配动作模型GE-Act,GE-Act能将以语言指令为条件的视觉潜特征转换为细粒度、低延迟的电机指令,实现从感知和指令到可执行物理动作的直接高效映射,以及动作条件神经模拟器GE-Sim,一种基于视频的仿真支持闭环策略评估方法。
最后提出了具身世界模型基准EWMBench,可从视觉保真度、物理一致性和指令-动作对齐度三个维度对视频生成神经世界模拟器进行基准测试。
资讯配图
GE平台上,机器人从在视频数据中学习到能够执行真实世界的操作任务变得更加一气呵成,包括折叠布料和折叠箱子,展现出高效的跨本体泛化能力和长时序任务精确执行能力。
不过,目前GE平台也存在几方面局限性。首先,依赖于AgiBot-World-Beta 数据集,未纳入互联网规模或基于仿真的数据源,这限制了预训练过程中所接触到的具身类型、传感器模态和场景配置的多样性;
其次,仅限于使用平行夹爪的上半身桌面操作,更复杂的具身场景例如灵巧手协同控制和全身运动尚未涉及;最后,评估方法仍依赖代理指标和部分人工验证,在多样失败模式和语义模糊场景下,实现任务成功的完全自动化且可靠评估仍是一个开放挑战。
该团队表示,尽管GE尚未成为完整解决方案,但它代表距离迈向通用人工智能级操作能力的具身AI系统又近了一步。
资讯配图
具身赛道的开源竞赛
爆火的投融资加持下,具身智能机器人赛道正迎来一轮综合能力水准的全新竞赛,随着国内产业链的成熟,重点考验不仅是机器人硬件本体,谁家的具身智能模型能实现领先性能水准也变得非常关键。
目前,头部机器人厂商和机构几乎都在逐步开放自身的部分具身模型能力,以期获得更大的开发者吸引力和市场影响力,客观上助推着国内具身智能产业的快速迭代,不少其他机器人公司也都有相关布局。
例如银河通用的纯仿真预训练抓取模型GraspVLA以及零售场景专用端到端模型GroceryVLA,以及全身遥操作系统OpenWBT。
资讯配图
千寻智能与清华大学等联合推出开源统一推理与动作的具身智能模型OneTwoVLA,以及其比较知名的端到端长程操作模型Spirit v1 VLA,不过后者模型权重因商业原因暂未完全开放,需通过其开发者计划申请。
众擎联合清华大学、复旦大学等机构开源足式机器人强化学习框架EngineAI RL Workspace;宇树开源具身智能模仿学习框架IL_lerobot、虚实迁移仿真平台MuJoCo;星动纪元开源了人形机器人强化学习训练框架Humanoid-Gym、AIGC生成式机器人大模型VPP等等。
国内机器人厂商密集推出开源模型与工具链,背后是技术、产业与政策的多重驱动,影响正从单纯技术研发向产业生态重构变迁,尽管可能会出现市场生态碎片化的竞争局面,但大趋势已形成,开源模式已是具身智能时代的新“基础设施”。

-END-

资讯配图
如果您有什么想说的,欢迎在评论区留言讨论!
投稿或寻求报道,欢迎私信“投稿”,添加编辑微信。
【2025免费新年礼】:了解最新科技趋势分析、行业内部的独家见解、定期的互动讨论和知识分享、与行业专家的直接面对面交流的机会,领取100份AI科技商业研报合集,加群共同探讨与成长——
扫描下方二维码,添加头部科技晶总微信!
资讯配图

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源 机器人
more
李想:i8反响不错,产品力没对手;库克暗示:苹果将推桌面机器人;中国日均消耗30万亿Token,暴涨300倍 | 极客早知道
WRC2025观察丨人形机器人开始干活了么?
圈粉全场!强脑科技亮相2025世界机器人大会,脑机接口技术再登《新闻联播》
首个机器人世界模型开源平台发布
1500米人形竞速开跑:跑的不止机器人,还有卷疯的关节厂商
临水建筑外墙易脏且难清洗,万勋P3机器人轻松破解难题
人形机器人运动会,没有真正的赢家
因月薪200万提案,这家机器人遭股东“掀桌”!
维他动力与亿纬锂能合作,联合开发机器人高性能动力电池
“讯飞系”具身智能通用机器人公司,完成数亿元人民币融资
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号