点击下方卡片,关注【Xbotics具身智能实验室】公众号
你想要的这里都有~~

具身智能正在从模型单点竞争,转向"数据—仿真—模型—开发工具—真机本体"的全栈竞争。
6月28日,智元举办了 In-Cite|AGIBOT WORLD 开发者日活动(更多信息可关注AgiBot World 微信公众号)。以智元 Genie 和觅蜂全栈产品为核心技术基底,围绕 AGIBOT WORLD 数据集、GE-Sim 2.0 世界模型、GO-2 具身大模型、Genie Sim 3.0 仿真平台、GDK 开发套件、Genie Studio 基础设施平台等核心技术展开,集结领域内顶尖学者、产业专家、垂类技术社区领头人,以及 ICRA 和 CVPR 入选项目团队,呈现长达5小时专业纯粹的技术交流。
在具身智能领域,一场活动同时覆盖从数据、模型、仿真到开发工具和真机本体的全栈技术,并开放真实场景体验与内外部行业共建,这样的开发者大会并不多见。
这场活动的背景是一个行业共识正在形成:
无论是 NVIDIA 以 Cosmos 平台构建 Physical AI 世界基础模型,还是学术界通过 Open X-Embodiment、DROID、WorldArena 分别推进数据聚合、大规模采集和标准化评测,都指向同一个判断:具身智能的瓶颈已从"能不能做一个好 Demo",转向"能不能构建一套让模型持续进化的研发系统"。
这场开发者日公开的内容,正是对这个问题的一次回应。
一、数据:数量只是门槛,可学可验可改进才是关键
2024年发布的初代 AGIBOT WORLD 数据集,表面数字很容易被写进新闻稿:217 项任务、87 种原子技能、超过 3000 种物品、100 多个场景、约 2976 小时数据、百万级轨迹。这些数字确实有分量,但如果只写到这里,就错过了真正重要的东西。
数据真正的价值在于背后的数据方法论。让数据能被机器人学会、能在真机上验证、能形成下一轮改进才真有意义。
怎么做到?从公开资料可以梳理出一条清晰的路径。
第一层,让模型"见过"足够多的真实世界。AGIBOT WORLD 2026数据集100%来自真实环境,覆盖商业空间、家庭和通用场景,并与Genie Sim中的数字孪生场景关联。数据包含多相机图像、状态、动作、任务指令等结构化字段,覆盖头部、手部、深度、鱼眼、双目等多种视觉输入。模型看到的不是精心布置的实验室场景,而是真实世界里千奇百怪的物体摆放、光照变化和空间布局。
第二层,让模型"做过"可执行的动作。这不是互联网视频,而是机器人可学习的轨迹数据。每条数据都是"看到什么—做了什么—结果怎样"的完整记录:observation、action、state、instruction字段齐全。模型可以直接从中学到:给定这个观察,该输出什么动作。
第三层,让模型"做对"并持续进化。数据被拆成了模型能消化、评测能打分的粒度——子任务切分、2D框、技能级标注,长程任务可以被切成适合训练和评测的片段。
更关键的是失败回流。很多团队的习惯是丢弃失败数据,只保留成功样本。但这样一来,模型永远学不会"为什么失败"和"如何恢复"。
AGIBOT WORLD的做法不同:失败轨迹、恢复动作和人工干预一起喂回训练流程。SOP研究显示,四机器人并行训练3小时达到92.5%成功率,比单机器人高12个百分点。Learning without Demonstrating进一步把失败尝试和部分进展都纳入可学习经验。
从行业对比看,这个数据底座的定位更清楚。Open X-Embodiment 整合了 22 种机器人、21 个机构的数据,优势在于跨机器人泛化;DROID 包含约 76k 轨迹、564 个场景,优势在于自然场景下的多样性;BridgeData V2 有 60,096 条轨迹、24 个环境,偏重多任务多环境研究。
而 AGIBOT WORLD 的差异在于:它不聚合已有数据集,而是按真实部署场景系统化生产高质量双臂/灵巧手数据,并带有完整的标注层和失败恢复样本。
以上三层解决的是"一次把数据做对"的问题。但数据真正的威力在于它能滚动起来——部署后的失败数据回到训练集,训练后的新模型再次部署,部署产生的新数据再次回流。每转一圈,模型就变好一点。
从2024年初代 AGIBOT WORLD 到2026版本的迭代,正是这个循环在起作用。数据量只是起点,能跑通这个循环才是壁垒。
二、仿真与评测:可验证的训练场,可量化的排位赛
仿真在机器人行业一直有个尴尬的定位:很好用,但不好信;真机很可信,但不好用。
传统仿真平台依赖物理引擎,能模拟方块滑动,但很难精确模拟布料褶皱;能渲染不错的画面,但很难还原真实相机的噪点和动态范围。更关键的是,场景要人手工搭建,换一个任务可能从头来过。
Genie Sim 3.0 试图同时解决这两个问题。
效率层面,通过 LLM/VLM 自动生成场景和评测任务,把自然语言指令直接转成仿真场景,场景生成从"手工作坊"变成"自动化产线"。可信度层面,平台包含 5140 个仿真资产、超过 100,000 个评测场景,仿真与真实测试结果差异小于 10%:仿真做得好不好,看的是评测结果和真机结果的相关性。覆盖面层面,模仿学习主题支撑基础算法研发,多样交互主题则覆盖不完美行为、长尾情景、物体形变、液体飞溅等复杂物理效应,关注的不只是标准动作,还有非常规场景下的鲁棒行为。
在评测上,AGIBOT WORLD Challenge 已成功举办 2025@IROS、2026@ICRA 两届国际顶级学术会议联合赛事,累计吸引千人级参赛规模,覆盖世界模型、仿真与真机等多赛段,在具身智能领域建立了广泛的学术影响力。在赛事基础上,平台进一步将评测能力常态化开放,推出基于 Genie Sim Benchmark 的 Open Session 打榜机制(目前内测中,即将面向全球开发者开放)。Open Session 设置 Instruction、Robust、Manipulation、Spatial 四大榜单共 40 余个高保真仿真任务,从语言指令对齐、12 类工况扰动适应,到多样化操作技能与空间智能,系统性诊断模型的能力边界。开发者随时提交模型,30 分钟内完成评测,即刻获得与主流基座模型基线的横向对比,全部算力由平台提供,零成本参与。从赛事到常态化打榜,具身智能的能力终于可以被持续比较、被稳定复现。谁强谁弱,上榜单说话。

从行业对比看,Isaac Sim 背靠 NVIDIA GPU 生态,强在大规模并行仿真与光追级渲染,但单环境物理开销较高且深度绑定 NVIDIA 硬件栈;MuJoCo 以物理精度与轻量灵活见长,是学术界强化学习的事实标准,但缺乏原生高保真渲染与场景生成能力;Genesis 主打极致速度,单卡可达数千万 FPS,适合大规模策略训练,但在真实场景构建和虚实迁移方面尚处早期。Genie Sim 的差异不在单一性能极值,而在与 AGIBOT 真实机器人数据、本体、部署场景的深度绑定,以及从自然语言场景生成、合成数据采集、自动评测到虚实对齐打榜的全链路闭环。平台内置 5,140 个真实场景验证资产,覆盖 200+ 任务、100,000+ 评测场景,仿真训练数据支持零样本虚实迁移,同一模型在仿真与真机的评测差异不到 10%。它既是训练场,也是考场。
三、世界模型:不只是生成视频,而是预测和评估动作结果
世界模型是过去一年具身智能最热的概念之一。但到底什么是世界模型,行业里并没有形成共识。
很多人把世界模型理解成视频生成模型,给一张图加上一段指令,生成一段机器人干活的视频。这个理解不算全错,但漏掉了最关键的东西:对机器人来说,“想象未来画面”是手段,不是目的。真正的目的是“预判动作后果”。
GE-Sim 2.0在CVPR 2026 WorldArena Challenge世界模型赛道公开排行榜上取得领先。它在六项核心能力上的完整覆盖,这六项能力合在一起,重新定义了世界模型在具身智能中的角色。

长时序稳定生成。 大多数世界模型只能稳定生成几秒,之后画面就会出现漂移、崩坏。GE-Sim 2.0 能在更长时间范围内保持生成质量稳定。这对长程操作任务至关重要,如果一个任务需要 20 秒才能完成,世界模型必须能稳定预测 20 秒。
多视角高一致性渲染。 从不同角度看同一个场景,物体位置、形状、遮挡关系应该一致。GE-Sim 2.0 在多视角下保持时空一致性。这对移动操作很关键:机器人在移动过程中,视角在变化,如果世界模型在不同视角下对物体位置的预测不一致,策略就会产生误判。
机器人本体状态输出。 这是最具工程价值的能力之一。传统世界模型只输出像素——一段视频,画面里机器人正在抓杯子。但策略模型需要的不是像素,是结构化的状态信息:关节角度是多少,末端执行器的三维位置是什么,杯子的位姿在哪里。GE-Sim 2.0 的 State Expert 模块从视频潜在表示中解码出本体状态,让世界模型的输出可以直接被下游策略使用。这意味着世界模型不只是“想象画面”,而是“预测状态”。
内置自动化奖励评测。 这是 GE-Sim 2.0 最有野心的模块。World Judge 能从生成的 rollout 和任务指令中自动预测成功概率。传统做法是人工看视频判断任务成功与否,效率极低。World Judge 把这个过程自动化了:模型可以在行动前想象几种可能,用 World Judge 打分,选最优方案执行。这让世界模型从“生成器”升级成“评估器”。
近实时推理。 世界模型要真正有用,不能太慢。GE-Sim 2.0 论文披露,2B 参数模型在单张 H100 上 25 帧 rollout 约 2.3 秒完成,支持最高 4 倍 frame skipping。这个速度虽然还不能做高频实时闭环控制,但已经足够做策略筛选和行动前快速评估。
低幻觉生成。 幻觉是世界模型的致命问题,这导致预测的物体位置和真实物理不一致。WorldArena 2.0 的研究揭示了一个重要发现:视觉质量与功能效用之间存在显著鸿沟。一段视频看起来好,不代表对策略学习有帮助。GE-Sim 2.0 的低幻觉能力,意味着它不只是“像真的”,而是“预测准的”。
从行业对比看,这个定位更清楚。NVIDIA Cosmos 代表 Physical AI 世界基础模型路线,侧重通用性和开放生态;DreamerV3 代表通过想象未来改进行为的经典世界模型强化学习路线,侧重从像素中学习策略。GE-Sim 2.0 的差异在于更强调机器人操作场景下的闭环能力——不只预测,还评估;不只生成,还输出状态;不只做视觉想象,还直接服务策略训练。
四、GDK:不只是接口封装,而是缩短从算法到真机的距离
做机器人应用开发,最耗时的往往不是算法本身,而是把机器人"调通"的过程。
让机器人听懂指令、自主走到目标点、精准完成抓取、柔顺地与人交互……每一项能力背后,都是一套要从头搭建的工程链路。驱动、接口、数据格式、环境配置,很多开发者的时间就这样消耗掉了,真正留给算法的空间反而有限。GDK 做的,正是把这部分工程负担接过来,让开发者专注在应用本身。
覆盖机器人应用的核心能力。 语音交互、自主导航、视觉感知、运动控制、算法部署——GDK 把具身应用最常用的能力模块都备好了。让机器人听懂人话、走到目标点、完成精确操作,每个环节都有对应接口,开发者可以直接接入自己的应用,不需要为每一层单独找方案。
多语言多生态支持。 GDK 同时支持 C++ 和 Python,兼容 ROS2 开发生态,统一 API 抽象,一套接口适配多款产品。
从训练到推理,采推一致。 今年 ICRA 比赛中,选手基于 GDK 开发,普遍反馈开发过程更顺手,模型效果也有提升。原因其实不复杂:GDK 保证了数据采集和真机推理走同一条底层链路,训练时的数据格式与真机推理保持一致,让训练更稳定,推理更可靠。
文档、模板、开箱即用。 GDK提供完整的开发文档、可以直接跑起来的示例工程以及快速上手模板。对一个从零开始的开发者来说,跑通第一个 demo,往往是能不能继续下去的分水岭。
尾声:竞争不再只是“展示可能性”
过去几年的主旋律是“展示可能性”——让机器人走起来、跑起来、抓起来。这些Demo证明了具身智能的潜力,但它们无法回答更实际的问题:机器人能不能在客户现场稳定干活?能不能在不同环境下泛化?能不能随着数据积累越做越好?
回答这些问题需要的不是更好的模型,而是更好的研发基础设施。需要标准化的数据底座让模型有燃料可吃,需要可信的仿真平台让模型有地方可练,需要闭环的世界模型让模型能预判行动后果,需要统一的开发套件让模型能稳定部署,需要公共的评测体系让进步可以被度量。
AGIBOT WORLD开发者日公开的这些内容,本质上是为“后Demo时代”准备的工具箱。这个工具箱里的每一件工具都还在迭代中,都还有不完善的地方,但它已经给出了一个清晰的方向:具身智能的下一场竞争,不是模型,而是系统;不是单点,而是全栈;不是一次发布,而是持续进化。
竞争不再是谁有一个好模型,而是谁有一套能让模型越来越好的系统。
到那一天,机器人像不像人,可能已经不重要了。重要的是,它终于知道自己在真实世界里做什么。
-END-
Ask Me Anything|提问箱
❝对文章有疑惑,或想聊更深?欢迎把你的问题丢给我们:技术方案、实操踩坑、课程与资料、项目合作、职业发展,都可以问。
怎么问:在评论区留言,或私信公众号
我们会做什么:每周集中整理高质量问题并公开回复,重点问题邀请作者或嘉宾深度解答;典型问题会加入知识库并持续更新。
提问小提示:尽量说明「你的目标—当前做法—期望产出」,附上必要信息(硬件/软件版本、数据规模等),能更快获得有用答案。
一起把问题变成知识,推动社区进步 🚀