点击下方卡片，关注【Xbotics具身智能实验室】公众号

你想要的这里都有~~

具身智能正在从模型单点竞争，转向"数据—仿真—模型—开发工具—真机本体"的全栈竞争。

6月28日，智元举办了 In-Cite｜AGIBOT WORLD 开发者日活动（更多信息可关注AgiBot World 微信公众号）。以智元 Genie 和觅蜂全栈产品为核心技术基底，围绕 AGIBOT WORLD 数据集、GE-Sim 2.0 世界模型、GO-2 具身大模型、Genie Sim 3.0 仿真平台、GDK 开发套件、Genie Studio 基础设施平台等核心技术展开，集结领域内顶尖学者、产业专家、垂类技术社区领头人，以及 ICRA 和 CVPR 入选项目团队，呈现长达5小时专业纯粹的技术交流。

在具身智能领域，一场活动同时覆盖从数据、模型、仿真到开发工具和真机本体的全栈技术，并开放真实场景体验与内外部行业共建，这样的开发者大会并不多见。

这场活动的背景是一个行业共识正在形成：

无论是 NVIDIA 以 Cosmos 平台构建 Physical AI 世界基础模型，还是学术界通过 Open X-Embodiment、DROID、WorldArena 分别推进数据聚合、大规模采集和标准化评测，都指向同一个判断：具身智能的瓶颈已从"能不能做一个好 Demo"，转向"能不能构建一套让模型持续进化的研发系统"。

这场开发者日公开的内容，正是对这个问题的一次回应。

一、数据：数量只是门槛，可学可验可改进才是关键

2024年发布的初代 AGIBOT WORLD 数据集，表面数字很容易被写进新闻稿：217 项任务、87 种原子技能、超过 3000 种物品、100 多个场景、约 2976 小时数据、百万级轨迹。这些数字确实有分量，但如果只写到这里，就错过了真正重要的东西。

数据真正的价值在于背后的数据方法论。让数据能被机器人学会、能在真机上验证、能形成下一轮改进才真有意义。

怎么做到？从公开资料可以梳理出一条清晰的路径。

第一层，让模型"见过"足够多的真实世界。AGIBOT WORLD 2026数据集100%来自真实环境，覆盖商业空间、家庭和通用场景，并与Genie Sim中的数字孪生场景关联。数据包含多相机图像、状态、动作、任务指令等结构化字段，覆盖头部、手部、深度、鱼眼、双目等多种视觉输入。模型看到的不是精心布置的实验室场景，而是真实世界里千奇百怪的物体摆放、光照变化和空间布局。

第二层，让模型"做过"可执行的动作。这不是互联网视频，而是机器人可学习的轨迹数据。每条数据都是"看到什么—做了什么—结果怎样"的完整记录：observation、action、state、instruction字段齐全。模型可以直接从中学到：给定这个观察，该输出什么动作。

第三层，让模型"做对"并持续进化。数据被拆成了模型能消化、评测能打分的粒度——子任务切分、2D框、技能级标注，长程任务可以被切成适合训练和评测的片段。

更关键的是失败回流。很多团队的习惯是丢弃失败数据，只保留成功样本。但这样一来，模型永远学不会"为什么失败"和"如何恢复"。

AGIBOT WORLD的做法不同：失败轨迹、恢复动作和人工干预一起喂回训练流程。SOP研究显示，四机器人并行训练3小时达到92.5%成功率，比单机器人高12个百分点。Learning without Demonstrating进一步把失败尝试和部分进展都纳入可学习经验。

从行业对比看，这个数据底座的定位更清楚。Open X-Embodiment 整合了 22 种机器人、21 个机构的数据，优势在于跨机器人泛化；DROID 包含约 76k 轨迹、564 个场景，优势在于自然场景下的多样性；BridgeData V2 有 60,096 条轨迹、24 个环境，偏重多任务多环境研究。

而 AGIBOT WORLD 的差异在于：它不聚合已有数据集，而是按真实部署场景系统化生产高质量双臂/灵巧手数据，并带有完整的标注层和失败恢复样本。

以上三层解决的是"一次把数据做对"的问题。但数据真正的威力在于它能滚动起来——部署后的失败数据回到训练集，训练后的新模型再次部署，部署产生的新数据再次回流。每转一圈，模型就变好一点。

从2024年初代 AGIBOT WORLD 到2026版本的迭代，正是这个循环在起作用。数据量只是起点，能跑通这个循环才是壁垒。

二、仿真与评测：可验证的训练场，可量化的排位赛

仿真在机器人行业一直有个尴尬的定位：很好用，但不好信；真机很可信，但不好用。

传统仿真平台依赖物理引擎，能模拟方块滑动，但很难精确模拟布料褶皱；能渲染不错的画面，但很难还原真实相机的噪点和动态范围。更关键的是，场景要人手工搭建，换一个任务可能从头来过。

Genie Sim 3.0 试图同时解决这两个问题。

效率层面，通过 LLM/VLM 自动生成场景和评测任务，把自然语言指令直接转成仿真场景，场景生成从"手工作坊"变成"自动化产线"。可信度层面，平台包含 5140 个仿真资产、超过 100,000 个评测场景，仿真与真实测试结果差异小于 10%：仿真做得好不好，看的是评测结果和真机结果的相关性。覆盖面层面，模仿学习主题支撑基础算法研发，多样交互主题则覆盖不完美行为、长尾情景、物体形变、液体飞溅等复杂物理效应，关注的不只是标准动作，还有非常规场景下的鲁棒行为。

在评测上，AGIBOT WORLD Challenge 已成功举办 2025@IROS、2026@ICRA 两届国际顶级学术会议联合赛事，累计吸引千人级参赛规模，覆盖世界模型、仿真与真机等多赛段，在具身智能领域建立了广泛的学术影响力。在赛事基础上，平台进一步将评测能力常态化开放，推出基于 Genie Sim Benchmark 的 Open Session 打榜机制（目前内测中，即将面向全球开发者开放）。Open Session 设置 Instruction、Robust、Manipulation、Spatial 四大榜单共 40 余个高保真仿真任务，从语言指令对齐、12 类工况扰动适应，到多样化操作技能与空间智能，系统性诊断模型的能力边界。开发者随时提交模型，30 分钟内完成评测，即刻获得与主流基座模型基线的横向对比，全部算力由平台提供，零成本参与。从赛事到常态化打榜，具身智能的能力终于可以被持续比较、被稳定复现。谁强谁弱，上榜单说话。

从行业对比看，Isaac Sim 背靠 NVIDIA GPU 生态，强在大规模并行仿真与光追级渲染，但单环境物理开销较高且深度绑定 NVIDIA 硬件栈；MuJoCo 以物理精度与轻量灵活见长，是学术界强化学习的事实标准，但缺乏原生高保真渲染与场景生成能力；Genesis 主打极致速度，单卡可达数千万 FPS，适合大规模策略训练，但在真实场景构建和虚实迁移方面尚处早期。Genie Sim 的差异不在单一性能极值，而在与 AGIBOT 真实机器人数据、本体、部署场景的深度绑定，以及从自然语言场景生成、合成数据采集、自动评测到虚实对齐打榜的全链路闭环。平台内置 5,140 个真实场景验证资产，覆盖 200+ 任务、100,000+ 评测场景，仿真训练数据支持零样本虚实迁移，同一模型在仿真与真机的评测差异不到 10%。它既是训练场，也是考场。

三、世界模型：不只是生成视频，而是预测和评估动作结果

世界模型是过去一年具身智能最热的概念之一。但到底什么是世界模型，行业里并没有形成共识。

很多人把世界模型理解成视频生成模型，给一张图加上一段指令，生成一段机器人干活的视频。这个理解不算全错，但漏掉了最关键的东西：对机器人来说，“想象未来画面”是手段，不是目的。真正的目的是“预判动作后果”。

GE-Sim 2.0在CVPR 2026 WorldArena Challenge世界模型赛道公开排行榜上取得领先。它在六项核心能力上的完整覆盖，这六项能力合在一起，重新定义了世界模型在具身智能中的角色。

长时序稳定生成。 大多数世界模型只能稳定生成几秒，之后画面就会出现漂移、崩坏。GE-Sim 2.0 能在更长时间范围内保持生成质量稳定。这对长程操作任务至关重要，如果一个任务需要 20 秒才能完成，世界模型必须能稳定预测 20 秒。

多视角高一致性渲染。 从不同角度看同一个场景，物体位置、形状、遮挡关系应该一致。GE-Sim 2.0 在多视角下保持时空一致性。这对移动操作很关键：机器人在移动过程中，视角在变化，如果世界模型在不同视角下对物体位置的预测不一致，策略就会产生误判。

机器人本体状态输出。 这是最具工程价值的能力之一。传统世界模型只输出像素——一段视频，画面里机器人正在抓杯子。但策略模型需要的不是像素，是结构化的状态信息：关节角度是多少，末端执行器的三维位置是什么，杯子的位姿在哪里。GE-Sim 2.0 的 State Expert 模块从视频潜在表示中解码出本体状态，让世界模型的输出可以直接被下游策略使用。这意味着世界模型不只是“想象画面”，而是“预测状态”。

内置自动化奖励评测。 这是 GE-Sim 2.0 最有野心的模块。World Judge 能从生成的 rollout 和任务指令中自动预测成功概率。传统做法是人工看视频判断任务成功与否，效率极低。World Judge 把这个过程自动化了：模型可以在行动前想象几种可能，用 World Judge 打分，选最优方案执行。这让世界模型从“生成器”升级成“评估器”。

近实时推理。 世界模型要真正有用，不能太慢。GE-Sim 2.0 论文披露，2B 参数模型在单张 H100 上 25 帧 rollout 约 2.3 秒完成，支持最高 4 倍 frame skipping。这个速度虽然还不能做高频实时闭环控制，但已经足够做策略筛选和行动前快速评估。

低幻觉生成。 幻觉是世界模型的致命问题，这导致预测的物体位置和真实物理不一致。WorldArena 2.0 的研究揭示了一个重要发现：视觉质量与功能效用之间存在显著鸿沟。一段视频看起来好，不代表对策略学习有帮助。GE-Sim 2.0 的低幻觉能力，意味着它不只是“像真的”，而是“预测准的”。

从行业对比看，这个定位更清楚。NVIDIA Cosmos 代表 Physical AI 世界基础模型路线，侧重通用性和开放生态；DreamerV3 代表通过想象未来改进行为的经典世界模型强化学习路线，侧重从像素中学习策略。GE-Sim 2.0 的差异在于更强调机器人操作场景下的闭环能力——不只预测，还评估；不只生成，还输出状态；不只做视觉想象，还直接服务策略训练。

四、GDK：不只是接口封装，而是缩短从算法到真机的距离

做机器人应用开发，最耗时的往往不是算法本身，而是把机器人"调通"的过程。

让机器人听懂指令、自主走到目标点、精准完成抓取、柔顺地与人交互……每一项能力背后，都是一套要从头搭建的工程链路。驱动、接口、数据格式、环境配置，很多开发者的时间就这样消耗掉了，真正留给算法的空间反而有限。GDK 做的，正是把这部分工程负担接过来，让开发者专注在应用本身。

覆盖机器人应用的核心能力。 语音交互、自主导航、视觉感知、运动控制、算法部署——GDK 把具身应用最常用的能力模块都备好了。让机器人听懂人话、走到目标点、完成精确操作，每个环节都有对应接口，开发者可以直接接入自己的应用，不需要为每一层单独找方案。

多语言多生态支持。 GDK 同时支持 C++ 和 Python，兼容 ROS2 开发生态，统一 API 抽象，一套接口适配多款产品。

从训练到推理，采推一致。今年 ICRA 比赛中，选手基于 GDK 开发，普遍反馈开发过程更顺手，模型效果也有提升。原因其实不复杂：GDK 保证了数据采集和真机推理走同一条底层链路，训练时的数据格式与真机推理保持一致，让训练更稳定，推理更可靠。

文档、模板、开箱即用。 GDK提供完整的开发文档、可以直接跑起来的示例工程以及快速上手模板。对一个从零开始的开发者来说，跑通第一个 demo，往往是能不能继续下去的分水岭。

尾声：竞争不再只是“展示可能性”

过去几年的主旋律是“展示可能性”——让机器人走起来、跑起来、抓起来。这些Demo证明了具身智能的潜力，但它们无法回答更实际的问题：机器人能不能在客户现场稳定干活？能不能在不同环境下泛化？能不能随着数据积累越做越好？

回答这些问题需要的不是更好的模型，而是更好的研发基础设施。需要标准化的数据底座让模型有燃料可吃，需要可信的仿真平台让模型有地方可练，需要闭环的世界模型让模型能预判行动后果，需要统一的开发套件让模型能稳定部署，需要公共的评测体系让进步可以被度量。

AGIBOT WORLD开发者日公开的这些内容，本质上是为“后Demo时代”准备的工具箱。这个工具箱里的每一件工具都还在迭代中，都还有不完善的地方，但它已经给出了一个清晰的方向：具身智能的下一场竞争，不是模型，而是系统；不是单点，而是全栈；不是一次发布，而是持续进化。

竞争不再是谁有一个好模型，而是谁有一套能让模型越来越好的系统。

到那一天，机器人像不像人，可能已经不重要了。重要的是，它终于知道自己在真实世界里做什么。

-END-

Ask Me Anything｜提问箱

❝
对文章有疑惑，或想聊更深？欢迎把你的问题丢给我们：技术方案、实操踩坑、课程与资料、项目合作、职业发展，都可以问。
怎么问：在评论区留言，或私信公众号
我们会做什么：每周集中整理高质量问题并公开回复，重点问题邀请作者或嘉宾深度解答；典型问题会加入知识库并持续更新。
提问小提示：尽量说明「你的目标—当前做法—期望产出」，附上必要信息（硬件/软件版本、数据规模等），能更快获得有用答案。
一起把问题变成知识，推动社区进步 🚀