横跨三年的技术复盘!重磅综述解读:2023至2025,具身智能开源路线图

深蓝具身智能 2025-10-22 17:38

横跨三年的技术复盘!重磅综述解读:2023至2025,具身智能开源路线图图1

横跨三年的技术复盘!重磅综述解读:2023至2025,具身智能开源路线图图2

当具身智能正从技术探索迈向产业落地的关键节点 —— 开源生态的成熟度已成为决定行业发展速度的核心变量!

《AI Robotics Open Source R&D Survey: Foundation Models, Datasets, Simulation, and Benchmark Platforms (2023-2025)》正是此时应运而生的 “行业全景图”——

这份横跨三年技术演进的权威综述,以四大核心支柱为框架,系统梳理了具身智能开源领域的突破性成果。

对于研究者,它是规避重复造轮子的 “文献捷径”;对于开发者,它是选型避坑的 “实战手册”;对于行业决策者,它更是预判技术趋势的 “导航罗盘”。

横跨三年的技术复盘!重磅综述解读:2023至2025,具身智能开源路线图图3

说明:2023-2025 年推动机器人领域变革的三大关键进展,从根本上由开源原则赋能©️【深蓝具身智能】编译

今天,我们就一同深入解读这份报告,看看开源究竟如何重塑机器人研发的格局。

我们开设此账号,想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外,也想和大家一起见证它到底是泡沫还是又一场热浪?
欢迎关注【深蓝具身智能】👇

横跨三年的技术复盘!重磅综述解读:2023至2025,具身智能开源路线图图4

数据集

要让机器人像人类一样学习和行动,海量且高质量的数据集是不可或缺的基础。

多embodiment数据集:实现跨场景、跨具身的泛化

Open X-Embodiment数据集堪称数据集领域的“巨无霸”。

它由全球34个研究实验室共同打造,涵盖了22种不同的机器人embodiment,包含100万条真实机器人演示轨迹,以及527项技能和160266个任务。

该数据集采用统一的RLDS(机器人学习数据集)格式,为跨embodiment学习奠定了基础。

横跨三年的技术复盘!重磅综述解读:2023至2025,具身智能开源路线图图5

该数据集由北美、亚洲和欧洲的50名数据采集人员共同收集完成,包含了76000条演示轨迹,包含了13个机器人embodiment的564个场景和86项任务,场景从家庭空间(包括浴室、厨房、餐厅、卧室、实验室、洗衣房及办公室)伸到实验室等专业环境。

横跨三年的技术复盘!重磅综述解读:2023至2025,具身智能开源路线图图6

今年4月,DROID 进行了更新,为36000个episode提供了改进的校准数据。

在数据存储和访问方面,DROID采用TensorFlow Datasets(TFDS)格式,存储在谷歌云平台上,全量数据集需要15TB存储空间,压缩后也3TB。

专业多模态数据集:聚焦细分场景

RH20T数据集专注于接触密集型操作场景,包含超过110000条序列,整合了RGB图像、深度图像、力、音频以及200Hz指尖触觉传感等多模态数据,填补了触觉感知操作策略研发的数据空白。

在数据存储方面,RH20T全量数据集达40TB,其中RGB数据占5TB,resize后的RGBD数据为10GB。

横跨三年的技术复盘!重磅综述解读:2023至2025,具身智能开源路线图图7

考虑到存储压力,研发人员可以先从RGB+力数据子集入手开展初期实验,且数据集提供了跨模态对齐的时间戳,研发人员只需做好实时应用中的缓冲处理即可。

横跨三年的技术复盘!重磅综述解读:2023至2025,具身智能开源路线图图8

基础模型

如果说数据集是机器人“学习”的教材,那么基础模型就是机器人“思考”和“行动”的核心大脑。

2023-2025年,开源基础模型不断涌现,彻底改变了过去顶尖模型少数机构掌握的局面。

视觉-语言-动作(VLA)模型:实现语义理解与动作执行的统一

RT-2可以说是VLA模型领域的开创性成果。

它的核心创新在于将机器人动作视为文本令牌,融入到统一的词汇表中,从而实现了互联网规模视觉-语言数据与机器人动作数据的协同微调。

RT-2基于550亿参数的PaLI-X模型构建,在泛化任务上的性能是RT-1的3倍,在已见任务上的成功率达97%,在未见任务上也能达到76%。

横跨三年的技术复盘!重磅综述解读:2023至2025,具身智能开源路线图图9

Gemini Robotics则进一步推动了VLA模型的发展。它基于 Gemini 2.0构建,在泛化基准测试中的性能较之前的VLA 模型提升了一倍以上。

该模型新增了先进的空间推理能力和持续的环境监测功能,还引入了ASIMOV数据集用于语义安全评估。

横跨三年的技术复盘!重磅综述解读:2023至2025,具身智能开源路线图图10

在工业生产中,具备空间推理能力的Gemini Robotics模型,能够更精准地处理复杂的装配任务,比如在汽车制造中,它可以准确判断零部件的安装位置和角度,确保装配精度。

多模态基础模型:融合多源信息,提升机器人环境适应能力

PaLM-E是多模态基础模型的典型代表,它将视觉、触觉、本体感觉等多模态传感器数据直接融入语言嵌入空间

在机器人任务和通用视觉-语言基准测试中均取得了顶尖性能。PaLM-E最大的模型版本包含5620亿参数,不过在实际应用中,120亿参数的版本已能达到全量模型90%的性能,且仅需2-4块A100 GPU即可部署。

横跨三年的技术复盘!重磅综述解读:2023至2025,具身智能开源路线图图11

Microsoft Magma则实现了跨领域的突破,它是首个能够在数字和物理环境中同时运行的VLA基础模型。

该模型采用创新的Set-of-Mark(SoM)和 Trace-of-Mark(ToM)技术,实现了动作的统一接地:

SoM技术确保了用户界面导航和机器人操作任务标注的一致性;

ToM技术则提升了模型的时间理解和动作规划能力。

横跨三年的技术复盘!重磅综述解读:2023至2025,具身智能开源路线图图12

在智能办公场景中,Magma模型可以同时处理电脑上的文档操作和协助整理桌面文件,实现了数字与物理世界的无缝协同。

专用架构与优化:适配场景,兼顾性能与效率

通用基础模型在机器人场景中往往实时性不足,因此可以从两方面进行优化提升:

以CLIP-RT架构为例,它通过将CLIP的“自然语言监督”思路专为机器人任务进行优化。

横跨三年的技术复盘!重磅综述解读:2023至2025,具身智能开源路线图图13

利用“机器人轨迹+自然语言描述” 的配对数据训练,让仅10亿参数的小模型,在机器人任务上,性能达到了70亿参数的通用模型的效果;

推理速度达15-30Hz,仅需1块RTX A5000显卡便能适配多数机器人的实时控制需求。

横跨三年的技术复盘!重磅综述解读:2023至2025,具身智能开源路线图图14

横跨三年的技术复盘!重磅综述解读:2023至2025,具身智能开源路线图图15
横跨三年的技术复盘!重磅综述解读:2023至2025,具身智能开源路线图图16

仿真平台

在机器人研发过程中,真实环境中的测试往往面临成本高、风险大、周期长等问题。而仿真平台则为机器人提供了一个安全、高效、低成本的“练兵场”,让研发人员能够在虚拟环境中对机器人进行大量的训练和测试。2023-2025年,开源仿真平台的快速发展,进一步降低了机器人研发的门槛。

高保真物理仿真平台:还原真实物理世界,提升训练可靠性

NVIDIA Isaac Sim是工业级机器人仿真的佼佼者。它借助RTX光线追踪技术和 PhysX 5.0物理引擎,能够实现高度逼真的物理模拟和渲染效果。

2025年推出的开源 Isaac Sim 5.0版本,该平台拥有超过1000个SimReady资产,涵盖了最新的人形机器人和操作机器人,还原生支持ROS 2生态系统,方便与实际机器人硬件进行对接。

横跨三年的技术复盘!重磅综述解读:2023至2025,具身智能开源路线图图17

不过,Isaac Sim对硬件配置有一定要求,推荐使用NVIDIA RTX 3080及以上型号的GPU,且需要32GB以上的内存来应对复杂场景。

MuJoCo 3.0则在高性能接触仿真方面表现突出。它引入了MuJoCo XLA(MJX)技术,实现了GPU/TPU加速,在多智能体场景下的仿真速度较之前提升了3倍,能够达到每秒数百万次的仿真步骤。

该平台还支持接触岛(Contact Islands)技术,可对复杂接触场景进行优化并行处理,同时新增了符号距离函数(SDF)碰撞检测功能,提升了对复杂几何形状的处理能力。

横跨三年的技术复盘!重磅综述解读:2023至2025,具身智能开源路线图图18

在机器人运动控制算法的研发中,MuJoCo 3.0能够为研发人员提供高精度的物理仿真支持,精确模拟机器人在不同地形(如草地、山地、雪地)上的运动状态。

专业仿真框架:聚焦特定场景,满足细分需求

Robosuite v1.5是一款专注于机器人操作仿真的模块化框架。它支持多种机器人 embodiment,包括人形机器人,还提供了复合控制器和增强的遥操作功能。

该平台的模块化设计使得研发人员能够快速搭建不同的机器人配置、gripper组合和控制策略,标准化的接口也方便了不同算法之间的比较和复现。

横跨三年的技术复盘!重磅综述解读:2023至2025,具身智能开源路线图图19

同时,该平台还内置了领域随机化功能,能够随机调整虚拟环境中的物理参数(如物体质量、摩擦系数)和视觉参数(如光照强度、物体颜色),从而提高模型的泛化能力。

AI Habitat 3.0则专注于导航和具身AI领域,特别强化了人机协作功能。它支持高精度的人形机器人仿真和VR接口,在单GPU设备上就能实现每秒10000帧以上的仿真速度。

横跨三年的技术复盘!重磅综述解读:2023至2025,具身智能开源路线图图20

该平台还提供了丰富的场景数据库,包括HM3D、Matterport3D、Gibson等数据集,可满足不同导航场景的训练需求。在室内导航机器人的研发中,AI Habitat 3.0能够为机器人提供多样化的虚拟室内环境。

基准测试框架:标准化评估,推动算法进步

Meta-World是多任务学习和元学习领域的重要基准测试框架。它提供了MT50(50项多任务学习任务)和ML45(45项元学习任务)两个主要基准,涵盖了50种不同的操作任务。

在机器人算法的研发过程中,Meta-World为研发人员提供了统一的评估标准。

横跨三年的技术复盘!重磅综述解读:2023至2025,具身智能开源路线图图21

(2) LIBERO (2023)

LIBERO则聚焦于机器人终身学习的评估。它包含130项任务,分为四个专业套件:LIBERO-Spatial(空间关系理解)、LIBERO-Object(物体类型泛化)、LIBERO-Goal(目标条件变化)和LIBERO-100(大规模多样化任务)。

横跨三年的技术复盘!重磅综述解读:2023至2025,具身智能开源路线图图22

该框架能够系统地评估机器人在长期学习过程中的知识迁移能力、灾难性遗忘问题等。

横跨三年的技术复盘!重磅综述解读:2023至2025,具身智能开源路线图图23

机器人开源生态

2023-2025年AI机器人领域的突破性进展,本质上是开源生态协同发展的成果成功破解了机器人研发过程中“硬件成本高昂、测试场景有限、跨主体协作不足”的核心痛点,为行业规模化创新奠定了基础。

 开源生态的核心组件
横跨三年的技术复盘!重磅综述解读:2023至2025,具身智能开源路线图图24

横跨三年的技术复盘!重磅综述解读:2023至2025,具身智能开源路线图图25

横跨三年的技术复盘!重磅综述解读:2023至2025,具身智能开源路线图图26

开源模型和数据集
2023-2025年AI机器人领域能如此突飞猛进主要归功于"开源基础模型+协作数据集" 共同努力的结果:

在开源基础模型方面2024-2025年头部企业与社区成果显著:

Physical Intelligence:于2025年2月开源估值超4亿美元的Pi0基础模型,支持低数据微调(1-20小时任务数据即可适配场景)、多硬件兼容且易用性强;

Isaac GR00T N1:NVIDIA联合谷歌DeepMind、迪士尼研究推出全球首个类人机器人全定制化开源模型,以“双系统认知架构”兼顾快速反应与复杂决策,且支持核心算法修改;

Hugging Face机器人:计划打造“机器人领域GitHub+模型Hub”,推出LeRobot 库、标准化硬件参考平台及基础模型Hub,降低协作门槛。

协作式数据集方面,开发从“单一embodiment采集”到“全球协同构建”转变:

DROID:采用“全球分布式采集+集中式质量管控”,50个采集者覆盖13个embodiment,硬件标准化且数据可直接调用;

横跨三年的技术复盘!重磅综述解读:2023至2025,具身智能开源路线图图27

集成与部署考量

有了数据、模型、仿真平台,如何把它们整合起来落地?

接下来我们将讨论项目的集成和部署。

开源集成架构:以ROS2为核心

使用"标准集成架构中间件"例如通过ROS2连接基础模型、运动规划、安全监控等组件:

① 基础模型(如Pi0、RT-2)生成动作计划;

② ROS2传递计划给运动规划模块(如MoveIt);

③ 安全监控模块(开源OpenRoboticsMonitor)验证轨迹安全性;

④ 最终通过ROS2发送控制信号给硬件。

横跨三年的技术复盘!重磅综述解读:2023至2025,具身智能开源路线图图28

避免厂商绑定(可换不同品牌的机器人)、社区验证安全(代码经全球开发者审查)、快速迭代(能及时获取开源组件的更新)

部署策略:“逐步推进,控制风险”

机器人部署不能“一步到位”,需分5个阶段逐步推进,每个阶段都有明确的风险控制目标:

阶段一:仿真验证

在Isaac Sim/MuJoCo中做海量测试,确保模型在虚拟环境中成功率≥95%;

阶段二:受限现实测试

在封闭环境(如实验室)中测试,全程有人监督,限定任务范围;

阶段三:监督自主

扩大环境范围,但保留人类干预能力,任何动作人工确认;

阶段四:半自主

减少人工监督,仅在异常情况干预;

阶段五:完全自主

独立运行,但需实时监控性能,设置紧急停机机制。

横跨三年的技术复盘!重磅综述解读:2023至2025,具身智能开源路线图图29

结论 

在科技发展的浪潮中,AI机器人领域正经历着前所未有的变革。

2023-2025年,开源协作成为推动该领域进步的核心动力,它打破了技术壁垒,让前沿科技触手可及,也催生了社区规模的创新。

未来的机器人势必建立在开放、协作的基础上。


编辑|木木伞

审编|具身君


Ref

论文题目:AI Robotics Open Source R&D Survey: Foundation Models, Datasets, Simulation, and Benchmarks Platforms (2023-2025)


工作投稿|商务合作|转载:SL13126828869(微信号)

>>>现在成为星友,特享99元/年<<<

横跨三年的技术复盘!重磅综述解读:2023至2025,具身智能开源路线图图30

横跨三年的技术复盘!重磅综述解读:2023至2025,具身智能开源路线图图31

【具身宝典】


【技术深度】


【先锋观点】


【非开源代码复现】

我们开设此账号,想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外,也想和大家一起见证它到底是泡沫还是又一场热浪?‍

欢迎关注【深蓝具身智能】👇


横跨三年的技术复盘!重磅综述解读:2023至2025,具身智能开源路线图图32

【深蓝具身智能】的内容均由作者团队倾注个人心血制作而成,希望各位遵守原创规则珍惜作者们的劳动成果。

投稿|商务合作|转载:SL13126828869(微信)


横跨三年的技术复盘!重磅综述解读:2023至2025,具身智能开源路线图图33

点击收藏并推荐本文

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源
more
重磅开源!北京人形WoW世界模型,为具身智能装上“物理大脑”
可处理上万变量,攻克高维时序预测难题!华人团队开源模型、基准
AI 应用方式展望,关于开源、SaaS 以及企业级智能体 | 区势· AI
TRO最新佳作,IRMVLab开源I2PNet:用于车辆定位的图像与LiDAR 点云端到端配准方案
火爆全网!重磅《LLM书》,开源!
Waymo基于视觉的端到端驾驶挑战赛第一名,RAP框架开源啦!3D 光栅化增强端到端规划
边打字边出片,交互式生成长视频!英伟达联合MIT开源新SOTA
分享一个RTOS、Linux的跨平台C开源基础库
斯坦福具身智能大佬引用,Huggingface官方催更:北京人形开源WoW具身世界模型
从课堂到产业:是什么让学生也能成为开源鸿蒙的共建者
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号