从“卷模型”到“拼数据”,昂贵数采下的15个开源项目

具身智能之心 2026-05-08 11:00

现在的具身智能赛道,硬件逐渐标准化,模型架构也都在逐渐收敛。真正卡住大家脖子、拉开各家差距的,就剩一个东西:数据。

  • 帕西尼感知科技布局天津、宿迁、武汉、自贡、赣州5座超级数据采集工厂;

  • 宇树科技的招股书中提出计划将近一半的募资投向模型和数据;

  • 智元尝试通过设立独立子公司觅蜂科技破解行业数据荒漠瓶颈;

  • 乐聚机器人牵头建设首个国家级具身智能开源数据集社区;

  • 京东在宣布建立后全球最大具身数据采集中心后,4月份官宣在全球首推覆盖“采、存、标、训、评、仿、测”全链路的具身智能数据基础设施... ...

头部玩家的频繁动作,无疑在向全行业传达一个明确的信号——具身智能从卷模型迈向卷数据规模和质量。

但对于绝大部分“个人玩家”而言,物理世界的数据采集太贵、太慢了!自己买机械臂、搭场景、遥操作,几个月下来烧掉几百万,采出来的数据量可能还不够喂饱大模型的一个Epoch。

高额成本之外,其他人都在怎么做?

答案是,先“榨干”开源界的羊毛。

看顶级开源数据集,不仅是为了直接拿来预训练、跑跑Benchmark,更是为了“抄作业”——看看顶尖机构是怎么定义动作空间、怎么做多模态对齐、怎么解决Sim-to-Real(仿真到现实)鸿沟的。

我们为大家整理了目前业内公认最具含金量、必看的15大具身智能开源数据集,以最新发布时间汇总,帮你省下半年到处找数据、做清洗的时间。

 

从“卷模型”到“拼数据”,昂贵数采下的15个开源项目图1

·具身智能开源数据集总表·

从“卷模型”到“拼数据”,昂贵数采下的15个开源项目图2

 

以上开源数据集的相关下载链接已收录进『具身智能之心-开源知识库社区』的“开源数据集”模块。

从“卷模型”到“拼数据”,昂贵数采下的15个开源项目图3
从“卷模型”到“拼数据”,昂贵数采下的15个开源项目图4

 

从“卷模型”到“拼数据”,昂贵数采下的15个开源项目图5

·具身智能开源数据集介绍·

 

01 .

MolmoAct2-BimanualYAM

 

推出团队:AllenAI

时间:2026年5月2日

定位:720小时双手遥操作数据集(开源最大)

数据集简介:

  • 720小时的双手遥操作轨迹数据,覆盖桌面任务和家居任务;

  • 涵盖8种真实机器人任务:叠杯子、收纳试管、挂工具、装玩具、整理杯子、准备移液管、做爆米花等;

  • 迄今为止开源最大的双手遥操作数据集。

 

01 .

Daimon-Infinity

 

推出团队:戴盟机器人

时间:2026年4月15日

发布机构:戴盟机器人,联合海内外数十家学术机构与知名企业

定位:全球最大规模含触觉全模态物理世界具身数据集

数据集简介:

Daimon-Infinity 数据集依托于戴盟自研的二指夹爪及五指手套数据采集设备,其搭载的含 11 万感知单元、120Hz 高频率视触觉传感器,配合鱼眼相机、编码器、IMU、双目相机,为数据集提供触觉、视觉、动作轨迹、执行动作、语音文本等全维度信息。

 

03 .

PhysInOne

 

推出团队:vLAR Group

开源时间:2026年4月15日

定位:一个面向视觉-物理联合学习与推理的统一数据集

数据集简介:

PhysInOne 是当前规模最大、物理覆盖最全面、标注最完整、动力学保真度最高的统一视觉-物理学习数据集。它以 200 万条多视角视频、15 万+动态 3D 场景、71 种基础物理现象与 3284 种复合物理活动,为世界模型、视频生成、具身智能与物理推理提供了标准化、高难度的评测基准。

 

04 .

AGIBOT WORLD 2026 数据集

 

推出团队:智元机器人

时间:2026年4月7日

定位:首个覆盖具身智能全域研究的开源数据集

数据集简介:

AGIBOT WORLD 2026 的所有数据均采集自100%真实环境。该数据集基于海量真实场景,围绕五大具身领域研究主题构建,每个主题均设有专属采集方法与精细化的标注体系,以精准支持不同细分领域研究者的需求。数据集将分五个阶段持续开源,覆盖更多主题与场景,旨在为具身领域提供覆盖广泛、即取即用的高质量真实数据。同时,我们通过数字孪生技术,在仿真环境中1:1重建真实场景并采集数据,仿真数据同步开源。

 

05 .

LingBot-Depth-Dataset

 

推出团队:蚂蚁灵波科技

时间:2026年3月31日

定位:大规模RGB-D深度数据集

数据集简介:

该数据集包含 300 万对高质量样本,其中 200 万对来自真实场景采集、100 万对由渲染生成,总规模达 2.71TB,覆盖 6 款主流深度相机。

每条样本均包含 RGB 图像、传感器原始深度图和真值深度图,可直接用于深度估计与深度补全任务的训练和评估,总规模达 2.71TB。数据集覆盖 Orbbec 335、335L 以及 Intel RealSense D405、D415、D435、D455 共 6 款主流深度相机,将有助于提升模型在不同设备和场景下的适应能力。

 

06 .

OmniViTac

 

推出团队:他石智航、新加坡国立大学、复旦大学、中科院自动化所、清华大学、中关村学院、北京航空航天大学

时间:2026年3月25日

定位:大规模视触觉数据集

数据集简介:

这是迄今为止规模最大、质量最高的视触觉操作数据集之一,目前已收录2万余条操作轨迹,覆盖近百类任务和百余种物体,并将接触模式系统性分为擦拭、削皮、切割、抓取、装配以及手内调整六类,在数据采集过程中严格保证视觉、触觉与动作的高精度同步,并保留了原始传感器频率。

 

07 .

OpenLET数据集

 

推出团队:乐聚机器人、开放原子

时间:2026年3月17日

定位:全球首个融合触觉灵巧操作与全身高动态运动的多模态具身智能数据集,国内首次开源全尺寸人形机器人全身运控多模态真机数据

数据集简介:

① LET-Body-Dataset:LET全身运控数据基于VR套装与全身动捕遥操技术,实现了机器人对操作员动作的实时重定向,涵盖行走、下蹲、转腰及双足全向跟随等高拟人化全身运动控制,全面满足全尺寸人形机器人在灵活作业空间内的拟人作业场景需求。

② LET-Dex-Dataset:LET灵巧手操作数据基于穿戴式外骨骼与力触觉灵巧手系统,融合了6×12×10触觉阵列及高精度腕部六维力反馈,通过精准映射五指关节运动轨迹与实时力觉感知,全面满足机器人对捏、扣、握等精细化作业的高维触觉与高精度动捕需求。

③ LET-Base-Dataset:LET基础操作数据集,基于全尺寸人形机器人 Kuavo 4 Pro、Kuavo 5W采集,基于沉浸式VR与全身增量遥操系统,涵盖抓、拿、放等高频基础技能,精准适配工业分拣、搬运及上下料等标准化作业场景,全面满足工业场景下的高效数据采集与实操需求。

 

08 .

Xperience-10M

 

推出团队:Ropedia

时间:2026年3月16日

定位:Xperience-10M涵盖超过一千万条人类真实交互轨迹与万小时级别的第一视角经验数据,一套面向物理智能的、可直接用于训练的结构化交互智能数据集。

数据集简介:

Xperience-10M以“经验”为基本单位,对视觉、动作、空间与语义信息进行统一对齐与结构化表达,使其能够直接服务于具身智能、世界模型与Physical AI等方向的模型训练。

 

09 .

UnifoLM-WBT-Dataset

 

推出团队:宇树科技

时间:2026年3月5日

定位:开放场景人形机器人高质量全身遥操作真机数据集。

数据集简介:

旨在构建场景覆盖最广、任务复杂度最高、操作多样性最丰富的人形机器人真机数据体系。

 

10 .

RoboMIND

 

推出团队:北京人形机器人创新中心、北京大学计算机学院

时间:2026年2月28日

定位:国内首个具身智能标准范式数据集

数据集简介:

RoboMIND V1.0版本包含10万+条高质量双臂操作轨迹,覆盖4种机器人本体、5大场景下的479项任务与38种技能,并支持ACT、DP等4种主流模型验证。

升级版V2.0将数据集规模扩展至30万+条轨迹,机器人本体增至6种,任务数量提升至739项,技能扩展至129种,并新增1.2万+条带触觉的操作数据以支持VTLA/MLA模型训练,同时开源高保真仿真资产,支持数字孪生与批量评测。

 

11 .

10kh RealOmni-Open DataSet

 

推出团队:简智机器人

时间:2026年1月5日

定位:行业首个规模最大、泛化程度最高的无本体具身数据集

数据集简介:

  • 行业总体量、以及单个技能规模最大:累计时长超10Kh、总计数据规模超过1Mil Clips,且每个技能都有行业最多的数据量;

  • 场景真实、技能多样:通过在真实家庭的自然操作,在技能数量上,我们避免过于分散,使得质量下降,因此专注10大家庭常见场景任务,30项技能;

  • 在单个技能上,场景、目标丰富:每项都在千个家庭、近万个不同细分目标中采集,避免单一、简单重复,确保其泛化性;

  • 均为双手、长程任务:完整录制复杂家务、清洁全过程;

  • 多模态、高质量数据:包含大FOV原始图像、轨迹、标注、关节动作,且轨迹通过还原,精度质量行业领先。

 

12 .

World In Your Hands

 

推出团队:它石智航

时间:2025年12月24日

定位:全球首个 VLTA 多模态真实世界数据集

数据集简介:

该数据集比特斯拉 Optimus 数据路线领先约6个月,填补了“互联网数据缺动作、仿真数据难泛化”的行业空白,为具身基座模型(Embodied Foundation Model)提供 Scaling Law 所需的关键语料。

 

13 .

RoboCOIN

 

推出团队:北京智源人工智能研究院牵头,联合蚂蚁天玑实验室、银河通用、乐聚、软通天擎、松灵、星海图、智平方、睿尔曼等产业先锋,以及清华大学、北京大学、斯坦福、伯克利、剑桥等海内外顶尖学术力量,共同打造并发布了RoboCOIN(Bimanual Robotic Data COllection for INtegrated Manipulation)。

时间:2025年11月25日

定位:全球“本体数最多、标注最精细、使用最便捷”的高质量双臂机器人真机数据集(15平台×18万轨迹×421任务)。

数据集简介:

  • 多本体、末端执行器:涵盖15款异构机器人平台,包括双臂机械臂(如Agilex Cobot Magic)、半人形(如Realman RMC-AIDA-L)和全人形机器人(如Unitree G1edu-u3),涉及夹爪与灵巧手两类末端执行器,本体和末端执行器的形态多样。

  • 真实场景、丰富任务:覆盖16类现实环境(家庭、办公室、工厂、餐厅、超市等),包含432种物体(刚性、铰接、可变形)和36种双臂操作技能,构建了从简单到复杂的渐进式任务体系。

  • 数据规模大、质量高:通过人类遥操作采集超过18万条真实轨迹,每条均配备多视角图像、关节状态、末端位姿,并严格对齐时间戳,统一坐标系和量纲,确保数据物理一致性与语义完整性。

 

14 .

InternData-A1

 

推出团队:上海 AI Lab、北京大学

时间:2025年11月16日

定位:规模最大的开源仿真操作数据集

数据集简介:

  • 规模:63万条轨迹(当前最大开源VLA合成数据集之一)

  • 支持刚体、铰链体、柔性体、流体等多种物体

  • 自动生成语言指令 + 环境构建 + 动作规划 + 渲染(基于NVIDIA Isaac Sim)

  • 支持 sim-to-real 迁移,效果媲美真实数据训练

  • 优势:工程设计精细,任务多样性高

 

15 .

Open X-Embodiment

 

推出团队:Google DeepMind 联合斯坦福、上海交大、英伟达等21家机构

时间:2023年

定位:全球最大真实机器人开源数据集

数据集简介:

  • 规模:整合60个子数据集,超 100万条真实机器人轨迹,覆盖 527种技能、16万项任务

  • 涵盖22种机器人类型(单臂/双臂/四足)

  • 统一为RLDS格式,支持多模态输入(RGB、深度、点云)

  • 支持跨机器人、跨任务泛化研究

  • 适用模型:RT-1-X、RT-2-X 等 VLA(视觉-语言-动作)模型

 

这15个数据集,足够你先跑通手头的Baseline了。但具身智能现在的发展速度是按“天”算的,下个月可能就有量级更大、标注更精细的神仙数据集开源。

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源
more
乐聚牵头!国家级开源社区落地,具身智能“数据荒”有解了?
Claude封杀龙虾后推自家Agent服务,又被开源平替了
美团开源“语音克隆”模型,1B/3.5B双选,超自然复刻你的声音
月之暗面开源Kimi K2.6,代码与Agent能力全面对标国际顶尖模型
国芯科技获批建设 “RISC-V 开源芯片先进技术研究院”
国产大模型强势崛起:豆包登顶国内榜首,小米双模上榜,开源赛道领跑全球
国产双开源:让Mac成为你的私人AI工作站
TouchAnything发布!这次egocentric隐藏的触觉数据和模型都开源了,300项任务......
炸场!英伟达发布全球首个开源量子AI模型
整个公司一起吃虾!这个开源项目,让OpenClaw实现企业级部署
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号