第 2 课开讲:机器人数据到底从哪来?从 LeRobotDataset 到 GHRC 四大任务

Xbot具身知识库 2026-06-23 17:00

点击下方卡片,关注【Xbotics具身智能实验室】公众号

更多具身干货,欢迎加入(戳我)

👉具身智能学习资料汇总:https://github.com/Xbotics-Embodied-AI-club/Xbotics-Embodied-Guide

👉具身智能求职/实习信息汇总:https://github.com/Xbotics-Embodied-AI-club/Xbotics-Embodied-AI-Job

你想要的这里都有~~



第 1 课我们讲清楚了一件事:人形机器人正在进入端到端模型时代。

VLA 把视觉、语言和动作接成一条链,让机器人不只是“看见”和“听懂”,而是能根据画面和指令直接生成动作,真正动手完成任务。

但第 1 课也留下了一个最关键的问题:

模型再强,数据从哪来?

这就是第 2 课要解决的核心问题。

在这一课里,我们不再停留在“VLA 很厉害”“ACT 可以训练策略”“人形机器人可以做分拣”这些概念上,而是正式进入机器人学习最基础、也是最容易被低估的一环:数据采集与数据格式。

因为对机器人来说,数据不是一堆图片,也不是几段视频,而是一条条严格对齐的“观测 → 动作”记录。

机器人看到什么,下一步应该怎么动。

这才是模仿学习真正要学的东西。

一、机器人模仿学习,本质是在学“看到什么,该怎么做”

如果把机器人训练讲得简单一点,行为克隆就是让模型模仿人。

人做一遍任务,系统把整个过程录下来。之后模型反复学习这些记录,最终希望它在看到类似场景时,也能做出类似动作。

所以训练数据的本质,是成对的:

观测,也就是机器人当时看到了什么、身体处于什么状态;

动作,也就是这一刻应该执行什么控制指令。

这听起来很简单,但真正困难的是:动作标签从哪来?

如果让人手工标注每一帧机械臂该转多少度、夹爪该开多大、末端该移动到哪里,几乎是不可能的。一个 episode 可能几百帧,几十个 episode 就是上万帧。靠人工逐帧标注,既不现实,也不准确。

所以机器人数据采集的核心命题,其实只有一句话:

怎样让人只管把任务做一遍,观测和动作标签就能被系统自动配好对?

第 2 课,就是围绕这个问题展开。

二、不同数采方案,本质都在回答“动作标签从哪来”

机器人操作数据的采集方式很多,但本质上可以按动作标签来源分成几类。

第一类是真机本体示教。

第 2 课开讲:机器人数据到底从哪来?从 LeRobotDataset 到 GHRC 四大任务图1


比如手把手拖动机器人,或者使用同构主从臂。人的操作直接驱动机器人本体,机器人自己的关节读数就能成为动作标签。这种方式动作最精确,和真实机器人最贴近,但设备成本和采集成本也更高。

第二类是人类代理设备。

第 2 课开讲:机器人数据到底从哪来?从 LeRobotDataset 到 GHRC 四大任务图2

比如 UMI、FastUMI 这类手持末端执行器,或者数据手套、穿戴式设备。它们不一定直接操作机器人,而是先记录人的操作意图,再把这些动作重定向到机器人身上。这种方式更灵活,也更容易大规模采集,但需要解决人手动作到机器人动作之间的映射问题。

第三类是通用遥操作接口。

第 2 课开讲:机器人数据到底从哪来?从 LeRobotDataset 到 GHRC 四大任务图3


比如手柄、键盘、VR、AR。人通过通用输入设备控制机器人,系统把输入映射成机器人动作。它的优点是门槛低、适配广;缺点是操作精度和沉浸感取决于接口设计。 第四类是无机器人数据。

比如第一视角人类视频,或者世界模型生成的数据。这类数据规模潜力很大,但动作标签更弱,和真实机器人本体之间存在更大的差距。

第五类是仿真采集。

在 Isaac Sim 等仿真环境里,通过键盘、主臂、VR、脚本或策略 rollout 采集数据。这种方式成本低、速度快、可规模化,是很多机器人训练和比赛数据集的重要来源。

本次课程会重点落在两种最有代表性的方案上。

一个是 SO101 主从臂真机采集,用低成本硬件演示“人做一遍任务,数据自动配好对”。

另一个是 GHRC 官方仿真数据集,也就是 Walker S2 人形机器人在 Isaac Sim 中通过键盘遥操作采集出来的数据。

两者看起来设备不同,一个是真机,一个是仿真;一个是主从臂,一个是键盘控制。但它们最后采集出来的东西是一致的:

都是成对的观测和动作。

三、LeRobotDataset:把五花八门的数据统一起来


第 2 课开讲:机器人数据到底从哪来?从 LeRobotDataset 到 GHRC 四大任务图4

采集方式可以很多,但训练代码不能被各种设备格式绑死。

如果每换一种机器人、每换一种遥操作设备、每换一个数据来源,都要重写训练代码,那整个机器人学习链路就很难复用。

LeRobotDataset 的价值就在这里。

它把各种采集方式最终统一成一套标准数据格式,让下游训练代码不用关心数据到底是 SO101 采的、UMI 采的,还是 Walker S2 在仿真里采的。

在 LeRobot 的闭环里,数据集处在非常关键的位置。

往下,它是数据采集的结果。人通过遥操作完成任务,lerobot-record 把机器人每一帧的观测、动作、任务信息记录下来。

往上,它是策略训练的输入。ACT、π0、SmolVLA 等模型,都可以从 LeRobotDataset 中读取样本,计算 loss,训练策略。

所以可以把 LeRobotDataset 理解成机器人学习里的“数据中台”

它负责把硬件、遥操作、视频、关节状态、动作标签、任务描述这些杂乱信息,整理成模型真正能吃进去的统一格式。

四、一个 episode,就是机器人完整做一遍任务

在 LeRobotDataset 里,一个非常重要的概念叫 episode

一个 episode,就是机器人从任务开始到任务结束的一次完整记录。

比如让机械臂把一个方块放进篮子里,从初始状态开始,到抓取、移动、放下、任务完成,这整个过程就是一个 episode。

一个数据集,就是很多个 episode 的集合。

每个 episode 又由一帧一帧样本组成。每一帧大概包含四类信息:

第一类是 observation.images,也就是一路或多路相机图像。

第二类是 observation.state,也就是机器人本体状态,比如关节角度、夹爪状态,以及任务相关的环境状态。

第三类是 action,也就是这一帧应该执行的动作。

第四类是 task,也就是自然语言任务描述,比如 “Part Sorting”。

这就对应了模型训练时最核心的问题:

输入是什么?

输出是什么?

输入是图像、本体状态和任务描述;输出是机器人下一步动作。

模型要学习的,就是这个从 observation 到 action 的映射。

五、磁盘上怎么看 LeRobotDataset?

很多同学第一次拿到机器人数据集,会以为它就是一堆图片和表格。

但 LeRobotDataset 的组织方式更清晰,可以记成三大支柱:

data、videos、meta。


第 2 课开讲:机器人数据到底从哪来?从 LeRobotDataset 到 GHRC 四大任务图5


data 目录主要存低维高频信号,比如关节状态、动作、时间戳,一般是 Parquet 表格。

videos 目录存相机画面。每一路相机通常会被编码成 MP4 视频,而不是逐帧散落成一堆图片。

meta 目录存元数据,包括数据集 schema、统计量、任务表、episode 边界等。

一句话记住:

低维数据进 Parquet,相机画面进 MP4,说明书进 meta。

这套结构和采集方式无关。

不管是 SO101 主从臂真机采集,还是 Walker S2 在 Isaac Sim 里仿真采集,最后都要长成这套结构。只有这样,后面的训练代码才能统一读取和训练。

六、SO101 主从臂:最小真机样例

为了让大家真正理解“动作标签从哪来”,第 2 课会用 SO101 主从臂做一个最小真机演示。

SO101 主从臂是同构结构。主臂和从臂都有相同的关节结构,因此主臂读到的关节角度,可以直接作为从臂的目标动作。

人用手扳动 leader 主臂,follower 从臂实时跟随。

这个过程中,主臂当前的关节角度,就是动作标签 action。

从臂自身的关节状态,加上相机看到的画面,就是 observation。

这就把“人做一遍任务”自动变成了“观测—动作”数据对。

采集时使用 lerobot-record 命令。它的参数虽然看起来很多,但本质上只有三组:

第一组是 robot,配置从臂和相机;

第二组是 teleop,配置主臂;

第三组是 dataset,配置数据集名称、任务描述、episode 数量、每个 episode 时长、是否上传等。

录制过程中,还可以用几个快捷键干预:

右箭头提前结束当前回合;

左箭头丢弃当前回合并重录;

Esc 结束整个录制流程。

这套流程跑完,磁盘上就会生成 data、videos、meta 三个目录。

到这里,大家就能亲眼看到:机器人数据不是凭空来的,而是人在操作机器人完成任务的同时,系统自动把动作和观测配好对。

七、GHRC 数据集:Walker S2 的四大仿真任务

SO101 是最小真机样例,而本次实训营真正要拿来训练的,是 GHRC 官方仿真数据集。

这个数据集来自 Walker S2 人形机器人,在 NVIDIA Isaac Sim 仿真环境中,通过键盘遥操作采集。

第 2 课开讲:机器人数据到底从哪来?从 LeRobotDataset 到 GHRC 四大任务图6

它覆盖了 GHRC 全球人形机器人挑战赛的四大任务:

零件桌面精细化分拣;

传送带工件动态分拣;

工件精准嵌装;

纸箱封装打包。

这四个任务都非常贴近工业场景,而且各自考察的能力不同。

零件分拣主要考静态感知和精准抓取。

传送带分拣多了动态追踪和运动抓取

精准嵌装对位姿调整和装配精度要求更高。

纸箱封装打包则强调双臂协同操作

第 2 课开讲:机器人数据到底从哪来?从 LeRobotDataset 到 GHRC 四大任务图7


这也是为什么 GHRC 数据集非常适合用来做人形机器人操作训练:它不是单一玩具任务,而是一组从静态到动态、从单步抓取到双臂协同的综合任务。

八、四目观测 + 20 维动作:人形机器人数据长什么样?

Walker S2 是双臂人形机器人,所以它的数据比普通单臂机械臂更复杂。

在 GHRC 数据集中,Walker S2 带有四路 RGB 相机:

头部左相机、头部右相机,提供全局视野;

左手腕相机、右手腕相机,提供近距离操作细节。

因此,每一帧 observation 里都有四路图像,再加上本体关节状态和任务相关状态。

动作 action 是 20 维,包括手臂关节、夹爪关节和夹持器控制指令。

也就是说,键盘遥操作时,人的操作意图最终会被转换成 20 维动作,写进数据集。

不同任务的 observation.state 维度也不同。

Part Sorting 是 48 维

Conveyor Sorting 是 76 维

Foam Inlaying 是 62 维

Packing Box 是 20 维

但它们的共同规格是一致的: Walker S2 本体,30 FPS,4 路 RGB 相机,20 维动作,LeRobotDataset V3.0 格式。

下一课 ACT 训练要吃进去的,正是这样的数据。

九、record 的本质:30Hz 循环,把人手动作写成数据集

第 2 课最后还会带大家看一眼 lerobot-record 的内部逻辑。

不管是 SO101 主从臂,还是 Walker S2 键盘遥操作,本质上都是一个 30Hz 的循环

每一圈循环做四件事:

第一,读取机器人观测,包括关节状态和相机帧;

第二,读取遥操作动作,比如主臂关节角度,或者键盘经过 IK 解算后的关节目标;

第三,把动作下发给机器人,让机器人执行

第四,把这一帧 observation、action 和 task 拼在一起,写进当前 episode 的缓冲区

等一个 episode 结束后,系统再统一保存:

图像编码成 MP4;

低维数据写入 Parquet;

meta 更新 episode 信息、统计量和任务描述。

所以 lerobot-record 做的事,可以用一句话概括:

它把“人做一遍任务”包装成回合管理、遥操作控制和数据集写盘,在 30Hz 的节奏下,把人的操作意图、机器人看到的画面和机器人本体状态逐帧配好对。

这也是机器人模仿学习能够成立的根本。

十、第 2 课作业:真正打开数据集看一看

第 2 课的作业也非常明确:看懂本课程要训练的数据,并亲手采一小段。

学员需要下载 GHRC 官方数据集,打开任意一个任务,确认 data、videos、meta 三个目录都存在。

然后播放四路相机视频,理解头部相机和手腕相机分别提供什么信息。

接着查看逐帧数据,确认能看到 20 维 action,以及随任务变化的 observation.state。

如果条件允许,还可以用 SO101 主从臂或者仿真 Walker S2 键盘录制几个 episode 的小数据集。

最终提交内容包括:

GHRC 四大任务画面截图;

四目观测说明;

自录小数据集目录结构;

一帧样本记录;

采集中遇到的问题和解决过程。

这份作业的目的不是让大家机械完成截图,而是让大家真正建立一个数据直觉:

模型训练之前,数据到底长什么样?

十一、下一课:从数据进入 ACT 策略训练

第 2 课打通的是数据这一环。

我们讲了模仿学习为什么需要成对的“观测 → 动作”,讲了不同数采方案如何获得动作标签,讲了 SO101 主从臂如何把人的操作自动记录成数据,也讲了 GHRC 官方数据集如何组织 Walker S2 的四目观测和 20 维动作。

到这里,数据已经准备好了。

下一课,就要进入第一个真正的策略模型:ACT

如果说第 2 课回答的是“数据从哪来”,那么第 3 课要回答的就是:

数据怎么变成策略?

也就是让机器人不再依赖人手主臂或键盘控制,而是由模型根据当前观测,自己预测下一步动作。

这也是从“人操作机器人”走向“机器人学会操作”的关键一步。


- END -

Ask Me Anything|提问箱

对文章有疑惑,或想聊更深?欢迎把你的问题丢给我们:技术方案、实操踩坑、课程与资料、项目合作、职业发展,都可以问。

怎么问:在评论区留言,或私信公众号

我们会做什么:每周集中整理高质量问题并公开回复,重点问题邀请作者或嘉宾深度解答;典型问题会加入知识库并持续更新。

提问小提示:尽量说明「你的目标—当前做法—期望产出」,附上必要信息(硬件/软件版本、数据规模等),能更快获得有用答案。

一起把问题变成知识,推动社区进步 🚀

第 2 课开讲:机器人数据到底从哪来?从 LeRobotDataset 到 GHRC 四大任务图8

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
机器人
more
超越SONIC!人形机器人「小脑」的GPT时刻来了,还有史上最大动捕数据,整整20亿帧
一周内15家具身机器人企业获超60亿元融资;来福谐波通过港交所上市聆讯 | 一周资本大事件
探访性爱机器人公司Somnia Lab:卧室里的性与AI|甲子光年
最强教授团押注的AI厨房机器人,融资数千万!
对话李鸿升:机器人也需要一个"家"?Kairos-HomeWorld 背后,大晓的造世界野心
成立4个月的机器人新秀获超10亿元订单;年产10000台工业机器人基地将于杭州开工 | 市场观察
昆仑行机器人90天融资数十亿,创0-1最快纪录
工业现场不用精密靶标也能精准标定:基于平行线约束的机器人手眼标定新方法
第 2 课开讲:机器人数据到底从哪来?从 LeRobotDataset 到 GHRC 四大任务
独家专访IntBot:从硅谷走向世界,用世界模型做社交给机器人“塑魂”
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号