第 1 课开讲:从人形机器人本体亮相,到 GHRC 入门,真正走进 VLA 实训营

Xbot具身知识库 2026-06-21 11:07

点击下方卡片,关注【Xbotics具身智能实验室】公众号


更多具身干货,欢迎加入(戳我)

👉具身智能学习资料汇总:https://github.com/Xbotics-Embodied-AI-club/Xbotics-Embodied-Guide

👉具身智能求职/实习信息汇总:https://github.com/Xbotics-Embodied-AI-club/Xbotics-Embodied-AI-Job

你想要的这里都有~~




第 1 课开讲:从人形机器人本体亮相,到 GHRC 入门,真正走进 VLA 实训营图1


人形机器人正在从“看起来很酷的演示视频”,走向每一个开发者可以亲手参与的工程现场。

过去大家看到的,可能是机器人在宣传片里行走、搬运、分拣、装箱,也可能是比赛 Demo 中完成一个个复杂任务。但真正的问题是:

这些能力到底怎么做出来?普通开发者能不能从零开始理解它、训练它、部署它,并最终让机器人在仿真和真机上真正动起来?

这正是本次 UBT × Xbotics 具身人形机器人开发实训营 要解决的问题。

在第 1 课直播中,我们从实训营整体安排讲起,带大家认识优必选开发者生态、全球人形机器人挑战赛 GHRC、人形机器人本体,以及 VLA 的核心概念。

第 1 课不是单纯的“开营介绍”,而是帮助所有学员建立一张完整地图:接下来 20 天线上学习和 2 天线下真机实训,我们到底要做什么、怎么做、最后能拿到什么成果。

一、这不是听课,而是完成一条机器人开发链路

本次实训营的核心目标非常明确:不是让大家停留在概念层面,而是亲手走完一条完整的人形机器人开发链路。

这条链路包括:理解任务、读取数据、训练策略、推理验证、失败分析、项目复盘,最终在仿真和真机上完成 Demo 展示。

课程会围绕 GHRC 全球人形机器人挑战赛的四大典型任务展开,包括零件分拣、传送带分拣、泡沫嵌入和装箱。在线上阶段,大家会先基于官方 baseline 理解 Walker S2 仿真、LeRobotDataset、ACT 训练与推理流程;在线下阶段,再进入真机验证和成果展示。

也就是说,这不是“听完几节课了解一下人形机器人”,而是一次从数据到模型、从仿真到真机、从训练到分析的完整实践。

二、完整参加实训营,你能拿到五件套成果

本次实训营设计了一条非常清晰的成果路径:做出来,讲清楚,拿得出,被认可,走得远。

第一件成果,是项目 Demo。

这是整个实训营最硬的产出。学员需要在仿真环境中跑通 GHRC 四大任务,并在线下真机环节完成验证。一个真正跑起来的 Demo,远比“我学过 VLA”“我看过 ACT”更有说服力。

第二件成果,是训练分析报告。

模型跑通只是开始,能说清楚为什么成功、为什么失败,才是真正的能力。报告中需要记录训练曲线如何理解,推理视频里机器人在哪一步出错,修改哪个环节后效果发生变化。这种能力,也是机器人算法工程师和普通调包选手之间的重要分水岭。

第三件成果,是展示视频或项目材料。

很多同学做完项目后,成果只停留在本地代码和零散截图里,很难对外展示。本次实训营会帮助大家把 Demo、训练过程和分析结果整理成可以用于作品集、比赛、求职和社区展示的项目材料。

第四件成果,是结营证书与项目认证。

本次认证不是简单的参与证明,而是任务完成认证。课程会从线上参与、随堂作业、仿真训练、线下 Demo 和项目复盘几个维度综合评定。证书分为结业证书和项目认证证书,后者面向核心开发者、参赛选手与优秀学员。

第五件成果,是进入优必选开发者生态的机会。

实训营结束不意味着结束。表现突出的学员,可以继续接入 Thinker cosmos 社区、GHRC 赛事和优必选开发平台,把这次训练营作为进入人形机器人开发生态的起点。

三、学习路径:线上先行,线下验证

整个课程分为线上 5 次直播和线下 2 天真机实训。

第 1 课,是实训营介绍、本体亮相与 GHRC 入门。大家需要完成资源入口表和环境自检表,先搞清楚官方 baseline、赛事数据集、技术文档、仿真资产分别是什么。

第 2 课,会进入数据采集与 LeRobotDataset。重点不是泛泛而谈“数据很重要”,而是直接看 GHRC episode 里四路相机、状态、动作、任务指令到底怎么组织。

第 3 课,会讲 ACT 训练链路。大家会理解一个模仿学习策略如何从数据中学会动作,以及训练配置怎么写、怎么改、怎么复现。

第 4 课,会重点分析训练效果和 GHRC 迁移。模型为什么会抖?为什么仿真成功但推理失败?视频回放应该看什么?这些都会在这一课展开。

第 5 课,会做算法对比和线上项目收口。学员需要完成线上项目报告和算法对比表,为线下真机 Demo 做准备。

最后,线下 2 天会进入 Walker S2 EDU 和天工行者真机实践,完成项目联调、Demo 展示、训练分析报告和认证评审。

第 1 课开讲:从人形机器人本体亮相,到 GHRC 入门,真正走进 VLA 实训营图2

四、为什么第 1 课要讲 VLA?

因为今天的人形机器人开发,已经不能只看单点模块了。

过去机器人系统通常被拆成“感知、规划、控制”几个层级。

相机负责看,检测模型负责识别,规划器负责算轨迹,控制器负责执行。这套方法稳定、可解释,但在复杂开放场景中,往往需要大量人工建模和工程调参。

而 VLA,也就是 Vision-Language-Action,代表了另一条路线:

机器人输入图像和语言指令,策略模型直接生成动作序列,再交给底层控制系统执行。

简单说,VLA 让机器人能够“看图、听指令、直接动手”。

Vision 是机器人的眼睛,负责把 RGB 图像、深度图、点云、触觉、力觉等观测编码成模型可以理解的特征。

Language 或 LLM 是机器人的大脑,负责理解任务指令,比如“把工件分拣到蓝色框里”,并结合视觉信息进行推理。

Action 是机器人的手,负责把推理结果变成可执行动作。动作可以是关节角度,也可以是末端位姿;可以被离散成 token,也可以用连续模型生成。

这三部分接起来,就是完整的 VLA。

五、从 LLM 到 VLM,再到 VLA

第 1 课开讲:从人形机器人本体亮相,到 GHRC 入门,真正走进 VLA 实训营图3

VLA 不是凭空出现的,它是顺着大模型的发展路线一步步长出来的。

第一阶段是 LLM,也就是大语言模型,比如 GPT、LLaMA、Qwen。它们能理解文本、推理、写代码、总结内容,但只能处理语言。

第二阶段是 VLM,也就是视觉语言模型,比如 LLaVA、Qwen-VL、PaliGemma。它们在语言模型基础上接入视觉编码器,可以看图说话,但仍然只能回答,不能真正执行动作。

第三阶段是 VLA,也就是视觉语言动作模型。它在 VLM 的基础上接入动作输出,让模型不仅能看、能说,还能真正控制机器人动起来。

OpenVLA 是其中非常有代表性的开源工作。它用视觉语言模型作为骨干,在大量机器人示范数据上微调,让模型直接输出机器人动作。它的重要意义在于,把 VLA 从少数大公司的私有系统,变成了更多开发者可以复现、研究和改进的开源路线。

当然,VLA 也不是只有一种路线。OpenVLA 代表的是离散动作 token 路线;而 π0、GR00T 等工作则更多采用连续动作生成路线,例如 Flow Matching。这些内容会在后续课程中继续展开。

第 1 课开讲:从人形机器人本体亮相,到 GHRC 入门,真正走进 VLA 实训营图4

六、VLA 最大的瓶颈不是模型,而是数据

很多人一提 VLA,第一反应是模型架构、参数规模、GPU 算力。

但真正做过机器人训练的人都知道,最难的往往不是模型,而是数据。

机器人数据和互联网图文数据完全不同。它需要真实操作,需要动作记录,需要多相机同步,需要状态和动作对齐,还要覆盖足够多的物体、场景、姿态、失败情况和边界条件。

没有高质量数据,再强的模型也很难学会稳定操作。

这也是为什么本次课程专门安排第 2 课讲数据采集与 LeRobotDataset。学员需要真正看懂一个 episode 是什么,机器人每一帧观测里有什么,状态和动作如何保存,人的操作如何变成策略可以学习的数据。

一句话总结:VLA 的燃料不是 PPT,而是数据。

七、第 1 课作业:先把入口和环境搞清楚

第 1 课结束后,学员需要完成两个基础作业。

第一个作业是官方资源入口表。

大家需要写清楚 baseline、赛事数据集、技术文档、仿真资产分别用于什么。比如 GHRC 官方 baseline 用于 Walker S2 仿真、ACT 训练与推理;赛事数据集提供四大任务的仿真 episode;赛事规程定义任务与评分;Thinker cosmos 则是报名与开发者社区入口。

第二个作业是环境自检表。

大家需要说明自己的 GPU、磁盘、系统、Isaac Sim 条件,或者是否使用助教机。跑通 GHRC baseline 对硬件有一定要求,例如显卡、内存、存储、CUDA、Docker、NVIDIA Container Toolkit 等。

硬件不足的同学也不用担心。

本次课程会提供助教机上的训练结果和推理视频,作业可以走“读懂流程 + 分析结果”的路线。重点不是每个人都必须从第一天开始本地跑满训练,而是先建立正确的理解框架。

八、下一课:看懂机器人数据

第 1 课帮助大家完成了三件事:

知道实训营要产出什么,知道 GHRC 和优必选开发者生态是什么,知道 VLA 为什么是人形机器人开发的重要入口。

下一课,我们会正式进入数据采集与 LeRobotDataset。

如果说第 1 课是在看地图,第 2 课就要开始拆发动机。我们会一起看 GHRC 数据集里的 episode、四路相机、状态、动作和任务指令到底怎么组织,理解人的操作如何变成机器人策略能够学习的数据。

人形机器人开发不是只看宣传片,也不是只背几个模型名。

真正重要的是:你能不能把任务跑起来,能不能看懂失败,能不能一步步把成功率做上去。

这也是本次实训营最想带大家完成的事。



-END-

Ask Me Anything|提问箱

对文章有疑惑,或想聊更深?欢迎把你的问题丢给我们:技术方案、实操踩坑、课程与资料、项目合作、职业发展,都可以问。

怎么问:在评论区留言,或私信公众号

我们会做什么:每周集中整理高质量问题并公开回复,重点问题邀请作者或嘉宾深度解答;典型问题会加入知识库并持续更新。

提问小提示:尽量说明「你的目标—当前做法—期望产出」,附上必要信息(硬件/软件版本、数据规模等),能更快获得有用答案。

一起把问题变成知识,推动社区进步 🚀

第 1 课开讲:从人形机器人本体亮相,到 GHRC 入门,真正走进 VLA 实训营图5

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
机器人
more
一周内15家具身机器人企业获超60亿元融资;来福谐波通过港交所上市聆讯 | 一周资本大事件
工业现场不用精密靶标也能精准标定:基于平行线约束的机器人手眼标定新方法
Genesis AI 发了一款三折叠机器人
人类不可能永远迁就机器人
88家机器人产业链上市企业2025年业绩透视
李开复孵化的托盘机器人,获极智嘉战略投资!
拓竹消费级3D打印机国内销量破百万台:比肩扫地机器人扩展速度
专访卓益得李清都:二十年只为“完全仿生机器人”,四大场景撬规模化订单
给 VLA 补上「手感」:徐丹飞和李飞飞,想让机器人学会「摸着干活」
多点开花、场景深耕:2026 年四足机器人新品全景与技术迭代解析
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号