点击下方卡片，关注【Xbotics具身智能实验室】公众号

更多具身干货，欢迎加入（戳我）

👉具身智能学习资料汇总：https://github.com/Xbotics-Embodied-AI-club/Xbotics-Embodied-Guide

👉具身智能求职/实习信息汇总：https://github.com/Xbotics-Embodied-AI-club/Xbotics-Embodied-AI-Job

你想要的这里都有~~

第 1 课开讲：从人形机器人本体亮相，到 GHRC 入门，真正走进 VLA 实训营图1

人形机器人正在从“看起来很酷的演示视频”，走向每一个开发者可以亲手参与的工程现场。

过去大家看到的，可能是机器人在宣传片里行走、搬运、分拣、装箱，也可能是比赛 Demo 中完成一个个复杂任务。但真正的问题是：

这些能力到底怎么做出来？普通开发者能不能从零开始理解它、训练它、部署它，并最终让机器人在仿真和真机上真正动起来？

这正是本次 UBT × Xbotics 具身人形机器人开发实训营要解决的问题。

在第 1 课直播中，我们从实训营整体安排讲起，带大家认识优必选开发者生态、全球人形机器人挑战赛 GHRC、人形机器人本体，以及 VLA 的核心概念。

第 1 课不是单纯的“开营介绍”，而是帮助所有学员建立一张完整地图：接下来 20 天线上学习和 2 天线下真机实训，我们到底要做什么、怎么做、最后能拿到什么成果。

一、这不是听课，而是完成一条机器人开发链路

本次实训营的核心目标非常明确：不是让大家停留在概念层面，而是亲手走完一条完整的人形机器人开发链路。

这条链路包括：理解任务、读取数据、训练策略、推理验证、失败分析、项目复盘，最终在仿真和真机上完成 Demo 展示。

课程会围绕 GHRC 全球人形机器人挑战赛的四大典型任务展开，包括零件分拣、传送带分拣、泡沫嵌入和装箱。在线上阶段，大家会先基于官方 baseline 理解 Walker S2 仿真、LeRobotDataset、ACT 训练与推理流程；在线下阶段，再进入真机验证和成果展示。

也就是说，这不是“听完几节课了解一下人形机器人”，而是一次从数据到模型、从仿真到真机、从训练到分析的完整实践。

二、完整参加实训营，你能拿到五件套成果

本次实训营设计了一条非常清晰的成果路径：做出来，讲清楚，拿得出，被认可，走得远。

第一件成果，是项目 Demo。

这是整个实训营最硬的产出。学员需要在仿真环境中跑通 GHRC 四大任务，并在线下真机环节完成验证。一个真正跑起来的 Demo，远比“我学过 VLA”“我看过 ACT”更有说服力。

第二件成果，是训练分析报告。

模型跑通只是开始，能说清楚为什么成功、为什么失败，才是真正的能力。报告中需要记录训练曲线如何理解，推理视频里机器人在哪一步出错，修改哪个环节后效果发生变化。这种能力，也是机器人算法工程师和普通调包选手之间的重要分水岭。

第三件成果，是展示视频或项目材料。

很多同学做完项目后，成果只停留在本地代码和零散截图里，很难对外展示。本次实训营会帮助大家把 Demo、训练过程和分析结果整理成可以用于作品集、比赛、求职和社区展示的项目材料。

第四件成果，是结营证书与项目认证。

本次认证不是简单的参与证明，而是任务完成认证。课程会从线上参与、随堂作业、仿真训练、线下 Demo 和项目复盘几个维度综合评定。证书分为结业证书和项目认证证书，后者面向核心开发者、参赛选手与优秀学员。

第五件成果，是进入优必选开发者生态的机会。

实训营结束不意味着结束。表现突出的学员，可以继续接入 Thinker cosmos 社区、GHRC 赛事和优必选开发平台，把这次训练营作为进入人形机器人开发生态的起点。

三、学习路径：线上先行，线下验证

整个课程分为线上 5 次直播和线下 2 天真机实训。

第 1 课，是实训营介绍、本体亮相与 GHRC 入门。大家需要完成资源入口表和环境自检表，先搞清楚官方 baseline、赛事数据集、技术文档、仿真资产分别是什么。

第 2 课，会进入数据采集与 LeRobotDataset。重点不是泛泛而谈“数据很重要”，而是直接看 GHRC episode 里四路相机、状态、动作、任务指令到底怎么组织。

第 3 课，会讲 ACT 训练链路。大家会理解一个模仿学习策略如何从数据中学会动作，以及训练配置怎么写、怎么改、怎么复现。

第 4 课，会重点分析训练效果和 GHRC 迁移。模型为什么会抖？为什么仿真成功但推理失败？视频回放应该看什么？这些都会在这一课展开。

第 5 课，会做算法对比和线上项目收口。学员需要完成线上项目报告和算法对比表，为线下真机 Demo 做准备。

最后，线下 2 天会进入 Walker S2 EDU 和天工行者真机实践，完成项目联调、Demo 展示、训练分析报告和认证评审。

第 1 课开讲：从人形机器人本体亮相，到 GHRC 入门，真正走进 VLA 实训营图2

四、为什么第 1 课要讲 VLA？

因为今天的人形机器人开发，已经不能只看单点模块了。

过去机器人系统通常被拆成“感知、规划、控制”几个层级。

相机负责看，检测模型负责识别，规划器负责算轨迹，控制器负责执行。这套方法稳定、可解释，但在复杂开放场景中，往往需要大量人工建模和工程调参。

而 VLA，也就是 Vision-Language-Action，代表了另一条路线：

机器人输入图像和语言指令，策略模型直接生成动作序列，再交给底层控制系统执行。

简单说，VLA 让机器人能够“看图、听指令、直接动手”。

Vision 是机器人的眼睛，负责把 RGB 图像、深度图、点云、触觉、力觉等观测编码成模型可以理解的特征。

Language 或 LLM 是机器人的大脑，负责理解任务指令，比如“把工件分拣到蓝色框里”，并结合视觉信息进行推理。

Action 是机器人的手，负责把推理结果变成可执行动作。动作可以是关节角度，也可以是末端位姿；可以被离散成 token，也可以用连续模型生成。

这三部分接起来，就是完整的 VLA。

五、从 LLM 到 VLM，再到 VLA

第 1 课开讲：从人形机器人本体亮相，到 GHRC 入门，真正走进 VLA 实训营图3

VLA 不是凭空出现的，它是顺着大模型的发展路线一步步长出来的。

第一阶段是 LLM，也就是大语言模型，比如 GPT、LLaMA、Qwen。它们能理解文本、推理、写代码、总结内容，但只能处理语言。

第二阶段是 VLM，也就是视觉语言模型，比如 LLaVA、Qwen-VL、PaliGemma。它们在语言模型基础上接入视觉编码器，可以看图说话，但仍然只能回答，不能真正执行动作。

第三阶段是 VLA，也就是视觉语言动作模型。它在 VLM 的基础上接入动作输出，让模型不仅能看、能说，还能真正控制机器人动起来。

OpenVLA 是其中非常有代表性的开源工作。它用视觉语言模型作为骨干，在大量机器人示范数据上微调，让模型直接输出机器人动作。它的重要意义在于，把 VLA 从少数大公司的私有系统，变成了更多开发者可以复现、研究和改进的开源路线。

当然，VLA 也不是只有一种路线。OpenVLA 代表的是离散动作 token 路线；而 π0、GR00T 等工作则更多采用连续动作生成路线，例如 Flow Matching。这些内容会在后续课程中继续展开。

第 1 课开讲：从人形机器人本体亮相，到 GHRC 入门，真正走进 VLA 实训营图4

六、VLA 最大的瓶颈不是模型，而是数据

很多人一提 VLA，第一反应是模型架构、参数规模、GPU 算力。

但真正做过机器人训练的人都知道，最难的往往不是模型，而是数据。

机器人数据和互联网图文数据完全不同。它需要真实操作，需要动作记录，需要多相机同步，需要状态和动作对齐，还要覆盖足够多的物体、场景、姿态、失败情况和边界条件。

没有高质量数据，再强的模型也很难学会稳定操作。

这也是为什么本次课程专门安排第 2 课讲数据采集与 LeRobotDataset。学员需要真正看懂一个 episode 是什么，机器人每一帧观测里有什么，状态和动作如何保存，人的操作如何变成策略可以学习的数据。

一句话总结：VLA 的燃料不是 PPT，而是数据。

七、第 1 课作业：先把入口和环境搞清楚

第 1 课结束后，学员需要完成两个基础作业。

第一个作业是官方资源入口表。

大家需要写清楚 baseline、赛事数据集、技术文档、仿真资产分别用于什么。比如 GHRC 官方 baseline 用于 Walker S2 仿真、ACT 训练与推理；赛事数据集提供四大任务的仿真 episode；赛事规程定义任务与评分；Thinker cosmos 则是报名与开发者社区入口。

第二个作业是环境自检表。

大家需要说明自己的 GPU、磁盘、系统、Isaac Sim 条件，或者是否使用助教机。跑通 GHRC baseline 对硬件有一定要求，例如显卡、内存、存储、CUDA、Docker、NVIDIA Container Toolkit 等。

硬件不足的同学也不用担心。

本次课程会提供助教机上的训练结果和推理视频，作业可以走“读懂流程 + 分析结果”的路线。重点不是每个人都必须从第一天开始本地跑满训练，而是先建立正确的理解框架。

八、下一课：看懂机器人数据

第 1 课帮助大家完成了三件事：

知道实训营要产出什么，知道 GHRC 和优必选开发者生态是什么，知道 VLA 为什么是人形机器人开发的重要入口。

下一课，我们会正式进入数据采集与 LeRobotDataset。

如果说第 1 课是在看地图，第 2 课就要开始拆发动机。我们会一起看 GHRC 数据集里的 episode、四路相机、状态、动作和任务指令到底怎么组织，理解人的操作如何变成机器人策略能够学习的数据。

人形机器人开发不是只看宣传片，也不是只背几个模型名。

真正重要的是：你能不能把任务跑起来，能不能看懂失败，能不能一步步把成功率做上去。

这也是本次实训营最想带大家完成的事。

-END-

Ask Me Anything｜提问箱

❝
对文章有疑惑，或想聊更深？欢迎把你的问题丢给我们：技术方案、实操踩坑、课程与资料、项目合作、职业发展，都可以问。
怎么问：在评论区留言，或私信公众号
我们会做什么：每周集中整理高质量问题并公开回复，重点问题邀请作者或嘉宾深度解答；典型问题会加入知识库并持续更新。
提问小提示：尽量说明「你的目标—当前做法—期望产出」，附上必要信息（硬件/软件版本、数据规模等），能更快获得有用答案。
一起把问题变成知识，推动社区进步 🚀

第 1 课开讲：从人形机器人本体亮相，到 GHRC 入门，真正走进 VLA 实训营图5