上半年具身信息量太大了，WAM、VLA、真机RL这些该补的方向，我们盘齐了。

点击下方卡片，关注“具身智能之心”公众号

2026 年过半。

回头看具身这条线，信息密度大得有点离谱。光是我们后台，几乎每天都有同学在问同一类问题：「VLA 和世界模型到底什么关系？」「真机 RL 该从哪入门？」「没有真机，这东西还能学吗？」

半年时间，这个方向的技术路线，迭代了几次。我们干脆盘一盘——这半年最值得补的几个方向，到底发生了什么，以及一个真想入局的人，该怎么补。

半年时间，具身的技术地基换了好几块

先把这半年最硬的几条线，一条条拎出来。

这半年 VLA 没降温，只是比拼的地方往后挪了。去年还在比「能不能端起一个杯子」，今年比的是同一个模型能不能跨任务、跨本体泛化，能不能在一长串动作里不崩、错了还能自己纠回来。

π0 到 π0.6 这条线最明显的变化，是开始往里加 RL 做后训练——光靠模仿学习喂示教，泛化是有天花板的，RL 负责把这层天花板再往上抬一截；再配上 flow matching 让动作更平滑、快慢双系统让它边想边做。

简单来说，VLA 还是那个「看懂画面 + 听懂指令 → 直接输出动作」的默认大脑，只是门槛已经从「跑通一个 demo」，抬到了「在真实场景里稳定干活」。

过去 WM 大多只干两件事：生成训练数据、当离线仿真器，很少真正参与机器人的当下决策。今年这件事在变。我们前几天刚写过智源大会上星源智 ω-EVA 那篇——世界模型第一次走进机器人「出手前那一下」，实时修正动作。VLA 和 WM 怎么融合，成了今年上半年最热的叙事之一。

模仿学习有天花板：你示教得再多，模型也只是在「模仿」，碰到没见过的情况就抓瞎。真机 RL 补的就是这一块——让机器人在真实环境里试错、拿反馈、自己调。说白了，模仿学习教它「照着做」，RL 才教它「做对」。这条线今年明显从论文走向了工程刚需。

具身这行有个老毛病：一个漂亮的 demo 视频，根本说明不了模型到底行不行。换个物体、换个光照、换个摆放，成功率可能就崩了。所以今年「怎么公平地考一个具身模型」本身成了硬课题——RoboArena 这类真实世界盲测榜单开始被当回事。

说白了，评测就是帮你分清「demo」和「deployment」的那把尺子。这条线看着不性感，却是判断一个模型有没有真本事的关键。

模型是兵器，数据是粮草。真机数据怎么采得便宜、采得多、还能转起来，半年里依然是所有团队最头疼也最较劲的地方。

把这几条线连起来看会发现，它们不是孤立的：VLA 打底、RL 调优、WM 参与反馈、评测划定标准、数据飞轮供血——这套东西正在拧成一个整体。

这，就是这半年具身技术栈最大的变化。

可看得懂趋势，不等于上得了手

但趋势看得明白，是一回事；自己能不能上手，是另一回事。

这半年同学问我们最多的，其实不是「这是什么」，而是「我到底该从哪开始」。痛点很集中：

信息太碎。论文一天好几篇，名词一茬接一茬：retargeting、flow matching、credit assignment、embodiment gap……还没搞懂上一个，下一个又来了。
路径不清。尤其是小白和转行的同学，VLA、RL、WAM 摆在面前，不知道先学哪个、它们怎么衔接，很容易学一半就乱了。
真机门槛高。没有本体、没有数采环境，很多东西学了也跑不起来，卡在「只能看，不能做」。
RL 和数学劝退。强化学习这块，公式一上来就劝退一批人，折扣因子、credit assignment 这些点，自己啃特别费劲。
不会看评测、不会做科研。看不懂榜单背后的测试条件，容易被 demo 带跑；想发论文的同学，又常卡在选题、实验设计、怎么写，投出去石沉大海。