知乎高赞!具身VLA&机器人控制算法近期进展笔记

智猩猩 2025-10-18 16:43

大会预告

知乎高赞!具身VLA&机器人控制算法近期进展笔记图1

11月19日,2025中国具身智能机器人大会将于深圳举办。聚焦人形机器人、工业具身机器人、机器人模仿学习与强化学习、VLA、世界模型等议题。首批嘉宾已公布,顶会CoRL 2025最高奖项获得者黄思远将出席,更多嘉宾即将揭晓。欢迎报名~


作者:Jeungtao


地址:

https://zhuanlan.zhihu.com/p/1940101671704327220


因为之前做过两年强化学习相关的工作,看到最近VLA也有一些突破,出于个人兴趣,业余时间学习了一下,也做了点笔记,分享到这里。主要是RL的Context下这两年VLA/Diffusion Policy。最适合有一些RL背景,想了解一些新的进展的朋友阅读。如有疏漏敬请指出。分别从法范应用场景两个维度展开。


1

方法范式


1. 传统强化学习(RL)/模仿学习 + Sim2Real





2. Diffusion Policy、Flow Matching与VLA模型


个人觉得VLA系列与传统RL一个根本性的区别是RL任务目标输入方式靠reward function,难以描述复杂的任务的过程和目标(比如何折衣服符合人类的喜好,折好后放到哪里"reward"更大,如何收拾桌面符合人类"整洁"的定义,这些都是比较模糊的,更进一步地,一些长程任务如餐后收拾桌面和洗餐具、洗衣服烘干和晾晒等,则更难用reward shapping规则化地描述);


相比起来,Diffusion和VLA本质上则是在用训练数据的分布去描述任务过程和目标(尽管某些文献可能将其归于"offline-RL",注意区别于RL语境下的onpolicy和offpolicy),因此潜在可以执行可以更复杂的任务;目前也确实看到VLA系列在一些复杂任务中取得一些传统RL无法做到的突破。实际应用上,VLA中的L可以用语言去索引这个任务目标的分布;尽管目前复杂任务往往不能很好的靠描述来执行,像如pi0中的部分复杂任务,还需要额外数小时甚至上百小时的训练数据,通过post-traning去“描述”任务过程和目标(本质上还是数据量不够?);


知乎高赞!具身VLA&机器人控制算法近期进展笔记图2

知乎高赞!具身VLA&机器人控制算法近期进展笔记图3


知乎高赞!具身VLA&机器人控制算法近期进展笔记图4


知乎高赞!具身VLA&机器人控制算法近期进展笔记图5
pi-0
知乎高赞!具身VLA&机器人控制算法近期进展笔记图6
pi-0 所使用的数据分布比例
知乎高赞!具身VLA&机器人控制算法近期进展笔记图7
有些复杂的task还得额外的post-training


知乎高赞!具身VLA&机器人控制算法近期进展笔记图8


CVPR的挑战赛冠军,字节的工作 https://www.arxiv.org/pdf/2506.07961 主要的想法起源是现有的VLA模型大多以2D图像作为输入,但Manipulation实际上是3D任务,如何能把3D信息在VLA模型中有效的用起来。


最直观的想法可能是可以使用RGBD或者点云的网络比如PointNet系列(做自动驾驶的都知道),但是点云可没有互联网scale的数据预训练的网络。所以这个工作的做法是,把点云朝正交的三个方向(顶部、正面和左右侧)做投影。这样就能用起来目前2D VL的框架。然后输出的部分也不直接预测action token了。网络去预测每个视角的热力图。有多个视角的热力点,结合RGBD相机内参就能几何反投影的方法(solve pnp嘛)预测出位置了 - 这个位置就是末端执行器的位置。旋转和gripper等就用一个接到原投影图和热力图上的额外的mlp去预测。实际是coarse-to-fine地预测translation,第一次全量点云,第二次截取中心区域点云(可能调整投影时fxfy也行?)。


主干网络通过预测热力图进行预训练。输入图像与其对应的文本描述,数据标签就是符合某个分布的热力图这样。其实是在强调VLM的2D空间感知能力,能够根据语言描述在图像中精准定位目标。后续通过多视图几何转换到3D action。所以3D靠显式的后处理来应对,模型只要关注2D映射就好。需要网络映射的空间少了一个维度,又把RGBD中真实的3D坐标信息也引进来了(不用根据2D图猜3D位置),学得肯定就更好嘛。


知乎高赞!具身VLA&机器人控制算法近期进展笔记图9


很多VLA模型都在用流匹配建模动作分布(RDT,HRDT,pi系列方法等),在这里highlight一下。


流匹配(Flow Matching, FM)跟diffsion model相似,建模从简单的已知分布(通常是标准正态分布)到复杂目标数据分布(机器人动作序列的在给定图像和Language下的条件概率分布)的映射关系。


举例:假设我们要让机器人完成叠衣服的任务,网络输入的时间参数 t从 0 到 1 均匀划分成 10 个时间步(T=10,Δt=0.1)。从标准正态分布中采样得到初始潜在变量 x0:



注意区分这个时间步并不是机器人动作序列的时间步骤,仅仅是分布变换的时间步。个人理解主要是在高维空间做插值/平滑,稳定分布到分布的训练过程。


知乎高赞!具身VLA&机器人控制算法近期进展笔记图10
Flow Matching


相比扩散模型,先构造概率分布的直线流路径 aτ=τ⋅at:t+H∗+(1−τ)z,这里 z是高斯噪声,τ是流时间的参数化。这个公式定义了从噪声到目标动作的“插值 / 流映射”,类似于扩散模型那样分“前向加噪、反向去噪”两个阶段迭代,但没有显式的模拟去噪的过程。


然后神经网络 vθ学习预测这个阶段分布变化的向量场,损失函数 LFM是让网络预测的向量场和“从噪声到目标动作的差值”尽量接近。


FM对目标分布和源分布无要求(比如源分布不是必须高斯),所以有一种更直接的思路是,image和action分别用类似VAE的方式训练得到潜在表示,然后直接使用FM做image的隐空间到action的隐空间的映射。VITA就是这样来做的 

https://arxiv.org/pdf/2507.13231


3. 典型数据集






2

应用场景层面


其实不同场景下的技术路线还是比较明确的,可以分成两类:



1. 人形/四足机器基础运动控制


宇树



智元



Tien Kung-Lab框架



还有其他一些资料不再展开,整体上以RL+sim2real为主,模型一般都较小,对算力消耗不大。部分还在用传统的运动控制算法。


个人觉得实际上目前业内解决的并不是非常好,除了个别特调的demo,全场景都能像人或者动物一样“丝滑”的动作还是有一定距离的。看去年的机器人马拉松比赛各种摔倒,今年机器人运动会,宇树慢动作+小碎步,春晚还得被牵着脖子,即使特斯拉的机器人也是小碎步降低摔倒可能。有些朋友觉得底层控制“很成熟了”,其实也未必。


2. 复杂/长程操作任务


到现在范式逐渐收敛,主要用的架构是一个预训练的ViT编码器,接一个预训练好的LLM,然后使用diffusion/流匹配/autoregressive的transoformer进行action的输出。训练模式就先在跨本体大数据集上训练,再通过post training微调策略实现跨机器人泛化控制。


知乎高赞!具身VLA&机器人控制算法近期进展笔记图11
图片来自 https://arxiv.org/pdf/2507.10672v1


算力方面,参考pi0,预训练阶段利用10,000小时多机器人数据学习通用物理能力,微调阶段1-5小时到上百小时的任务数据。VLA模型规格方面,如pi0 是33亿参数(3B VL+300M Action),HRDT是20亿,diffusion是80亿-100亿级别。由于模型较大,实际机器人执行需要较高频率,很多实际部署案例会分开VL和A为两套系统(快/慢系统、云端/本地系统):


Phisical Intelligence的pi系列


参考第一部分,不再复述。


Google Gemini Robotics


云端 VLA 骨干 (Gemini Robotics backbone): Gemini Robotics-ER 的一个蒸馏版本 ;Gemini Robotics-ER 本身就是 Gemini 2.0 模型经过增强具身推理能力后的产物 。负责处理多模态输入(包括图像、文本指令、机器人本体感受等)并执行高层次的具身推理和规划。延迟经过优化,160 毫秒附近。

本地动作解码器 (Local action decoder):轻量级组件,运行在机器人本体的机载计算机上(onboard computer) 。接收来自云端 VLA 骨干的潜在动作(latent actions)或高层次规划指令,并将其解码、转换为机器人执行器能够理解和执行的低级控制信号(executable control signals)或动作块(action chunks) 。本地解码器也用于补偿云端骨干带来的网络延迟,确保机器人能够以高频率(例如 50 Hz 的有效控制频率)进行平稳、反应灵敏的运动 。


知乎高赞!具身VLA&机器人控制算法近期进展笔记图12
Google 25年3月份的文章 https://arxiv.org/abs/2503.20020

Nvidia的Groot


知乎高赞!具身VLA&机器人控制算法近期进展笔记图13

Figure AI的Helix系列“快慢架构”


demo很不错,叠衣服是看过众多演示里面最丝滑的:
https://www.figure.ai/news/helix-learns-to-fold-laundry 

https://zhuanlan.zhihu.com/p/1939227350622529030


知乎高赞!具身VLA&机器人控制算法近期进展笔记图14


3

总结和主要挑战







技术路线争论


看下最近的方法范式和路线之争论:


知乎高赞!具身VLA&机器人控制算法近期进展笔记图15
知乎高赞!具身VLA&机器人控制算法近期进展笔记图16


我觉得主要是因为思考的出发点不一样。



大约2018年时候在地平线AGI实验室工作时候,一次徐伟老师来北京,跟畅哥一起吃饭有讨论类似问题,具体记不太清了,大概逻辑是:人类智能来自于哪里,从脊椎动物算,数千万年上亿年的与自然交互和数百万年人类社群之间交互的进化过程。AGI的实现,要么重走这个过程通过环境交互涌现出AGI(对应真实世界/仿真环境中的RL);要么就是从海量人类的behavior中学习映射来实现AGI(对应当时的模仿学习,以及后来的现在的大语言模型、端到端、VLA等)。所以我觉得,目前来说偏底层、在解决某种控制律(双腿行走平衡跳跃等)、容易定义显式reward function的任务更适合前者;引入人类喜好、涉及语言描述、分阶段的复杂长程任务会更适合后者。


END


智猩猩矩阵号各专所长,点击名片关注




声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
机器人
more
AI解锁焊接机器人研发新范式!
中国机器人的青年天团齐聚!大湾区具身智能机器人大会首批嘉宾公布
孚腾资本领投、理想汽车跟注!「千觉机器人」再获得亿元投资,站上530亿触觉感知风口
移动操作机器人:未来1569亿工业具身智能市场的核心力量?
太狠了,四条腿被锯掉也能爬!通用大脑开启机器人「无休」时代
突发!苏州一机器人公司原地解散,成立仅数月、融资数亿!
特斯拉或已向国内一家厂商下达零部件大单 将用于Optimus人形机器人
星宇股份与节卡股份签署战略合作协议,深化具身智能在汽车智造及机器人产业的融合创新
全球具身智能与机器人洪流强势袭来!IROS 2025 Startup Forum - 全新活动,杭州始发!
对话智元合伙人姚卯青:智元工业机器人不跟传统机械臂比,明年海外收入占比或达3成
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号