ICML 2026 Spotlight | 银河通用王鹤博士署名论文,提出机器人长时程层次化规划框架

智猩猩 2026-06-05 16:28
智猩猩Pro整理
编辑:六六

让机器人完成一项像柜子组装这样的长时程任务,传统方法即便采用稀疏奖励,也难以避免中间步骤的微小偏差逐级放大,最终导致任务失败。误差累积问题在长时程操作中尤为致命。


进一步分析会发现,高层规划生成需要探索能力,底层轨迹执行依赖计算效率。二者无法由同一生成范式同时满足——这是该研究的核心结论,也直接决定了其采用层次化异构生成模型的技术路径。


基于这一发现,北大助理教授&银河通用创始人王鹤等研究人员提出了面向长时程任务的层次化规划框架 HDFlow王鹤博士是该论文的通讯作者,此前也在智猩猩(原智东西公开课)带来过讲座讲解。


通过利用扩散模型与 Rectified Flow 模型的各自优势,克服了单一范式生成式规划器的局限性。实验通过仿真与真实机器人平台在四项家具组装任务上验证了该方法的有效性,结果表明 HDFlow 在成功率与执行效率上均显著优于现有先进方法,证明了层次化生成式规划思路在长时程机器人任务中的实际价值。相关成果论文入选 ICML 2026 Spotlight。


ICML 2026 Spotlight | 银河通用王鹤博士署名论文,提出机器人长时程层次化规划框架图1


01

方法


如图 1 所示,HDFlow采用两阶段训练过程处理长时程操作任务。研究团队环境表征学习与任务规划学习解耦。


ICML 2026 Spotlight | 银河通用王鹤博士署名论文,提出机器人长时程层次化规划框架图2

图1 HDFlow 流程。


第一阶段:世界模型学习


世界模型从 RGBD 图像和机器人本体状态这类原始观测中学会环境变化规律,提炼出一个结构化的潜在空间。



这个空间同时满足把高维观测中的噪声信息压缩,以及把与任务进展相关的动力学特征保留两个目标。


这一阶段完整的训练目标结合了世界模型损失、逆动力学损失和对比损失:

ICML 2026 Spotlight | 银河通用王鹤博士署名论文,提出机器人长时程层次化规划框架图3


这一阶段之后,世界模型的权重会被冻结,其编码器用于为下一阶段生成静态的结构化潜在表示数据集。


第二阶段:层次化规划器训练


在第一阶段固定的结构化潜在空间之上,将长时程规划问题形式化为条件生成建模任务。HDFlow 采用混合生成架构,将不同生成模型适配于不同规划层级。


(1)高层规划器:流形感知的 EBM 引导扩散


高层规划器是一个条件扩散模型给定当前状态  和最终目标  ,生成一组目标  ,让机器人一步一步执行。


扩散模型的特点是:从随机噪声开始,慢慢聚拢成一个合理的子目标序列。这种方法能探索出多种可能的路径,但有一个问题——它不能保证所有生成的计划都能成功,尤其是在小误差会累积的长时程场景中

  

为解决此问题,在推理阶段引入一个基于能量的模型进行显式引导EBM  是一个独立的网络,被训练用于对高质量潜在子目标序列预测低能量,对低质量序列预测高能量。


EBM就像是一个打分器,在推理的时候,扩散模型每走一步,EBM 就拉一把,尽量避开那些看着像但其实是死路的计划。其采用对比损失进行训练:


ICML 2026 Spotlight | 银河通用王鹤博士署名论文,提出机器人长时程层次化规划框架图4


然而,在高维潜在空间中,不精确的引导可能导致流形偏离,即引导样本漂移离开可行的潜在子目标流形。


流形感知引导为减轻这种流形偏离,研究采用两步流形感知过程来增强标准 EBM 引导,如图 2 所示。


ICML 2026 Spotlight | 银河通用王鹤博士署名论文,提出机器人长时程层次化规划框架图5

图2 流形感知的 EBM 引导扩散步骤。



两步协同既遵循 EBM 的引导以规避失败轨迹,同时确保采样点始终位于可行的流形之内。


(2)低层规划器:用于轨迹生成的 Rectified Flow


低层规划器的角色是生成到达给定子目标  的稠密、短时域潜在轨迹  。这条轨迹由一系列连续的潜在状态组成,长度固定为 H 步,并且最终要能转化为真实的机器人动作。


传输成本在潜在空间中尽可能笔直的轨迹上被最小化,研究采用 Conditional Rectified Flow 模型以利用其速度优势。Rectified Flow 模型不直接输出轨迹,而是预测从起点到终点的速度场


该模型被训练用于在上下文  条件下生成轨迹段  ,通过最小化公式中的标准流匹配目标实现


ICML 2026 Spotlight | 银河通用王鹤博士署名论文,提出机器人长时程层次化规划框架图8


(3)训练与推理


层次化规划器的各组件通过一个组合损失函数进行联合训练,该函数结合了高层规划器、低层规划器、EBM 和流形一致性的目标:


ICML 2026 Spotlight | 银河通用王鹤博士署名论文,提出机器人长时程层次化规划框架图9

ICML 2026 Spotlight | 银河通用王鹤博士署名论文,提出机器人长时程层次化规划框架图10


机器人不是一次性把整条路都算好再去走,而是走一段看一段:



此后更新当前状态,高层规划器再次调用,生成新的子目标序列……如此往复直到最终目标达成。


02

评估


1 与现有方法相比,HDFlow 在复杂、长时程机器人任务上是否达到了 SOTA?


HDFlow 在 FurnitureBench 上进行评估,如表1的实验结果所示,HDFlow 在所有四个具有挑战性的家具装配任务以及不同初始随机化水平上均表现出优越性能。


表 1 FurnitureBench 仿真环境中的性能表现。上半部分模仿学习方法,下半部分基于扩散的规划器。

ICML 2026 Spotlight | 银河通用王鹤博士署名论文,提出机器人长时程层次化规划框架图11


HDFlow 在 RLBench 和 OGBench 两类基准上的实验表现同样优秀,该架构的设计并不局限于某些特定任务,而是一种相对通用的长时程规划架构。


2 混合架构与非混合层次化规划器以及单一规划器相比表现如何?


实验考虑了 FD(扁平扩散)、HF(层次化流)和 HD(层次化扩散)。表 2 实验结果表明,研究所提的混合架构显著优于单一范式或扁平化方法


表 2 对于高层和低层规划器生成模型选择的消融研究,及其在 lamp 任务上的计算效率。

ICML 2026 Spotlight | 银河通用王鹤博士署名论文,提出机器人长时程层次化规划框架图12


3 HDFlow 核心组件的贡献是什么?


表 3 的实验结果表明,每个新增组件对 HDFlow 的整体成功均有可衡量的贡献,凸显了所提多维度方法对长时程任务的重要性。


表3 HDFlow 核心组件的消融研究。

ICML 2026 Spotlight | 银河通用王鹤博士署名论文,提出机器人长时程层次化规划框架图13


4 HDFlow 在推理过程中是否具有优越的计算效率——这是实时机器人控制的关键因素?


表 2 的实验通过测量每个规划步的平均推理时间评估了这些变体的计算效率。实验结果分析可以得到,HDFlow 的混合架构并未牺牲计算效率来换取性能,而是在两者之间找到了合理的工程平衡。


真实环境中 HDFlow 与普通行为克隆 (BC) 和隐式 Q 学习 (IQL) 进行比较,如表 4 所示。HDFlow 显著优于两个基线,在所有任务上均取得了较高的成功率,并且在初始随机化增强的情况下仍保持了鲁棒的性能,从而验证了其在真实世界机器人任务中的有效性


表4 FurnitureBench 真实环境中的性能表现。针对不同的初始随机化水平,报告了成功率(10 个回合中的成功次数)。

ICML 2026 Spotlight | 银河通用王鹤博士署名论文,提出机器人长时程层次化规划框架图14


03

研究团队


王鹤:通讯作者。北京大学计算机学院前沿计算研究中心的助理教授及博士生导师,银河通用创始人&CTO,中关村学院研究型导师。致力于研发具身泛化技能及具身多模态大模型以推进通用机器人的发展。


Gireesh Nandiraju:第一作者。北京大学计算机科学专业的二年级博士生,师从王鹤教授,目前为银河通用实习研究员。长期研究目标是构建能够在家庭环境中导航并操纵物体的人形机器人,目前专注于学习面向接触丰富操作的、可进行sim-to-real 迁移技能


鞠沅良共同第一作者。多伦多大学计算机科学博士生。研究专注于机器人学和计算机视觉。

END

2026中国AI智能体大会

智猩猩主办的2026中国AI智能体大会7月2-3日杭州举行,大会设有开幕式,企业级AI智能体、AI智能体产品创新2场论坛,以及Coding Agent、自进化智能体、深度研究智能体、Computer-Use Agent、多智能体协同、Agent Skills、Agent Harness7场技术研讨会天津大学郝建业教授,复旦肖仰华教授,阿里巴巴通义实验室算法专家李晨亮,腾讯Frontier团队专家研究员王琰,美团通用Agent团队负责人顾奇将出席演讲。
ICML 2026 Spotlight | 银河通用王鹤博士署名论文,提出机器人长时程层次化规划框架图15

入群申请

ICML 2026 Spotlight | 银河通用王鹤博士署名论文,提出机器人长时程层次化规划框架图16

推荐阅读






点击下方名片 即刻关注我们

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
IC 机器人
more
下一个Anthropic不写代码,它在搬箱子!
Anthropic紧急叫停!Mythos被内鬼偷卖API
ICML 2026|脑电信号还在「一步步去噪」里生成吗?连续流匹配能不能学得更像大脑?
SOPIC出席RVEI通用高性能应用组2026年度线下会议
1500美元订单、三场合约、一次跨界:Micro LED光互连不再是“AR专用”
Agentic AI时代,为什么CPU比你想象得更重要
从芯片到场景:BOS半导体以Physical AI定义车载AI Box新范式
华大九天3DIC全流程:破解跨工艺多芯片,实现时间缩微新范式
Anthropic提交招股书,冲击万亿美元市值
教皇联手Anthropic预警:2030年AGI降临,人类只剩三年窗口期自救!
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号