让机器人完成一项像柜子组装这样的长时程任务,传统方法即便采用稀疏奖励,也难以避免中间步骤的微小偏差逐级放大,最终导致任务失败。误差累积问题在长时程操作中尤为致命。
进一步分析会发现,高层规划生成需要探索能力,底层轨迹执行依赖计算效率。二者无法由同一生成范式同时满足——这是该研究的核心结论,也直接决定了其采用层次化异构生成模型的技术路径。
基于这一发现,北大助理教授&银河通用创始人王鹤等研究人员提出了面向长时程任务的层次化规划框架 HDFlow。王鹤博士是该论文的通讯作者,此前也在智猩猩(原智东西公开课)带来过讲座讲解。
通过利用扩散模型与 Rectified Flow 模型的各自优势,克服了单一范式生成式规划器的局限性。实验通过仿真与真实机器人平台在四项家具组装任务上验证了该方法的有效性,结果表明 HDFlow 在成功率与执行效率上均显著优于现有先进方法,证明了层次化生成式规划思路在长时程机器人任务中的实际价值。相关成果论文入选 ICML 2026 Spotlight。

论文标题:
HDFlow: Hierarchical Diffusion-Flow Planning for Long-horizon Tasks
论文链接:
https://arxiv.org/pdf/2605.04525
项目主页:
https://hdflow-page.github.io/
01
方法
如图 1 所示,HDFlow采用两阶段训练过程处理长时程操作任务。研究团队将环境表征学习与任务规划学习解耦。

图1 HDFlow 流程。
第一阶段:世界模型学习
世界模型从 RGBD 图像和机器人本体状态这类原始观测中学会环境变化规律,提炼出一个结构化的潜在空间。
采用带有预训练 DINOv2 模型的编码器的循环状态空间模型架构;
RSSM 学习将观测编码到潜在空间中,并被训练以准确重构观测并预测未来状态。
这个空间同时满足把高维观测中的噪声信息压缩,以及把与任务进展相关的动力学特征保留两个目标。

搭建骨架:世界模型负责从原始观测中提炼出一个可预测、可重构的潜在空间。 骨架运动:逆动力学模型用于预测在两个连续潜在状态之间转移所采取的动作,进一步使潜在空间对控制具有信息性;
地图导航:对比学习提供密集的学习信号并组织潜在空间以实现更有效的下游规划。成功轨迹上的中间点会被拉向终点,失败轨迹上的点则被推开。
这一阶段之后,世界模型的权重会被冻结,其编码器用于为下一阶段生成静态的结构化潜在表示数据集。
第二阶段:层次化规划器训练
在第一阶段固定的结构化潜在空间之上,将长时程规划问题形式化为条件生成建模任务。HDFlow 采用混合生成架构,将不同生成模型适配于不同规划层级。
(1)高层规划器:流形感知的 EBM 引导扩散
高层规划器是一个条件扩散模型,给定当前状态
扩散模型的特点是:从随机噪声开始,慢慢聚拢成一个合理的子目标序列。这种方法能探索出多种可能的路径,但有一个问题——它并不能保证所有生成的计划都能成功,尤其是在小误差会累积的长时程场景中。
为解决此问题,在推理阶段引入一个基于能量的模型进行显式引导。EBM
EBM就像是一个打分器,在推理的时候,扩散模型每走一步,EBM 就拉一把,尽量避开那些看着像但其实是死路的计划。其采用对比损失进行训练:

然而,在高维潜在空间中,不精确的引导可能导致流形偏离,即引导样本漂移离开可行的潜在子目标流形。
流形感知引导。为减轻这种流形偏离,研究采用两步流形感知过程来增强标准 EBM 引导,如图 2 所示。

图2 流形感知的 EBM 引导扩散步骤。
步骤 1:引导采样。按照 EBM 引导方向进行修正,得到中间临时点
: 
步骤 2:流形投影。将该临时点投影回真实的低维子流形:

两步协同既遵循 EBM 的引导以规避失败轨迹,同时确保采样点始终位于可行的流形之内。
(2)低层规划器:用于轨迹生成的 Rectified Flow
低层规划器的角色是生成到达给定子目标
传输成本在潜在空间中尽可能笔直的轨迹上被最小化,研究采用 Conditional Rectified Flow 模型以利用其速度优势。Rectified Flow 模型不直接输出轨迹,而是预测从起点到终点的速度场。
该模型被训练用于在上下文

(3)训练与推理
层次化规划器的各组件通过一个组合损失函数进行联合训练,该函数结合了高层规划器、低层规划器、EBM 和流形一致性的目标:


机器人不是一次性把整条路都算好再去走,而是走一段看一段:
高层规划器迭代调用:以机器人的当前潜在状态和目标状态为输入,为任务的剩余部分生成新的子目标序列。
低层规划器只负责下一步:取该序列的第一个子目标,负责生成从当前位置到第一个中间目标之间稠密的潜在轨迹。
逆动力学模型将潜在轨迹变成真动作:低层规划器输出的潜在状态序列不能直接执行,需将每对相邻状态输入到第一阶段的逆动力学模型,转换为具体动作后驱动机器人。
此后更新当前状态,高层规划器再次调用,生成新的子目标序列……如此往复直到最终目标达成。
02
评估
1 与现有方法相比,HDFlow 在复杂、长时程机器人任务上是否达到了 SOTA?
表 1 FurnitureBench 仿真环境中的性能表现。上半部分模仿学习方法,下半部分基于扩散的规划器。

HDFlow 在 RLBench 和 OGBench 两类基准上的实验表现同样优秀,该架构的设计并不局限于某些特定任务,而是一种相对通用的长时程规划架构。
2 混合架构与非混合层次化规划器以及单一规划器相比表现如何?
实验考虑了 FD(扁平扩散)、HF(层次化流)和 HD(层次化扩散)。表 2 实验结果表明,研究所提的混合架构显著优于单一范式或扁平化方法。
表 2 对于高层和低层规划器生成模型选择的消融研究,及其在 lamp 任务上的计算效率。

3 HDFlow 核心组件的贡献是什么?
表 3 的实验结果表明,每个新增组件对 HDFlow 的整体成功均有可衡量的贡献,凸显了所提多维度方法对长时程任务的重要性。
表3 HDFlow 核心组件的消融研究。

4 HDFlow 在推理过程中是否具有优越的计算效率——这是实时机器人控制的关键因素?
表 2 的实验通过测量每个规划步的平均推理时间评估了这些变体的计算效率。实验结果分析可以得到,HDFlow 的混合架构并未牺牲计算效率来换取性能,而是在两者之间找到了合理的工程平衡。
在真实环境中 HDFlow 与普通行为克隆 (BC) 和隐式 Q 学习 (IQL) 进行比较,如表 4 所示。HDFlow 显著优于两个基线,在所有任务上均取得了较高的成功率,并且在初始随机化增强的情况下仍保持了鲁棒的性能,从而验证了其在真实世界机器人任务中的有效性。
表4 FurnitureBench 真实环境中的性能表现。针对不同的初始随机化水平,报告了成功率(10 个回合中的成功次数)。

03
研究团队
王鹤:通讯作者。北京大学计算机学院前沿计算研究中心的助理教授及博士生导师,银河通用创始人&CTO,中关村学院研究型导师。致力于研发具身泛化技能及具身多模态大模型以推进通用机器人的发展。
Gireesh Nandiraju:第一作者。北京大学计算机科学专业的二年级博士生,师从王鹤教授,目前为银河通用实习研究员。长期研究目标是构建能够在家庭环境中导航并操纵物体的人形机器人,目前专注于学习面向接触丰富操作的、可进行sim-to-real 迁移的技能。
鞠沅良:共同第一作者。多伦多大学计算机科学博士生。研究专注于机器人学和计算机视觉。
END
✦
✦
2026中国AI智能体大会
✦

✦
✦
入群申请
✦

推荐阅读
点击下方名片 即刻关注我们