图灵奖得主加持,蒙特卡洛树搜索×扩散模型杀回规划赛道|ICML 2025 Spotlight

量子位 2025-08-01 12:19
henry 发自 凹非寺
量子位 | 公众号 QbitAI

一个不起眼的迷宫导航任务,却能让一众模型“原形毕露”。

资讯配图

Diffuser和Diffusion Forcing双双翻车,通关率低得可怜。

唯独有一个模型,通关率高达 100%。

而它就来自图灵奖得主Yoshua Bengio与其团队提出的全新方法:蒙特卡洛树扩散(Monte Carlo Tree Diffusion, MCTD)

这个方法将“上古时代”的蒙特卡洛树搜索,和当下热门的扩散模型结合在一起,突破了扩散模型在长程任务推理阶段缺乏可扩展性的瓶颈,并成功入选ICML 2025的Spotlight。

资讯配图

Make MCTS Great Again?

如何在探索(Explore)未知可能性以寻找更优解和利用(Exploit)当前已知最佳方案之间取得平衡,一直是复杂决策和长程规划任务的核心挑战之一。

一个过于强调探索的系统可能效率低下,在大量平庸选项中徘徊;而一个过于强调利用的系统则可能过早收敛到局部最优,错过全局最佳解。

对于扩散模型来说,它虽然能够通过去噪过程实现高质量、全局一致的序列生成(对数据分布的“利用”),但缺乏在不确定性下主动探索不同未来路径的能力。

而MCTS恰恰具备通过树形搜索结构进行高效探索和局部优化的能力,因而能够系统地权衡探索与利用,并在多个决策点进行智能选择。

由此,MCTD将扩散模型的全局一致性生成优势与MCTS的局部探索决策能力相结合。通过将轨迹划分为多个子规划来作为MCTS节点,并对不同子规划实施差异化的去噪调度,实现了在长程规划中探索与利用的平衡,提高了规划的效率和质量。

通过MCTS实现异步控制

在传统的扩散模型中,尤其是在生成轨迹时,模型通常将整条轨迹视为一个整体进行去噪,并用N来表示n个时间步的状态。

与之相反,MCTD并不把整个N个时间步的轨迹作为一个整体去噪,而是将它划分为S个时间段。在论文中,MCTD则先将完整轨迹X划分5个没有重叠的子轨迹。

例如,如果 N=500,S=5,那么一个可能的划分是:

资讯配图

这些子规划在每个时间段(如1-100)是独立的,它们之间没有共享的时间步。

由此,每个子规划的结束可以看作是完整轨迹的一个切片。当模型对一个特定的子规划进行去噪时,这段子规划内部的所有时间步都会同时参与到去噪过程中,遵循针对该子规划设定的统一的去噪调度。

而在不同的子规划之间,MCTS决定了不同子规划的去噪进度和深度,并通过其四个阶段表现出来。

资讯配图

由此,模型一方面将传统的“状态”和“动作”的粒度提升到了“子规划”和“子规划间连接”的粒度;另一方面,则通过MCTS过程,控制前后子规划的降噪进度,实现异步控制,从而能够更高效地处理长序列生成和规划问题。

实验结果

MCTD在包括迷宫导航、机械臂操作、视觉迷宫(部分可观测环境)等任务上进行了测试。

在迷宫导航任务中,MCTD在所有地图尺寸(medium/large/giant)上均接近100%成功率,显著优于基线方法。

资讯配图

在机械臂立方体操作中,所有方法在单方块任务上性能相当。而MCTD-Replanning在多方块场景中表现出显著的性能优势,将双方块任务的成功率从22%提升至50%。

资讯配图

在视觉迷宫中,MCTD优于所有基线,表明其在高维感知空间中的鲁棒性。

资讯配图

最后,随着推理计算预算的增加(如增加最大去噪步数),MCTD成功率持续提升,而Diffuser/Diffuser-Random Search收益有限,验证了MCTD的推理可扩展性。

资讯配图

总体而言,尽管MCTD通过将基于搜索的规划与扩散模型结合,在推理阶段的可扩展性上取得了提升,但由于其类似“系统二”的深度推理方式,计算成本仍然较高。

此外,由于MCTD在大规模搜索空间中效率较低——即使采用了低维的元动作(meta-actions),评估多个轨迹假设的计算开销依然很高。

因此,如何提升整体效率成为了MCTD进一步改进的目标。

Fast-MCTD:加速100倍!

为了解决了MCTD计算开销大,推理时间长的缺点,研究团队又进一步推出了快速蒙特卡洛树扩散框架(Fast Monte Carlo Tree Diffusion,Fast-MCTD,相比前作MCTD,在特定任务上的推理速度提升了100倍。

资讯配图

在原始的MCTD框架中,主要有两个效率瓶颈:

首先,MCTS算法在设计上是顺序的,每次迭代(一次完整的Selection、Expansion、Simulation、Backpropagation)完成后,才会更新搜索树的统计信息(如节点访问次数和价值估计)。这种串行更新机制限制了算法的并行执行能力

其次,扩散模型在生成轨迹时需要执行多次迭代去噪操作。当处理长轨迹时,每一次去噪都是一个计算密集型任务,导致整体计算开销巨大。

因此,为了降低树搜索和迭代去噪的计算开销,同时保留 MCTD 强大的规划能力,Fast-MCTD集成了两种关键的优化技术:并行MCTD和稀疏MCTD。

并行MCTD:提升并行性

MCTD沿用了MCTS的顺序性,即每次模拟完成后才更新树。并行MCTD引入了并行处理,这是Fast-MCTD与前作最显著的区别。

并行MCTD允许K个并发的rollouts。每个rollout在共享的、固定快照(fixed snapshot)的搜索树上独立进行。

树的更新(价值估计和访问计数)只有在整个批次的所有rollouts完成后才统一应用 。不过,当批处理量增大时,树的统计信息会变得过时,降低选择的准确性,从而影响规划性能 。

为了解决上述问题,并行MCTD引入冗余感知选择 (Redundancy-Aware Selection - RAS):它在每个并行搜索阶段临时引入一个辅助访问计数变量,顺序跟踪当前批次中的选择,并在延迟树更新后重置。

这修改了标准UCT的选择准则,通过一个超参数惩罚当前批次中已被选中的节点,鼓励其他rollouts探索树的不同部分 。

资讯配图

由于扩散模型去噪操作昂贵,并行MCTD提出了统一的批处理策略,在扩展和模拟阶段同时处理多个由 RAS 选择的子规划。它通过调度噪声级别和同步DDIM(Denoising Diffusion Implicit Models)更新来批处理去噪步骤。为了处理子规划和不同引导级别,子规划被填充并打包成统一形状的张量,以实现GPU上的高吞吐量并行执行。

稀疏MCTD:减少Rollout长度

MCTD虽然将轨迹分段为子规划,但每个子规划内部仍然是相对密集的轨迹。Fast-MCTD引入了轨迹粗化,从根本上缩短了有效规划时域。通过轨迹粗化 (trajectory coarsening) 在更高的抽象层次上进行rollouts,从而减少rollout的长度和总计算成本。

具体来说,在训练扩散模型之前,通过每隔H步进行下采样,构建粗粒度轨迹数据集.使用在这些压缩表示上训练的专用稀疏扩散规划器来建模粗粒度轨迹。由此,涉及规划的子轨迹数量大大减少,降低总体搜索复杂度及去噪成本。

在迷宫导航测试中,Fast-MCTD相对于标准MCTD实现了约80-110倍的显著加速,而性能损失极小。

资讯配图

而在机械臂操作中,Fast-MCTD在保持MCTD性能的同时,显著提升了效率。

资讯配图

在视觉迷宫中,Fast-MCTD表现出显著的效率提升,比 MCTD 快 25-60 倍,而在更大的迷宫中甚至超越了MCTD。

资讯配图

可以说,Fast-MCTD 在保持或提升规划性能的同时,实现了数量级的速度提升(最高100倍),成为了更实用和可扩展的解决方案 。

ONE MORE THING

这两篇论文的一作均来自韩国科学技术院(KAIST)的博士生尹在植(Jaesik Yoon)。

资讯配图

本文的另一位作者则是尹在植的指导老师安成镇(Sungjin Ahn),安成镇教授是韩国科学技术院和纽约大学的联聘教授。

他的研究方向包括:可扩展贝叶斯推理、深度学习以及人工智能与认知科学的交叉领域,并多次担任NeurIPS、ICM、ICLR等顶会AC。

他于加州大学欧文分校获得博士学位,在Max Welling教授指导下专注于近似贝叶斯推理研究。随后在蒙特利尔大学的MILA实验室进行博士后研究,师从深度学习先驱、图灵奖得主Yoshua Bengio教授。

资讯配图

论文链接:
[1]https://arxiv.org/pdf/2502.07202
[2]https://arxiv.org/pdf/2506.09498

学术主页:
[1]https://jaesikyoon.com/
[2]https://mlml.kaist.ac.kr/sungjinahn


一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —


🎉 希望了解AI产品最新趋势?
量子位智库「AI 100」2025上半年
「旗舰产品榜」和「创新产品榜」
给出最新参考👇

资讯配图


🌟 点亮星标 🌟

科技前沿进展每日见



声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
IC
more
CBA技术加持,铠侠第9、10代 BiCS FLASH 存储器新进展
大疆新品速递!Matrice 4D 系列无人机方案及成果分享
又一家8英寸SiC外延设备完成研发并出货
有奖学习 | 48V架构电源方案,看Vicor如何革新机器人设计
打开EDA新战场,珠海硅芯要成为3DIC技术浪潮下的弄潮儿!
追投500亿元,英飞凌拟建全球最大200mm SiC功率半导体工厂
如何做IC设计科研?(中科大博导最新PPT分享)
ICCV 2025 | 视频生成迈入“多段一致”新时代!TokensGen用“压缩Token”玩转长视频生成
英伟达回应“后门”,微信客服回应提现手续费下降,阿里巴巴原掌门张勇加盟港交所,Epic在美国胜诉谷歌,这就是今天的其他大新闻!
倒计时9天丨显示面板“梦之队”集结DIC2025,定义未来视界
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号