NeurIPS 2025 | DynaAct:DeepSeek R1之外,探索大模型推理的另一条道路

机器之心 2025-11-29 17:30

该工作的第一作者为香港大学计算机系博士生赵学亮。蚂蚁武威、关健为共同贡献者。

 

在 R1 与 O1 引领「深度推理」浪潮之后,大模型推理领域正迎来新的分叉点!

 

大模型推理的爆发,实际源于 scaling 范式的转变:从 train-time scaling 到 test-time scaling(TTS),即将更多的算力消耗部署在 inference 阶段。典型的实现是以 DeepSeek r1 为代表的 long CoT 方法:通过增加思维链的长度来获得答案精度的提升。那么 long CoT 是 TTS 的唯一实现吗?

 

针对这个问题,来自蚂蚁和香港大学自然语言组的研究团队(后简称「团队」)给出了 TTS 的另一种思路:让模型不仅「想得久」,更要「想得准」。

 

在这一思路下,团队提出了 DynaAct,该工作已经被 NeurIPS 2025 接收。

 

NeurIPS 2025 | DynaAct:DeepSeek R1之外,探索大模型推理的另一条道路图2

 

 

与传统 token-by-token 式的 CoT 不同,DynaAct 提出以 Action Space Optimization 为核心的 TTS 范式:在每一步推理中动态构建可选动作集合,并通过学习算法从中选择最优动作,从而让推理路径更高效、更具结构化。

 

NeurIPS 2025 | DynaAct:DeepSeek R1之外,探索大模型推理的另一条道路图3

 

为什么是 Action Space 优化?

 

当前主流 TTS 方法通过「更长的思维链」来提升性能,但随之而来的,是搜索空间爆炸与冗余思考。团队认为,推理效率的瓶颈并不在「算得不够多」,而在「选得不够好」。

 

DynaAct 将推理过程类比为决策序列:每一步的关键不是「生成什么」,而是「选择什么去执行」。

 

因此,它聚焦于如何自动学习、动态构建每一步推理的动作空间,并提出两条核心原则:

 

 

方法:

Submodular Optimization × MCTS

 

DynaAct 核心思想是将动作空间学习问题转化为集合选择问题,并通过子模优化(Submodular Optimization)来实现线性复杂度的算法。

 

子模优化的关键在于定义合适的子模函数(Submodular Function)。由于子模函数具备「集合越大,新增元素收益越小」的性质,因此可以贪心地构建一个子集,实现子集性质近似最优,同时算法复杂度维持在线性。

 

具体来说,DynaAct 定义的子模函数包括 utility 和 diversity 两个部分。前者度量动作空间与当前状态的相似度;而后者则刻画动作空间中动作的冗余度:

 

NeurIPS 2025 | DynaAct:DeepSeek R1之外,探索大模型推理的另一条道路图4
NeurIPS 2025 | DynaAct:DeepSeek R1之外,探索大模型推理的另一条道路图5
NeurIPS 2025 | DynaAct:DeepSeek R1之外,探索大模型推理的另一条道路图6

 

这样定义下的子模函数学习等价于学习动作和状态的 embedding。DynaAct 采用 Q-learning 来优化,希望利用学到的子模函数能最终选出最大化推理回报(reward)的动作空间。

 

NeurIPS 2025 | DynaAct:DeepSeek R1之外,探索大模型推理的另一条道路图7

 

代码亮点:

高效 MCTS 加速

 

在系统实现层面,团队开源了基于 vLLM 的高性能 MCTS 框架。该实现显著提升了节点扩展、Rollout 与 Reward 计算效率,为后续 TTS 研究提供了通用加速方案。

 

效果:

Smarter Space, Better Reasoning

 

在 6 项推理基准上,DynaAct 显著优于 CoT、RAP 与 rStar 等方法,验证了动态动作空间的有效性。

 

NeurIPS 2025 | DynaAct:DeepSeek R1之外,探索大模型推理的另一条道路图8

 

进一步分析显示,随着 MCTS Rollout 次数增加,DynaAct 呈现出稳定的 test-time scaling 趋势:

 

NeurIPS 2025 | DynaAct:DeepSeek R1之外,探索大模型推理的另一条道路图9

 

同时动作空间更小、延迟几乎不升:

NeurIPS 2025 | DynaAct:DeepSeek R1之外,探索大模型推理的另一条道路图10

 

展望:

从 Reasoning 走向 Smarter Search

 

DynaAct 证明了:TTS 的未来,不在更多计算,而在更聪明的搜索。

 

团队计划进一步探索:

 

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
IP 大模型
more
COMSOL Multiphysics® 6.4 版本全新发布!
苹果2nm A20 性能太强了!曝:苹果将跳过 19 直推 iPhone 20
NeurIPS 2025 | DynaAct:DeepSeek R1之外,探索大模型推理的另一条道路
华为乾崑App发布;2026款苹果iPad Air前瞻;小米武汉青年公寓计划明年中竣工...
力压iPad八季度!华为平板成了?
华为正式支持和iPhone互传!鸿蒙星河互联App上架 | vivoX300Ultra曝3月发
iPhone 17 太能打!苹果有望时隔 14 年重夺全球销量榜首
概伦电子亮相ICCAD,深化设计与工艺协同,共建EDA+IP生态
苹果iPhone 17e全新曝光,主打卖点意想不到
DeepSeek罗福莉正式亮相小米AI;「周杰伦概念股」联手宇树造 IP 机器人;乘用车百公里加速不少于5秒 | 极客早知道
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号