复旦北大联合美团LongCat提出TDAR:用“粗思考,细求证”破解Block Diffusion的速度精度悖论

机器之心 2026-03-12 17:25
复旦北大联合美团LongCat提出TDAR:用“粗思考,细求证”破解Block Diffusion的速度精度悖论图1


如今,Test-Time Scaling(测试时扩展)已成为提升模型推理能力的关键路径。而在这一浪潮中,块扩散语言模型(Block Diffusion Language Models, BDLMs) 凭借其独特的并行解码能力,被视为超越传统自回归(AR)模型推理效率的有力竞争者。


然而,现有的 BDLMs 在面对长链推理时,陷入了一个两难的效率 - 效果博弈:大块(Large Block)解码速度极快,但在复杂推理中容易出错,导致性能大幅下降;而小块(Small Block)虽然推理准确,但退化为接近自回归的速度,失去了扩散模型的并行优势。同时,现有的解码策略(如固定置信度)无法适应长推理链中 “难易交替” 的动态特性。这引出了一个核心问题:如何在保持 Block Diffusion 高效并行优势的同时,解锁其在复杂推理任务上的 Test-Time Scaling 潜力?


近期,复旦大学 NLP 实验室(FDU NLP)、北京大学知识计算实验室(KCL)联合美团 LongCat Team 提出了一种 Block Diffusion 推理模型 Test-Time Scaling 新框架 TDAR,通过引入 “粗思考,细求证” (Think Coarse Critic Fine, TCCF) 范式与有界自适应置信度解码 (Bounded Adaptive Confidence Decoding, BACD),成功打破了速度与精度的零和博弈。


复旦北大联合美团LongCat提出TDAR:用“粗思考,细求证”破解Block Diffusion的速度精度悖论图2



复旦北大联合美团LongCat提出TDAR:用“粗思考,细求证”破解Block Diffusion的速度精度悖论图3

TDAR-8B-Thinking 在 AIME24 上的性能与速度对比图。TDAR 位于右上角,展示了在保高推理速度的同时实现了 SOTA 的准确率。


核心创新:双重自适应机制


为了解决上述痛点,研究团队提出了一套统一的测试时扩展框架 TDAR,如下图所示,该框架包含两个核心设计:有界自适应置信度解码(BACD)与 “粗思考,细求证” (Think Coarse Critic Fine, TCCF) 范式。


复旦北大联合美团LongCat提出TDAR:用“粗思考,细求证”破解Block Diffusion的速度精度悖论图4

TDAR 方法概览。展示了 TCCF 流程(Coarse Thinking -> Fine Critic)以及 BACD 的动态阈值机制。


1. 解码层:BACD (Bounded Adaptive Confidence Decoding)


传统的动态解码往往依赖固定的置信度阈值,这在长链推理中极易导致 “一步错,步步错”。研究团队提出了有界自适应置信度解码(BACD)算法,该算法利用已生成 token 的平均置信度作为信号,动态调整当前的去噪阈值。同时,为了实现效率和效果的兼顾,增加了双重边界保护机制:上限(Upper Bound)负责在模型自信时激进加速,下限(Lower Bound)负责在模型不确定时强制保守,防止错误累积。这使得模型能够像人类一样,简单步骤快思考,困难步骤慢推敲。


复旦北大联合美团LongCat提出TDAR:用“粗思考,细求证”破解Block Diffusion的速度精度悖论图5


2. 范式层:TCCF (Think Coarse, Critic Fine)


长链推理并非均匀的过程,而是由 “探索” 和 “验证” 组成的异质序列。在探索阶段,思维发散但推理内容较为粗糙,而在验证阶段,需要更加精细的验证和总结。研究团队提出了 TCCF 范式,根据推理阶段的功能分配不同的计算粒度:



此外,为了支持大 Block 的高效训练,研究团队引入了 Progressive Block Size Extension(渐进式块大小扩展) 策略,有效缓解了 Block Size 增大带来的性能衰退。


实验结果:速度与精度的双重飞跃


研究团队在 Math500、AIME24、AIME25、AMC23、GPQA、LiveCodeBench 共6个主流推理基准上评估了 TDAR-8B-Thinking。


实验结果表明,TDAR-8B-Thinking 在 8B 规模的 Block Diffusion 模型中取得了最佳性能,平均性能超越前 SOTA 模型 TraDo-8B 3.4 个百分点,解码速度从 1.27 TPF 飙升至 2.97 TPF。


结合 BACD 算法后,速度进一步提升至 3.37 TPF 且性能再涨 1.6 个百分点;叠加 TCCF 范式后,在 AIME24 复杂数学任务上准确率从 36.3% 提升至 42.9%,同时维持 3.04 TPF 的高速度,实现了速度与性能的完美平衡。


Method

AIME24 TPF

AIME24 AVG@8

Fast-dLLM-v2

2.58

0.0

SDAR-8B-Chat

2.96

5.0

DiRL-8B-Instruct

1.96

18.8

TraDo-8B-Instruct

2.13

13.3

TraDo-8B-Thinking

1.35

31.3

  + BACD

1.44

32.9

  + BACD +TCCF

1.36

35.8

TDAR-8B-thinking (ours)

4.47

34.6

  + BACD

5.07

36.3

  + BACD +TCCF

3.04

42.9

实验结果表格。TDAR-8B 及其变体在各项指标上均优于现有的自回归和扩散模型基线。


深度分析:解构 TDAR 的性能来源


为了探究 TDAR 高效背后的机制,研究团队对 Block Size、解码策略及 TCCF 范式进行了多维度的量化分析。


1. 突破效率瓶颈:BACD 解锁高能效区间 


研究团队将 BACD 与 BDLMs 中主流的采样算法进行了对比,包括 Static Confidence Decoding(固定步数,性能上限但效率低)和 Dynamic Confidence Decoding(动态阈值)。


首先,研究团队比较了在不同阈值下的性能与速度权衡。如下图所示,对于 Dynamic Confidence Decoding,随着置信度阈值(Threshold)的降低,模型的性能会出现肉眼可见的衰退。相比之下,BACD 在获得持续效率增益的同时,依然维持了稳定的性能表现。


复旦北大联合美团LongCat提出TDAR:用“粗思考,细求证”破解Block Diffusion的速度精度悖论图6

BACD 与 Dynamic Confidence 等方法的效率 - 准确率在不同 threshold 对比


研究团队对 BACD 在不同阈值下,模型输出的行为进行了分析,相比于标准的动态置信度解码,BACD 在不同阈值下表现出极高的稳定性。分析显示,BACD 有效避免了低阈值下的 “模型崩溃” 和 “重复生成” 问题,证明了 BACD 在动态调整去噪步数时具有显著的优越性。


复旦北大联合美团LongCat提出TDAR:用“粗思考,细求证”破解Block Diffusion的速度精度悖论图7

BACD 在不同阈值下的性能稳定性分析。


2. Block Size 的权衡


Block Size 是影响 BDLMs 性能与效率的关键变量。研究团队深入探究了其非线性影响:


如下图所示,随着 Block Size 增大,推理速度呈线性增长,但生成质量会出现显著衰退。通过权衡分析,研究团队锁定 B=16 为 8B 模型的最佳平衡点(Sweet Spot)。TDAR 在此设置下,既保留了并行解码的速度优势,又通过渐进式训练(Progressive Extension)维持了强大的推理能力。


复旦北大联合美团LongCat提出TDAR:用“粗思考,细求证”破解Block Diffusion的速度精度悖论图8

不同 Block Size 下模型性能与效率的 Trade-off 分析。


3. TCCF 的普适性增益

 

在不同的解码算法下应用 TCCF 机制,比较其在 AIME24 上的表现,如下图所示。结果表明,无论是在 Dynamic Confidence 还是 BACD 算法下,引入 TCCF(即从 Coarse 到 Fine 的转换)都能带来一致且显著的性能提升。


特别是在 BACD 算法中,TCCF 有效提升了不同阈值下的性能下限。这证明了 “粗思考,细求证” 机制能有效弥补单一解码策略在细节处理上的不足,实现了 1+1>2 的效果。


复旦北大联合美团LongCat提出TDAR:用“粗思考,细求证”破解Block Diffusion的速度精度悖论图9

TCCF 策略在不同解码算法及阈值下的性能增益分析。


结论与展望:释放 BDLMs 的推理潜力


TDAR 的提出,标志着 Block Diffusion 语言模型在复杂推理任务上迈出了重要一步。从此以后,大 Block Size 不再是禁区,通过渐进式训练和 BACD 解码,大 Block 也可以兼顾质量与速度。而 TCCF 范式的提出,证明了针对推理阶段动态分配计算粒度的必要性。


TDAR 不仅为 BDLMs 的 Test-Time Scaling 提供了一套高效的解决方案,也为未来并行推理模型的设计提供了新的思路。


团队成员均来自美团LongCat后训练团队:


陆毅,复旦大学自然语言处理实验室硕士在读,研究方向为大语言模型,复杂推理,导师为桂韬老师。


孔德阳,北京大学软件工程国家研究中心硕士在读,研究方向为大语言模型,复杂推理,导师为叶蔚副研究员。


王嘉宁,获得华东师范大学博士学位,曾前往UCSD访问学习,在ACL、EMNLP、AAAI、ICLR等顶会发表论文数十篇,目前就职于美团,LongCat-Flash-Thinking核心作者之一,研究方向为大模型训练与复杂推理。


© THE END

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AR
more
“辅助驾驶第一屏”破局!AR-HUD开启车载交互“黄金时代”
文心5.0正式版发布,霸榜LMArena的“最强文科生”到底强在哪?
SGLang核心团队成立商业公司RadixArk,估值达4亿美元;AI推理优化赛道融资热潮持续升温
字节跳动UI-TARS登顶GitHub热榜,纯视觉GUI Agent引领AI交互新范式
MotrixArena S1 答疑直播第三场
1100亿!OpenAI 史上最大融资,Karpathy 实测 8 Agent 并行|AI 日报 0227
核能“淘金热”催生燃料供应商融资潮,Standard Nuclear完成1.4亿美元A轮融资
30B参数超越GPT-5!REDSearcher让「深度搜索Agent」做到低成本可扩展!
ICLR 2026 | 7B小模型干翻GPT-5?AdaResoner实现Agentic Vision的主动「视觉工具思考」
苹果计划允许第三方语音控制AI聊天机器人接入CarPlay
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号