都在卷「让大模型多循环几遍」,这个7B模型LoopCoder v2说:多循环 1 次就够了

机器之心 2026-07-01 07:17
都在卷「让大模型多循环几遍」,这个7B模型LoopCoder v2说:多循环 1 次就够了图1


当所有人都在比谁「想得更久、算得更多」——推理模型动辄输出成千上万个思考 token,循环式架构恨不得在内部反复迭代十遍八遍——一项新研究反手泼了盆冷水:一个 7B 的小模型,只需要在正常计算之外「多循环这一次」(总共 2 次),就能在号称最难的真实代码修复基准 SWE-bench Verified 上从 43.0 分飙到 64.4 分;而继续往上加循环,不仅不涨,反而一路跳水。


论文标题起得很干脆——《Only Loop Once》,只循环一次。背后是来自北京航空航天大学、IQuest Research、澜舟科技和中国人民大学的联合团队。


都在卷「让大模型多循环几遍」,这个7B模型LoopCoder v2说:多循环 1 次就够了图2



都在卷「让大模型多循环几遍」,这个7B模型LoopCoder v2说:多循环 1 次就够了图3

▲ 核心结论一图流:多循环带来「精修收益」,也带来几乎恒定的「位置错配成本」;收益在第 2 次循环达到峰值后迅速衰减,于是「只循环一次(共 2 次)」成为最优解。


一、「循环」,当下最热的卷法


自从 o1、Claude 这一代推理模型把「想得越久越强」写进行业共识,「测试时计算」(test-time compute)就成了过去一年最热的方向:与其把模型练得更大,不如让它在推理时多花点算力,把答案反复打磨。要理解这项研究,先得知道大家具体在卷什么。


过去想让模型更强,常规操作是把网络堆得更深、参数更多。而「循环式」大模型(Looped / Recurrent-depth LLM)换了个思路:不堆新层,而是让同一套参数,在「脑子里」把内部表征反复打磨好几遍。打个比方,这就像同一个人把一道题在心里默默重算几遍,而不是请来更多人、或者把草稿纸写满——它是一种省参数的「测试时计算」(test-time compute)。


听起来很美,但有个硬伤:顺序循环太贵。每多循环一次,就要多走一遍计算,延迟和 KV-cache 显存都跟着循环次数线性上涨。想多循环,算力扛不住。


并行循环 Transformer(Parallel Loop Transformer,PLT)就是为了解决这个问题。它用两招把成本摁了下去:一是 CLP(跨循环位置偏移),打断循环之间的串行依赖,让多次循环可以并行计算;二是 G-SWA(共享 KV 的门控滑窗注意力),让显存几乎不随循环次数增长。成本被压平之后,「循环几次」第一次变成了一个可以自由拧的旋钮。


二、旋钮拧大 ≠ 更强:

第 2 遍封顶,第 3 遍跳水


问题来了:这个旋钮,到底拧到几合适?


团队干脆从零训了一整个家族:7B 稠密模型,18T token、文本与代码 1:1、覆盖 100 多种编程语言,前后烧掉约 100 万 GPU 小时。唯一的变量,就是循环次数。结果非常反直觉:


模型(均为 7B)SWE-bench VerifiedSWE-bench 多语言LiveCode Bench平均分
不循环 Baseline(1 次)43.014.027.438.0
LoopCoder-v2(2 次)★64.431.035.446.5
LoopCoder-v2(3 次)27.611.028.636.9
LoopCoder-v2(4 次)22.49.324.534.3


多循环一次(共 2 次)几乎全面碾压「不循环」的 baseline——SWE-bench Verified 从 43.0 → 64.4,多语言版从 14.0 → 31.0,LiveCodeBench 从 27.4 → 35.4,十项基准平均分从 38.0 → 46.5。但循环到 3 次、4 次,性能直接跳水:SWE-bench 掉到 27.6、22.4,平均分甚至不如不循环。


更能说明问题的是横向对比:这个 7B、只多循环一次的模型,在 SWE-bench Verified 上的 64.4 分,超过了 2350 亿参数的 Qwen3-235B(45.2 分),逼近 Kimi-K2(69.2)、Qwen3-Coder-480B(67.0)这些大它几十倍的开源旗舰。在偏「动手干活」的 agentic 任务上提升尤其明显:终端操作基准 Terminal-Bench 两个版本分别从 26.3 → 34.2、11.2 → 21.0(后者接近翻倍),工具调用 BFCL 从 32.2 → 40.1,提升都相当可观。换句话说,这次性能跃升不是靠更大的模型堆出来的,而是靠「多想了一遍」。


三、为什么「多循环一次」就够了?一笔收益账


真正有意思的,是团队没有止步于「2 次最好」这个调参结论,而是把模型内部拆开,算了一笔「收益——成本」账


先看收益侧。研究者用三把「探针」——隐状态的演化、注意力的路由、输出分布的变化——同时观察每一次循环到底干了什么,只有三者一致时才下结论。结论是:第 2 次循环几乎包办了所有「有用的精修」——隐状态朝同一方向稳步收敛、注意力重新分配、输出分布明显改善,表征多样性(effective rank)也在这一步达到峰值。再往后,更新越来越小、甚至开始来回震荡(方向反转),注意力路由基本「冻结」,后面的循环近乎空转。


再看成本侧。CLP 为了让循环能并行,做了一个取巧:从第 2 次循环起,每个 token 拿到的是「邻居」上一轮的状态,而不是它自己的。这就引入了一个固定的位置错配税——团队把它量化成一个能直接从模型内部状态算出来的指标 Ω,并发现它在每一次循环几乎恒定不变。


都在卷「让大模型多循环几遍」,这个7B模型LoopCoder v2说:多循环 1 次就够了图4

▲ 蓝线是每次循环的「精修收益」,第 2 次之后急剧塌缩;红线是 CLP 的「位置错配成本」,几乎恒定不降。一涨一平之间,第 2 次循环成为最优平衡点。


两条曲线一对照,故事就清楚了:精修收益(蓝线)在第 2 次循环后崩塌、再也没能恢复;而错配成本(红线)一直高位横盘。收益递减、成本恒定,于是超过 2 次,错配的代价就盖过了精修的收益,性能自然掉头向下。这也意味着,「循环到几次最好」不必靠昂贵的暴力扫 benchmark 一个个试,而是可以用这些内部诊断指标提前看出来。


四、对行业意味着什么


这项工作的价值,不只是又训了个能打的代码模型。


它首先给「测试时计算 = 越多越好」的流行直觉踩了一脚刹车:至少在 PLT 这类并行循环架构里,存在一个明确而且偏低的「甜点」,盲目加循环是负收益。其次,它提供了一套不靠暴力实验、而靠可解释性指标来选择循环次数的诊断方法。最后,对端侧和小模型尤其友好——7B 只要多循环一次,就能在硬核的真实软件工程任务上实现越级,这笔效率账相当划算。


团队也指出了几个值得继续挖的方向:让位置偏移变得自适应、根据任务动态分配循环次数,以及搞清楚这种「内部循环」和模型显式写出来的思维链(CoT)之间到底是怎么配合的。


说到底,在这个比拼「谁算得更多」的时代,这篇论文给出的提醒朴素却扎实:有时候,多想一遍就够了,想太多反而坏事。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
大模型
more
ACL 2026 | 延迟降 62%,腾讯混元提出 E-GRM:让大模型学会"按需推理"
华为大模型算法专家领衔!DeepResearch Agent研讨会议程揭晓,拆解走向自主可靠研究的关键路径
全球股市「黑色星期二」,SpaceX 市值跌破 2 万亿美元;豆包大模型 2.1 上线;孙正义给马斯克泼冷水:太空数据中心意义不大|极客早知道
同为大模型,为何智谱万亿,Minimax却腰斩?
全球AI大模型能力早已「溢出」,走向千家万户仍有万千沟壑
ICML 2026 | 大模型越训越自信,却越采不到新解?LED给LRM找回探索上限
大模型搜索总偷懒?IQuest等联合推出FORT,30B开源搜索Agent刷新同规模SOTA
大模型推理告别纯HBM时代:高带宽闪存(HBF)如何重构长上下文与巨型MoE存储格局
从高考数学满分到AI辅助填志愿,国产大模型走到哪一步了?
可重构计算进化史: 重塑大模型算力底座
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号