EMNLP 2025 | 动态压缩CoT推理新方法LightThinker来了

随着 AI 技术的飞速发展，从「快思考」到「慢思考」，大语言模型（LLMs）在处理复杂推理任务上展现出惊人的能力。无论是我们熟知的思维链（CoT），还是更复杂的深度思考模式（Thinking），都让 AI 的回答日益精准、可靠。

然而，这种性能的提升并非没有代价。模型在推理过程中会产生大量的中间步骤和文本（tokens），这不仅极大地拖慢了计算速度，还对内存和计算资源造成了巨大的压力。简单来说，就是「想得越多，算得越慢，耗得越多」。

为了解决这一难题，研究者们从人类的认知过程中汲取灵感。想象一下人类在解决一个复杂数学题时的情景：我们通常会在草稿纸上写下关键的计算步骤（如下图 a 中的黄色高亮部分），而将一些辅助性的思考过程（非高亮部分）放在脑中。

图 1：(a) 展示了一个典型的思维链推理过程，黄色部分为关键步骤。(b) 对比了传统方案 Vanilla 与 LightThinker 的推理流程。

本文中，来自浙江大学、蚂蚁集团等机构的研究者提出了 LightThinker，它模仿了这一高效的思考模式。它训练 LLM 在推理过程中动态地将冗长的中间思考步骤压缩成紧凑的表示（gist tokens /cache tokens），然后「扔掉」原始的、繁琐的推理链，仅保留核心摘要以继续下一步的思考。这样一来，存放在上下文窗口中的 tokens 数量被大幅削减，从而显著降低了内存占用和计算成本。

论文标题：LightThinker: Thinking Step-by-Step Compression
论文链接: https://arxiv.org/abs/2502.15589
代码链接: https://github.com/zjunlp/LightThinker

LightThinker 概览

资讯配图

LightThinker 通过训练的方式让模型具备这种能力。这涉及到两个关键问题：「何时压缩？」和「如何压缩？」。整个过程可以概括为以下三个关键步骤：

第一步：数据重构 —— 在思考流程中植入「压缩指令」

LightThinker 的第一步就是改造训练数据，让 LLM 明白「压缩」这个动作的存在和时机。具体操作是：

步骤划分：首先，将模型原本冗长的完整回答 Y，按照语义或段落（即一个完整的「想法」）切分成若干个思维步骤 S1, S2, S3, ...。
插入特殊指令符：在这些思维步骤之间，插入一组特殊的「指令令牌」4。这组指令符主要包含两个部分：

缓存令牌 (Cache Tokens, C)：这是一组特殊的、用于存储压缩后信息的「摘要令牌」。它的作用就像是为即将产生的「思想摘要」预留的空白便签。
输出令牌 (Output Token, [o])：这是一个强制性的输出信号，它的作用是告诉模型：「好了，摘要写完了，现在请基于这份摘要继续你下一步的思考」。

经过这样的改造，原本一条完整的思考链，就变成了一个「思考步骤 1 S1 → 进行压缩 → 继续思考步骤 S2 → 再次压缩 → ...」的全新格式。这等于是在模型的学习材料中明确地标注出了「何时」需要进行压缩。

注意，研究者在具体实现中，采用换行符作为思维步骤的划分，此处不存在任何数据精心构造的过程。

第二步：注意力改造 —— 学会压缩与理解压缩的内容

教会了模型「何时」压缩，下一步就是最关键的如何压缩。这主要通过一种名为「Thought-based Attention Mask」的技术来实现，如图 2 (b) 所示。精确地控制着模型在思考时 “能看什么” 和 “不能看什么” 。

这个过程分为两个阶段：

压缩阶段（生成思维摘要）：当模型需要将思维步骤 Si 压缩进缓存令牌 C 时，注意力掩码会强制这些 C 令牌只能「看到」三个东西：

最初的问题 X；
先前已经压缩好的历史摘要；
当前正在处理的思维步骤 Si。

其他所有原始的、未压缩的思维步骤都会被「遮蔽」。这迫使模型必须将 Si 中的所有关键信息高度浓缩并存储到 C 中。

生成阶段（基于摘要生成思维）：当思维步骤 Si 被成功压缩进 C 之后，更关键的一步来了。在生成下一个思绪片段 S (i+1) 时，注意力掩码会彻底「遮蔽」掉原始的思维步骤 Si。此时，模型只能「看到」最初的问题 X 和包括刚刚生成的摘要在内的所有历史摘要。

通过这种方式，模型被迫学会仅依赖紧凑的「思想摘要」来进行连贯的、层层递进的推理，而不是依赖越来越长的原始思考全文。

第三步：动态推理 ——「即用即弃」的高效循环

经过以上两个步骤的训练，LightThinker 模型在实际推理时，就会形成一种高效的动态循环，如图 1 (b) 和图 2 (c) 所示，清晰地展示了「生成→压缩→抛弃」的动态循环过程。下面以图 1 (b) 为例进行分析：

模型接收问题，生成第一段思考（Thought 1）。
触发压缩，将 Thought 1 中的核心信息压缩成紧凑的摘要（CT1）。
抛弃原文，将冗长的 Thought 1 从上下文中丢弃。
模型基于问题和摘要（CT1），生成第二段思考（Thought 2）。
再次压缩，将 Thought 2 压缩为摘要（CT2），并丢弃 Thought 2 原文。
如此循环，直到问题解决。

通过这种「即用即弃」的机制，LightThinker 确保了模型的上下文窗口始终保持在一个非常小的尺寸，从而解决了因上下文过长导致的内存爆炸和计算缓慢问题，实现了效率与性能的完美平衡。

图 3 展示了不同方法在推理过程中上下文长度的变化，其中曲线和坐标轴围城的面积为我们定义的新指标 Dependency，其意义生成 token 时需要关注 token 的数量总和。

实验结果

研究者在四个数据集和两个不同的模型上对 LightThinker 进行了广泛的测试，结果如表 1 所示。

表 1 主要实验结果。Acc 为准确率，Time 为平均推理耗时，Peak 为平均峰值 token 占用数量，Dep 为生成 token 时需要关注 token 的数量总和（如图 3）所示。

结果表明，在 Qwen 系列模型上，与传统模型（Vanilla）相比：

峰值内存使用减少 70%：LightThinker 极大地节约了宝贵的内存资源。
推理时间缩短 26%：在保证结果准确性的前提下，思考速度得到了显著提升。
取得了准确度和效率的平衡。

此外，在 Llama 上，也取得了准确度和效率的平衡。