让大模型学得更“聪明”：DOPD打破特权幻觉，京东探索院等提出双策略蒸馏新范式，性能提升7.5分

让大模型学得更“聪明”：DOPD打破特权幻觉，京东探索院等提出双策略蒸馏新范式，性能提升7.5分图1

在人工智能领域，知识蒸馏是一种将强大教师模型的能力迁移到较小学生模型的有效方法。传统的蒸馏方法依赖于教师模型生成的“离线”轨迹来指导学生，但这种方法存在一个根本问题：学生模型学习的状态分布可能与自身实际生成行为时的分布不一致，导致学习效率低下甚至性能下降。

近年来，同策略蒸馏(On-Policy Distillation)作为一种新兴的范式，通过让学生模型根据自身策略生成轨迹，并接受教师模型在词元级别的密集监督，有效缓解了分布偏移问题，实现了更高效的知识迁移。然而，为了进一步提升蒸馏的性能上限，一个直观的思路是为教师或学生模型引入特权信息，例如经过验证的推理提示或结构化的视觉标注。但这种方法真的能带来理想的效果吗？

一项最新研究揭示了一个此前未被充分认识的陷阱：特权信息幻觉。当引入特权信息时，教师模型表现出的优势可能并非源于其可迁移的内在能力，而仅仅是源于信息不对称——学生模型永远无法在推理时获得这些特权信息。盲目地蒸馏这种“虚假优势”，会导致学生模型去拟合那些无法复现的信息捷径，而非学习真正的核心能力。

为了系统性地解决这一问题，来自新加坡国立大学、香港中文大学、北京大学和京东探索研究院的研究团队提出了一种名为DOPD的全新方法。这项研究不仅深刻剖析了现有方法的局限性，更通过巧妙的动态路由机制，为高效、稳健的知识蒸馏开辟了新路径。

让大模型学得更“聪明”：DOPD打破特权幻觉，京东探索院等提出双策略蒸馏新范式，性能提升7.5分图3

论文标题：DOPD: Dual On-policy Distillation
论文链接：https://arxiv.org/pdf/2606.30626

研究背景：当“捷径”成为学习的障碍

知识蒸馏的核心目标是缩小教师与学生模型之间的能力差距。在同策略蒸馏框架下，学生模型通过自身采样获得轨迹，教师模型则提供每个生成词元的监督信号。这种方法的性能上限，很大程度上取决于监督信号的质量。

为了提升信号质量，研究者们尝试引入特权信息。例如，在数学推理任务中，为模型提供分步解题提示；在视觉问答中，提供图像中物体的边界框标注。理论上，这些额外信息能帮助教师模型做出更优的预测，从而为学生提供更好的学习榜样。

让大模型学得更“聪明”：DOPD打破特权幻觉，京东探索院等提出双策略蒸馏新范式，性能提升7.5分图4 — 图 1：DOPD与基线方法在八个基准测试上的性能对比

图1展示了DOPD与多种基线方法的对比。上方的长条表示在所有基准上的平均性能，下方的小条则对应每个基准的个体表现。可以看到，DOPD取得了显著的领先优势。

然而，研究团队通过实验发现，简单地引入特权信息可能会引发“特权信息幻觉”。如图2所示，现有方法主要分为三类：标准蒸馏（强教师教弱学生）、自蒸馏（模型自己教自己）和自适应蒸馏（根据状态动态调整策略）。但这些方法大多隐含了一个假设：教师提供的所有监督信号都反映了可学习的能力提升。

让大模型学得更“聪明”：DOPD打破特权幻觉，京东探索院等提出双策略蒸馏新范式，性能提升7.5分图5 — 图 2：现有蒸馏范式与DOPD对比示意图

当特权信息介入时，这一假设变得脆弱。教师模型表现出的“优势”，可能混杂了两个部分：一是我们希望学生通过蒸馏来弥补的内在能力差距；二是由信息不对称造成的、学生永远无法真正习得的差距。不加区分地蒸馏前者，能提升学生能力；而盲目模仿后者，只会让学生学会“作弊”，在真实场景中毫无用处。

更复杂的是，监督信号在不同词元上的价值是高度不均匀的。在一条生成的文本中，只有少数关键决策词元（如推理转折点、核心证据）承载着至关重要的能力信号，而大量其他词元（如连接词、过渡语）提供的监督价值有限，甚至可能主要依赖于特权信息。现有方法通常对所有词元一视同仁，使用相同的监督源和目标函数，这在引入特权信息时会进一步放大信息不对称的危害。

核心洞察：优势感知的双路蒸馏

基于上述观察，研究团队提出了DOPD方法的核心思想：根据“特权优势差距”和相对预测概率，动态地为每个词元选择最合适的监督源和监督强度。

什么是特权优势差距？

当教师和学生模型都拥有相同的特权信息时，它们对同一词元预测概率的对数差值，就反映了在控制信息条件后的、纯粹的能力差距。这个差距被称为“特权优势差距”。较大的差距意味着教师模型在相同信息下确实拥有更强的能力；较小的差距则表明教师的“优势”很可能只是特权信息带来的假象。

为了验证这一概念的合理性，团队进行了详实的消融实验。如图4所示，如果随机丢弃20%的词元不予监督，对性能影响不大。但如果丢弃的是“高优势差距”的词元（即教师能力真正领先的词元），性能会急剧下降，在训练初期，其收益仅为标准方法的50%左右。相反，丢弃“低优势差距”的词元则影响甚微。这有力地证明了，优势差距确实能有效识别出对能力迁移至关重要的关键词元。

让大模型学得更“聪明”：DOPD打破特权幻觉，京东探索院等提出双策略蒸馏新范式，性能提升7.5分图6 — 图 4：基于优势差距的词元消融实验结果

DOPD如何工作？

DOPD的流程如图5所示。对于学生模型采样的每个轨迹，系统会分别让拥有特权信息的教师模型和拥有特权信息的学生模型（与学生模型共享参数，仅在训练时接收特权输入）进行前向计算，从而得到每个词元的特权优势差距以及教师、学生各自的预测概率。

让大模型学得更“聪明”：DOPD打破特权幻觉，京东探索院等提出双策略蒸馏新范式，性能提升7.5分图7 — 图 5：DOPD方法整体框架示意图

随后，根据每个词元的优势差距大小和教师/学生预测概率的高低关系，将其路由到四种不同的学习策略中：

低差距，高置信：教师和学生预测一致且自信。此时瓶颈主要在于缺少特权信息，而非能力差距。因此采用轻度教师蒸馏，使用Top-K反向KL散度，以保守方式吸收有用的特权知识，避免过度迁移信息捷径。
低差距，低置信：教师和学生都对当前词元预测信心不足。这些词元可能位于双方可靠能力区域之外，强行模仿可能引入噪声。因此采用弱自正则化，让学生模型与其特权版本保持轻微的一致性，以稳定训练，但不强迫其模仿不确定的教师预测。
高差距，教师高置信：特权教师展现出明确且自信的优势。这表明教师提供了学生尚未掌握的可迁移关键知识。对此类词元施加强教师蒸馏，使用全词表的JS散度，让学生学习教师的主导决策和有益的次要偏好。
高差距，学生高置信：特权学生相对更自信，而教师未提供可靠信号。此时强行约束学生靠近教师可能会抑制有效的探索行为。因此采用轻度自蒸馏，温和地鼓励部署版本的学生与其特权版本保持一致，避免过度正则化。

通过这种自适应的路由机制，DOPD实现了监督源、监督强度和监督粒度的动态调整。它只在教师确实具备能力优势的词元上施加强监督，对于主要由特权信息主导的信号则采用轻度监督，在不确定区域依赖弱自正则化，并在学生已具备信心的区域保留其探索空间。

实验结果：全面领先的性能与稳健性

研究团队在大语言模型和视觉语言模型两大场景下，对DOPD进行了全面评估。

主要蒸馏性能

如表1所示，在大语言模型设置下（以Qwen3-8B蒸馏至Qwen3-1.7B为例），DOPD显著缩小了师生性能差距，平均性能提升了12.3分，恢复了原始差距的89.8%。值得注意的是，由于引入了提升上限的特权信息，DOPD不仅在平均性能上接近教师模型，更在四个具有挑战性的基准测试上超越了教师。与现有的标准蒸馏、自蒸馏和自适应蒸馏方法相比，DOPD在所有八个基准测试上均取得最佳性能。

让大模型学得更“聪明”：DOPD打破特权幻觉，京东探索院等提出双策略蒸馏新范式，性能提升7.5分图8

在视觉语言模型场景下（如表2所示），DOPD同样带来了10.1分的绝对提升，恢复了69.2%的师生差距，在各项任务上均优于现有的视觉导向蒸馏方法。

让大模型学得更“聪明”：DOPD打破特权幻觉，京东探索院等提出双策略蒸馏新范式，性能提升7.5分图9

强大的稳健性与可扩展性

为了检验DOPD在不同模型规模下的泛化能力，团队在五组不同大小的师生模型对上进行了实验（如表3所示）。结果表明，DOPD在所有模型对上均稳定地大幅优于标准同策略蒸馏。即使是在规模差距最大的场景下（Qwen3-8B → Qwen3-0.6B），标准方法仅获得3.5分的增益，而DOPD获得了14.1分的增益，恢复了53.0%的差距。这证明DOPD提供了一种更具可扩展性和可靠性的蒸馏机制。

让大模型学得更“聪明”：DOPD打破特权幻觉，京东探索院等提出双策略蒸馏新范式，性能提升7.5分图10

持续学习与分布外泛化

同策略蒸馏已被证明在持续学习场景中具有优势，能缓解灾难性遗忘。如图7a所示，在一个三阶段的持续学习实验中（依次引入通用、推理、代码数据），DOPD支持稳定有效的能力积累，在新领域上性能持续提升，而对已学领域仅有微小性能回退。

让大模型学得更“聪明”：DOPD打破特权幻觉，京东探索院等提出双策略蒸馏新范式，性能提升7.5分图11 — 图 7：(a)持续学习与(b)分布外泛化性能对比

在分布外泛化评估中（如图7b），仅在代码或推理数据上训练的模型，需要在另一个未见过的领域进行评估。DOPD展现出了卓越的跨领域泛化能力，显著优于其他强基线。

卓越的训练稳定性 训练稳定性是蒸馏方法实用化的关键。如图8所示，与代表性的基线方法相比，DOPD在整个训练过程中都提供了稳定且优异的性能，并具有更高的蒸馏效率。同时，DOPD保持了健康的熵轨迹：早期适度上升，随后逐渐下降并收敛到稳定状态，反映了模型进行了良好校准的探索。相比之下，自蒸馏范式在训练中后期出现了熵崩溃和性能下降。

让大模型学得更“聪明”：DOPD打破特权幻觉，京东探索院等提出双策略蒸馏新范式，性能提升7.5分图12 — 图 8：DOPD与基线方法的训练稳定性与熵变化对比

深入分析：理解DOPD的成功要素

特权信息的形式至关重要 研究团队对比了不同形式的特权信息（如表4、表5所示）。对于大语言模型，直接提供标准答案会导致最严重的信息差距，学生只能僵化地过拟合答案，性能甚至不如不使用任何特权信息的基线。而仅提供不含详细执行步骤的阶段性高级提示，带来了最大的蒸馏增益。对于视觉语言模型，提供带有物体标签的边界框被证明是最合适的特权形式。

这些结果表明，特权信息的效力不在于其最终答案的正确性，而在于其能否为学生模型提供能力导向的指引。

动态路由机制的有效性 为了定量剖析不同词元类型和自适应机制的贡献，团队进行了词元级别的消融分析。如表6所示，仅使用“高教师概率、低学生概率”的词元（即关键能力词元）进行蒸馏，其性能已经超过了对所有四类词元进行均等蒸馏的基线。然而，如果简单地将四类词元混合并进行均等强度的蒸馏，收益甚微甚至可能导致性能下降。而引入自适应蒸馏机制后，系统能够调整不同词元的蒸馏强度、监督粒度和内容，最终带来了超过8分的整体提升。

词元类型的可视化分析 图9直观展示了一条真实轨迹中不同词元类别的分布。在低差距词元中，双方都高置信的词元通常对应特权信息中稳定、共识的知识；双方都低置信的词元则多为连接词、过渡句或信息量低的不可靠片段。在高差距词元中，教师高置信、学生低置信的词元通常代表了由内在能力差距产生的关键知识；而学生高置信、教师低置信的词元则可能反映了学生自我一致或局部的探索分支。这种分布模式与DOPD提出的差异化蒸馏策略完美契合。

让大模型学得更“聪明”：DOPD打破特权幻觉，京东探索院等提出双策略蒸馏新范式，性能提升7.5分图13 — 图 9：四类词元在真实轨迹中的可视化分布

总结与展望

DOPD工作重新审视了特权信息背景下的同策略蒸馏，指出了其根本局限：特权教师表现出的表面优势并非总是对应可迁移的能力，而可能源于信息不对称；同时，监督信号在词元间分布不均。基于这些洞察，研究者提出了优势感知的双路同策略蒸馏框架，能够根据特权优势差距和相对词元概率，自适应地在教师驱动的能力迁移和学生的辅助自优化之间路由词元级监督。

广泛的实验证明，DOPD在大语言模型和视觉语言模型设置下， consistently地超越了标准方法及其他强基线，在蒸馏性能、稳健性、持续学习能力、分布外泛化以及训练稳定性方面均表现出色。

当然，该方法也存在一些局限性，例如依赖高质量特权信息的构建、引入了额外的计算开销、路由策略仍依赖启发式机制等。未来的研究可以沿着以下几个方向推进：开发更可靠、低成本的特权信息获取机制；探索更原则性或可学习的蒸馏路由策略；将这种从师生双方进行动态蒸馏的范式，推广到更多类型的模型和任务中，推动建立更可解释、高效和可信的知识蒸馏新范式。

> 本文由 Intern-S2 等 AI 生成，机智流编辑部校对

-- 完 --

加入机智流 Pro，1 天一块钱，AI 能力指数级增长时代，不掉队。机智流 AI 团队将燃烧远超人类的智能的 AI Tokens 驱动 AI Agents 军团带来「与你有关」「对你有用」的高质量资讯/研报。

机智流推荐阅读：

1. ‍

关注机智流并加入 AI 技术交流群，不仅能和来自大厂名校的 AI 开发者、爱好者一起进行技术交流，同时还有与、、、、等。

在「机智流」公众号后台回复下方标红内容即可加入对应群聊：

cc | 大模型技术交流群
hf | HuggingFace 高赞论文分享群
lc｜LangChain 技术交流群
code | AI Coding 交流群
具身 | 具身智能交流群
硬件 | AI 硬件交流群
推理 | AI 推理框架交流群
Agent | Agent 技术交流群