AI智能体推理新范式!CMU开源Agentic-R1,双策略蒸馏实现推理最优选择

智猩猩 2025-07-24 20:38

智猩猩Agentic整理

编辑:六一


在复杂数学推理任务中,传统方法往往面临两难选择:当前长链式思维模型虽擅长数学推理,但依赖缓慢且易出错的自然语言过程。工具增强智能体可用代码解决算术问题,但在复杂逻辑任务上表现有限。


为此,卡内基梅隆大学团队提出双策略蒸馏框架DualDistill,将多个教师模型的互补推理策略蒸馏至统一的学生模型中。由此训练出的Agentic-R1模型可根据不同问题动态选择最优策略:用工具处理算术、算法问题,用文本推理解决理论性任务。在此基础上,通过自蒸馏技术,Agentic-R1-SD进一步提升了模型性能。


模型在多种任务中的准确性均有所提升,超越同规模的Qwen2.5和Deepseek-R1模型,展示了多策略蒸馏方法的有效性,向实现通用推理智能迈出了关键一步。


资讯配图

  • 论文标题:

    Agentic-R1: Distilled Dual-Strategy Reasoning

  • 论文链接:

    https://arxiv.org/pdf/2507.05707

  • 项目地址:

    https://github.com/StigLidu/DualDistill

1

方法


论文采用基于Claude-3.5-Sonnet构建的工具辅助智能体OpenHands作为智能体推理教师,可执行人工设计的问题解决流程。文本推理教师则采用Deepseek-R1学生模型选用Deepseek R1-Distill-7B,该模型不仅经过纯文本推理轨迹的微调,还在预训练阶段接触过代码相关数据。


DualDistill框架通过轨迹组合将互补教师模型的知识蒸馏至学生模型,随后学生模型通过自蒸馏机制实现策略的深层理解。具体流程如下:

资讯配图


1、教师蒸馏


论文从DeepMath数据集中选取了两个对比鲜明的数学问题子集作为训练集:一个子集的问题更适合采用工具辅助推理策略,另一个子集则更适用于纯文本推理策略。


对于训练集中的每个训练实例,通过采样二元指示器随机选择初始教师,生成初始解y1,另一位教师随后在原始问题x和先前解y1的条件下生成第二个解y2


使用基于规则的评分器分别为 y1 和 y2 分配二元正确性得分g1、g2 ∈ {0,1}。然后根据这些正确性得分构建蒸馏训练轨迹


  • g1=0, g2=1:第一位教师解法错误,第二位纠正成功,轨迹为 y1⊕t−+⊕y2。  

  • g1=1, g2=1:两位教师均正确,轨迹为y1⊕ t++⊕y2,体现互补策略。  

  • g1=1, g2=0:仅第一位正确,轨迹仅包含 y1。  

  • g1=0, g2=0:两位均错误,舍弃该问题,不生成轨迹。


这里⊕表示连接,过渡片段t−+和t++是预先定义的句子,表示策略转换(例如“等等,使用文本推理太繁琐了,让我们尝试代码推理。”)


经过组合后,进行额外的数据过滤以确保训练集平衡。使用合成的轨迹微调初始学生模型,得到中间学生模型


2.自蒸馏


尽管学生模型从多位教师处学习了问题解决策略,但因自身规模等限制,表现仍不及教师模型。比如,面对本可简单推理解决的问题,模型仍倾向调用工具,却因工具使用能力不足,反而易产生错误。


为解决这一问题,论文引入自蒸馏机制,帮助学生模型根据自身能力和具体问题进一步优化策略选择。


具体而言,使用中间学生模型对训练集中的每个问题采样K条轨迹:采用二元评分器G来评估轨迹的准确性。定义g(i,j)为第j条轨迹的得分,

资讯配图为问题x(i)的平均得分。


资讯配图

时,表明模型无法完全解决问题x(i),按以下规则从其输出中筛选轨迹,用于自蒸馏训练:

资讯配图
  • :保留一条中间模型输出的正确轨迹(经教师模型验证后)

资讯配图
  • :记录一条错误轨迹及教师修正方案

β1和β2是控制问题筛选的超参数,分别设置为0和0.9以保持样本多样性。鉴于学生模型的代码能力局限,当前仅使用文本推理方案作为教师反馈。

2

实验


经过教师蒸馏的Agentic-R1在DeepMath-L和Combinatorics 300这两个需要复杂推理和工具使用的任务上表现突出:优于两个规模相似、但分别专注于工具辅助策略(Qwen2.5-7B-Instruct)或纯推理策略(Deepseek-R1-Distill-7B)的模型,同时在常规数学任务上保持了可比性能。通过自蒸馏技术,Agentic-R1-SD进一步提升了性能,在几乎所有任务上都超越了基线模型


资讯配图

  ✦   END  ✦  

 


 推荐阅读 


ICML2025 Oral | NUS与上海AI Lab首提智能体超网概念并推出MaAS框架,可自动演化多智能体系统

精调手机GUI智能体击败GPT-4o!腾讯AI Lab俞栋团队提出在线强化学习框架MobileGUI-RL

从提示词到 Function Calling:MCP 的前世今生

大模型Multi-Agent多智能体应用技术盘点

别再迷信 Agent 框架了,Context Engineering 才是王道




点击下方名片 即刻关注我们 


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI IC 开源
more
500架!沃兰特航空与泰国Pan Pacific及中航工程签署战略合作协议
DIC2025新兵连特辑:北方华创、德莎、高光半导体、鹿山兴邦、奥莱电子等您“围观”
相约DIC 2025,TCL华星、BOE(京东方)、HKC惠科、维信诺、天马微电子等面板厂商憋了啥大招?
ICCV'25开源 | 50倍加速!SpatialTrackerV2:轻松实现3D点跟踪!(浙大&牛津)
ICML2025|清华医工平台提出大模型「全周期」医学能力评测框架MultiCogEval
ICML2025 Oral | NUS与上海AI Lab首提智能体超网概念并推出MaAS框架,可自动演化多智能体系统
CICC2025 芯片设计全套PPT
消费级最强:魔法原子发布MagicDog-W轮式四足机器人
Isomorphic Labs首席科学家分享:AlphaFold 3破解生命密码,当年「第37手」的创造力,如今我们用来编写新药
ICML 2025 | 大模型能在信息不完备的情况下问出正确的问题吗?
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号