开源Agent模型榜第一名,现在是阿里通义DeepResearch

量子位 2025-09-18 12:16
通义DeepResearch团队 投稿
量子位 | 公众号 QbitAI

阿里开源旗下首个深度研究Agent模型通义DeepResearch

相比于基于基础模型的ReAct Agent和闭源Deep Research Agent,这个30B-A3B轻量级模型Tongyi DeepResearch在HLE、BrowseComp-zh、GAIA等多个权威评测集上取得SOTA成绩,超越了OpenAI Deep Research、DeepSeek-V3.1等Agent模型。

资讯配图

目前,通义DeepResearch的模型、框架和方案均已全面开源,感兴趣的朋友可以在Github、Hugging Face和魔搭社区社区下载模型和代码~

下面来看模型具体情况。

数据策略:基于全合成数据的增量预训练和后训练

模型能力的提升,主要得益于团队设计的一套多阶段数据策略。

这个策略的核心目标是,不依赖昂贵的人工标注,也能大规模地生成高质量的训练数据

增量预训练数据

团队引入了Agentic CPT(增量预训练)来为模型打下坚实的Agent基础。

为此,开发了一个系统化、可扩展的数据合成方案。它能利用后续训练流程产生的数据,形成一个数据生成的正向循环。

资讯配图

Post-training数据

通义DeepRsearch团队开发了一套全自动的合成数据生成方案,旨在全自动化生成超越人工标注质量的数据集,以挑战模型的能力极限。

这个方案经过了多次迭代,从早期的WebWalker,到更系统的WebSailor和WebShaper,数据质量和可扩展性都得到了保证。

为了生成能应对复杂问题的问答数据,团队开创性得设计了一个新流程。

首先,通过知识图谱随机游走和表格数据融合等方式,从真实网站数据中提取信息,保证数据结构的真实性。

然后,通过策略性地模糊或隐藏问题中的信息来增加难度。团队将问答难度建模为一系列可控的“原子操作”,这样就可以系统性地提升问题的复杂度。

为了减少推理捷径,团队还基于集合论对信息搜索问题进行了形式化建模。这帮助他们以可控的方式生成更高质量的问题,并解决了合成数据难以验证正确性的问题。

此外,该团队还开发了一个自动化数据引擎,用于生成需要多学科知识和多源推理的“博士级”研究问题。它会让一个配备了网络搜索、学术检索等工具的代理,在一个循环中不断深化和扩展问题,使任务难度可控地升级。

推理模式

Tongyi DeepResearch既有原生的ReAct Mode,又有进行上下文管理的Heavy Mode。

ReAct Mode

模型在标准的ReAct模式(思考-行动-观察)下表现出色。128K的上下文长度支持大量的交互轮次,团队遵循大道至简,认为通用的、可扩展的方法最终会更有优势。

Heavy Mode

除了ReAct模式外,团队还开发了“深度模式”,用于处理极端复杂的多步研究任务。此模式基于全新的IterResearch范式,旨在将Agent的能力发挥到极致。

IterResearch范式的创建是为了解决Agent将所有信息堆积在一个不断扩展的单一上下文窗口中时出现的认知瓶颈和噪音污染。相反,IterResearch 将一项任务解构为一系列“研究轮次”。

资讯配图

在每一轮中,Agent仅使用上一轮中最重要的输出来重建一个精简的工作空间。

在这个专注的工作空间中,Agent会分析问题,将关键发现整合成一个不断演变的核心报告,然后决定下一步行动——是收集更多信息还是提供最终答案。

这种“综合与重构”的迭代过程使Agent能够在执行长期任务时保持清晰的“认知焦点”和高质量的推理能力。

在此基础上,团队还提出了Research-Synthesis框架:让多个IterResearch Agent并行探索同一个问题,最后整合它们的报告和结论,以获得更准确的答案。

资讯配图

训练

打通整个链路,引领新时代下Agent model训练的新范式。

资讯配图

团队对Agent model训练流程进行了革新。从Agentic CPT(contine pre-training)到RFT(rejected fine-tuning)再到Agentic RL(reinforment learning),打通整个链路,引领新时代下Agent model训练的新范式。

资讯配图
端到端Agent训练流程

Tongyi DeepResearch Agent建立了一套连接Agentic CPT→Agentic SFT→Agentic RL的训练范式。下面重点介绍该团队如何通过强化学习来完成最后的优化。

通过强化学习构建高质量的Agent是一项复杂的系统工程挑战;如果将整个开发过程视为一个“强化学习”循环,其组件中的任何不稳定或鲁棒性不足都可能导致错误的“奖励”信号。

接下来,详细说明团队在强化学习方面的实践,涵盖算法和基础设施两个方面。

在强化学习(RL)算法方面,基于GRPO进行了定制优化。严格遵循on-policy的训练范式,确保学习信号始终与模型当前的能力精准匹配。

同时,采取了一个token级别的策略梯度损失函数来优化训练目标。其次,为了进一步降低优势估计(advantage estimation)的方差,采用了留一法 (leave-one-out) 策略。

此外,团队发现未经筛选的负样本会严重影响训练的稳定性,这种不稳定性在长时间训练后可能表现为“格式崩溃”(format collapse)现象。

为缓解此问题,团队会选择性地将某些负样本排除在损失计算之外,例如那些因过长而未能生成最终答案的样本。

出于效率考虑,并没有采用动态采样,而是通过增大批次(batch size)和组规模(group size)的方式,来维持较小的方差并提供充足的监督信号。

资讯配图

训练过程的动态指标显示,模型学习效果显著,奖励(reward)呈持续上升趋势。同时,策略熵(policy entropy)始终维持在较高水平,这表明模型在持续进行探索,有效防止了过早收敛。

团队将此归因于Web环境天然的非平稳性,该特性促进了稳健自适应策略的形成,也因此无需再进行显式的熵正则化。

团队认为,算法固然重要,但并非Agentic RL成功的唯一决定因素

在尝试了多种算法和优化技巧后我们发现,数据质量和训练环境的稳定性,可能是决定强化学习项目成败的更关键一环

一个有趣的现象是,团队曾尝试直接在BrowseComp测试集上训练,但其表现远不如使用合成数据的结果。

他们推测,这种差异源于合成数据提供了一致性更高的分布,使模型能进行更有效的学习和拟合。

相比之下,像BrowseComp这样的人工标注数据,本身就含有更多噪声,加之其规模有限,导致模型很难从中提炼出一个可供学习的潜在分布,从而影响了其学习和泛化(generalize)能力。

这一发现对其他智能体的训练同样具有启发意义,为构建更多样、更复杂的智能体训练方案提供了思路。

资讯配图

在基础设施方面,使用工具训练智能体需要一个高度稳定高效的环境:

通过这些措施,实现了智能体强化训练的“闭环”。

从基座模型开始,进行了Agentic持续预训练以初始化工具使用技能,然后使用类似专家的数据进行监督微调以实现冷启动,最后进在on-policy的强化学习,使模型进行自我进化。

这种全栈方法为训练能够在动态环境中稳健地解决复杂任务的 AI 代理提供了一种全新的范例。(受到Agentica过去研究的启发。基于rLLM框架进行开发和扩展,实现高效训练)

应用落地

目前通义Deep Research已赋能多个阿里巴巴内部应用,包括:

高德出行Agent

高德App作为通义在集团内长期共建的重点客户,其“地图导航+本地生活”的业务场景,以及高德内部丰富的专用工具,具备构建这类Agent的土壤,高德也将这类Agent能力作为25年暑期大版本V16的一个亮点功能。

通义团队近期在地图+本地生活场景,基于纯agentic+ReAct执行复杂推理的垂类agent技术建设,可以为高德提供更好效果的模型。

因此,双方团队共建合作,“通义团队提供模型 + 高德团队提供工具和 Agent 链路”,打造了高德App中助手高德小德的复杂查询体验,在地图行业内打出影响力。

资讯配图

通义法睿

通义法睿,作为大模型原生的“法律智能体”,致力于为大众及法律从业者提供专业、便捷的法律智能服务。集法律问答、案例法条检索、合同审查、文书阅读、文书起草等功能于一体,全面满足法律用户需求。

依托创新的Agentic架构与迭代式规划(Iterative Planning)技术,通义法睿全新升级司法DeepResearch能力,可高效执行多步查询与复杂推理,实现权威类案精准检索、法条智能匹配与专业观点深度融合。

以真实判例、官方法规和权威解读为基础,打造可追溯、高可信的法律分析服务,在法律问答的深度研究三大核心维度——答案要点质量、案例引用质量、法条引用质量上领先行业。

资讯配图

通义DeepResearch团队也在Blog和Github分享可落地的DeepResearch Agent构建方法论。

感兴趣的朋友可戳下方链接了解更多内容~

项目主页: https://tongyi-agent.github.io/
博客: https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/
Github地址: https://github.com/Alibaba-NLP/DeepResearch
Hugging Face地址: https://huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B
Model Scope: https://modelscope.cn/models/iic/Tongyi-DeepResearch-30B-A3B

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

资讯配图


🌟 点亮星标 🌟

科技前沿进展每日见

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AR 开源
more
千元级Lidar-Camera Fusion雷视一体智能感知系统助力割草机器人进入「全场景智能」
芯报丨光峰科技与谷东智能推出AR眼镜光学新方案,并签署10000台采购订单
【投融资】76%毛利碾压AI同行,Vercel获90亿美元估值报价,v0工具驱动ARR已破2亿美元
【最后5天】ARTS 2025早鸟报名|分论坛:医疗-仿生机器人
Voxel-SLAM:多功能LiDAR-惯性SLAM,室内、空中、城市定位均SOTA!
AI算力从云端「下放」,Arm 为手机备好了「新引擎」
开源Agent模型榜第一名,现在是阿里通义DeepResearch
2025世界CMF大会最新议程公布 英国知名材料设计专家Chris Lefteri、劳尔、PeclersParis、WGSN演讲
美国DARPA脑机接口项目:军事权力如何驱动民用技术革命?
上交发布U-Arm:突破成本壁垒,实现超低成本通用机械臂遥操作
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号