开源Agent模型榜第一名，现在是阿里通义DeepResearch

通义DeepResearch团队投稿
量子位 | 公众号 QbitAI

阿里开源旗下首个深度研究Agent模型通义DeepResearch！

相比于基于基础模型的ReAct Agent和闭源Deep Research Agent，这个30B-A3B轻量级模型Tongyi DeepResearch在HLE、BrowseComp-zh、GAIA等多个权威评测集上取得SOTA成绩，超越了OpenAI Deep Research、DeepSeek-V3.1等Agent模型。

目前，通义DeepResearch的模型、框架和方案均已全面开源，感兴趣的朋友可以在Github、Hugging Face和魔搭社区社区下载模型和代码～

下面来看模型具体情况。

数据策略：基于全合成数据的增量预训练和后训练

模型能力的提升，主要得益于团队设计的一套多阶段数据策略。

这个策略的核心目标是，不依赖昂贵的人工标注，也能大规模地生成高质量的训练数据。

增量预训练数据

团队引入了Agentic CPT（增量预训练）来为模型打下坚实的Agent基础。

为此，开发了一个系统化、可扩展的数据合成方案。它能利用后续训练流程产生的数据，形成一个数据生成的正向循环。

数据重组和问题构建
基于广泛收集和增量更新的知识文档、公开可用的爬虫数据、知识图谱以及后训练产生的轨迹数据和工具调用返回结果（例如，搜索结果和网页访问记录）等，我们构建了一个以实体为锚定的开放世界知识记忆。进一步，我们基于采样的实体和相关知识构造多风格的（问题，答案）对，以尽可能涵盖智能体所面临的真实场景。

动作合成
基于多风格问题和历史轨迹数据，我们分别构建了三种类型的动作数据，包含规划、推理和决策动作。我们的方法能够在离线环境下大规模、全面地探索潜在的推理-动作空间，从而消除了对额外商业工具 API 调用的需求。特别地，对于决策动作合成，我们将轨迹重构为多步骤决策过程，以增强模型的决策能力。

Post-training数据

通义DeepRsearch团队开发了一套全自动的合成数据生成方案，旨在全自动化生成超越人工标注质量的数据集，以挑战模型的能力极限。

这个方案经过了多次迭代，从早期的WebWalker，到更系统的WebSailor和WebShaper，数据质量和可扩展性都得到了保证。

为了生成能应对复杂问题的问答数据，团队开创性得设计了一个新流程。

首先，通过知识图谱随机游走和表格数据融合等方式，从真实网站数据中提取信息，保证数据结构的真实性。

然后，通过策略性地模糊或隐藏问题中的信息来增加难度。团队将问答难度建模为一系列可控的“原子操作”，这样就可以系统性地提升问题的复杂度。

为了减少推理捷径，团队还基于集合论对信息搜索问题进行了形式化建模。这帮助他们以可控的方式生成更高质量的问题，并解决了合成数据难以验证正确性的问题。

此外，该团队还开发了一个自动化数据引擎，用于生成需要多学科知识和多源推理的“博士级”研究问题。它会让一个配备了网络搜索、学术检索等工具的代理，在一个循环中不断深化和扩展问题，使任务难度可控地升级。

推理模式

Tongyi DeepResearch既有原生的ReAct Mode，又有进行上下文管理的Heavy Mode。

ReAct Mode

模型在标准的ReAct模式（思考-行动-观察）下表现出色。128K的上下文长度支持大量的交互轮次，团队遵循大道至简，认为通用的、可扩展的方法最终会更有优势。

Heavy Mode

除了ReAct模式外，团队还开发了“深度模式”，用于处理极端复杂的多步研究任务。此模式基于全新的IterResearch范式，旨在将Agent的能力发挥到极致。

IterResearch范式的创建是为了解决Agent将所有信息堆积在一个不断扩展的单一上下文窗口中时出现的认知瓶颈和噪音污染。相反，IterResearch 将一项任务解构为一系列“研究轮次”。

在每一轮中，Agent仅使用上一轮中最重要的输出来重建一个精简的工作空间。

在这个专注的工作空间中，Agent会分析问题，将关键发现整合成一个不断演变的核心报告，然后决定下一步行动——是收集更多信息还是提供最终答案。

这种“综合与重构”的迭代过程使Agent能够在执行长期任务时保持清晰的“认知焦点”和高质量的推理能力。

在此基础上，团队还提出了Research-Synthesis框架：让多个IterResearch Agent并行探索同一个问题，最后整合它们的报告和结论，以获得更准确的答案。

训练

打通整个链路，引领新时代下Agent model训练的新范式。

团队对Agent model训练流程进行了革新。从Agentic CPT(contine pre-training)到RFT(rejected fine-tuning)再到Agentic RL(reinforment learning)，打通整个链路，引领新时代下Agent model训练的新范式。

△端到端Agent训练流程

Tongyi DeepResearch Agent建立了一套连接Agentic CPT→Agentic SFT→Agentic RL的训练范式。下面重点介绍该团队如何通过强化学习来完成最后的优化。

基于策略的强化学习（RL）

通过强化学习构建高质量的Agent是一项复杂的系统工程挑战；如果将整个开发过程视为一个“强化学习”循环，其组件中的任何不稳定或鲁棒性不足都可能导致错误的“奖励”信号。

接下来，详细说明团队在强化学习方面的实践，涵盖算法和基础设施两个方面。

在强化学习（RL）算法方面，基于GRPO进行了定制优化。严格遵循on-policy的训练范式，确保学习信号始终与模型当前的能力精准匹配。

同时，采取了一个token级别的策略梯度损失函数来优化训练目标。其次，为了进一步降低优势估计（advantage estimation）的方差，采用了留一法 (leave-one-out) 策略。

此外，团队发现未经筛选的负样本会严重影响训练的稳定性，这种不稳定性在长时间训练后可能表现为“格式崩溃”（format collapse）现象。

为缓解此问题，团队会选择性地将某些负样本排除在损失计算之外，例如那些因过长而未能生成最终答案的样本。

出于效率考虑，并没有采用动态采样，而是通过增大批次（batch size）和组规模（group size）的方式，来维持较小的方差并提供充足的监督信号。

训练过程的动态指标显示，模型学习效果显著，奖励（reward）呈持续上升趋势。同时，策略熵（policy entropy）始终维持在较高水平，这表明模型在持续进行探索，有效防止了过早收敛。

团队将此归因于Web环境天然的非平稳性，该特性促进了稳健自适应策略的形成，也因此无需再进行显式的熵正则化。

团队认为，算法固然重要，但并非Agentic RL成功的唯一决定因素。

在尝试了多种算法和优化技巧后我们发现，数据质量和训练环境的稳定性，可能是决定强化学习项目成败的更关键一环。

一个有趣的现象是，团队曾尝试直接在BrowseComp测试集上训练，但其表现远不如使用合成数据的结果。

他们推测，这种差异源于合成数据提供了一致性更高的分布，使模型能进行更有效的学习和拟合。

相比之下，像BrowseComp这样的人工标注数据，本身就含有更多噪声，加之其规模有限，导致模型很难从中提炼出一个可供学习的潜在分布，从而影响了其学习和泛化（generalize）能力。

这一发现对其他智能体的训练同样具有启发意义，为构建更多样、更复杂的智能体训练方案提供了思路。

在基础设施方面，使用工具训练智能体需要一个高度稳定高效的环境：

仿真训练环境：依赖实时Web API进行开发成本高昂、速度慢且不一致。我们利用离线维基百科数据库和自定义工具套件创建了一个模拟训练环境来解决这一问题。并且通过SailorFog-QA-V2的流程，为该环境生成专属的高质量数据，创建了一个经济高效、快速可控的平台，显著加快了我们的研究和迭代速度。
稳定高效的工具沙盒：为了确保在智能体训练和评估期间对工具的稳定调用，我们开发了一个统一的沙盒。该沙盒通过缓存结果、重试失败的调用以及饱和式响应等改进来高效地处理并发和故障。这为智能体提供了快速且鲁棒的交互环境，可以有效防止工具的错误响应破坏其学习轨迹。
自动数据管理：数据是提升模型能力的核心驱动力，其重要性甚至超过了算法。数据质量直接决定了模型是否能通过自我探索提升分布外泛化能力。因此，我们在训练动态的指导下实时优化数据，通过全自动数据合成和数据漏斗动态调整训练集。通过数据生成和模型训练之间的正向循环，这种方法不仅确保了训练的稳定性，还带来了显著的性能提升。
基于策略的异步框架：我们在rLLM之上实现了异步强化学习训练推理框架，多个智能体实例并行与（模拟或真实）环境交互，独立生成轨迹。

通过这些措施，实现了智能体强化训练的“闭环”。

从基座模型开始，进行了Agentic持续预训练以初始化工具使用技能，然后使用类似专家的数据进行监督微调以实现冷启动，最后进在on-policy的强化学习，使模型进行自我进化。

这种全栈方法为训练能够在动态环境中稳健地解决复杂任务的 AI 代理提供了一种全新的范例。（受到Agentica过去研究的启发。基于rLLM框架进行开发和扩展，实现高效训练）

应用落地

目前通义Deep Research已赋能多个阿里巴巴内部应用，包括：

高德出行Agent

高德App作为通义在集团内长期共建的重点客户，其“地图导航+本地生活”的业务场景，以及高德内部丰富的专用工具，具备构建这类Agent的土壤，高德也将这类Agent能力作为25年暑期大版本V16的一个亮点功能。

通义团队近期在地图+本地生活场景，基于纯agentic+ReAct执行复杂推理的垂类agent技术建设，可以为高德提供更好效果的模型。

因此，双方团队共建合作，“通义团队提供模型 + 高德团队提供工具和 Agent 链路”，打造了高德App中助手高德小德的复杂查询体验，在地图行业内打出影响力。

通义法睿

通义法睿，作为大模型原生的“法律智能体”，致力于为大众及法律从业者提供专业、便捷的法律智能服务。集法律问答、案例法条检索、合同审查、文书阅读、文书起草等功能于一体，全面满足法律用户需求。

依托创新的Agentic架构与迭代式规划（Iterative Planning）技术，通义法睿全新升级司法DeepResearch能力，可高效执行多步查询与复杂推理，实现权威类案精准检索、法条智能匹配与专业观点深度融合。

以真实判例、官方法规和权威解读为基础，打造可追溯、高可信的法律分析服务，在法律问答的深度研究三大核心维度——答案要点质量、案例引用质量、法条引用质量上领先行业。

通义DeepResearch团队也在Blog和Github分享可落地的DeepResearch Agent构建方法论。

感兴趣的朋友可戳下方链接了解更多内容～

项目主页: https://tongyi-agent.github.io/
博客: https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/
Github地址: https://github.com/Alibaba-NLP/DeepResearch
Hugging Face地址: https://huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B
Model Scope: https://modelscope.cn/models/iic/Tongyi-DeepResearch-30B-A3B

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

资讯配图