30B参数超越GPT-5!REDSearcher让「深度搜索Agent」做到低成本可扩展!

机器之心 2026-03-08 10:30

「2018 到 2023 年间在 EMNLP 会议上发表的那篇论文中,第一作者本科就读于达特茅斯学院、第四作者本科就读于宾夕法尼亚大学的那篇科学论文,题目是什么?」

 

这并不是一道靠记忆就能解答的题。Agent 必须在多轮环境交互中,不断假设、验证并修正路径,始终保持推理一致性,才能将零散证据整合成自洽链条。

 

2025 年被视为 AI Agent 元年,但真正的自主 Agent 核心在于「深度搜索」,在长程任务中像人类专家一样维持目标、验证信息并动态调整策略。然而,训练这样的 Agent 面临三大瓶颈:

 

 

 

 

为突破瓶颈,REDSearcher 团队设计了一套低成本、可扩展的训练框架,最终使用 30B 规格模型在深度搜索任务上取得开源模型 SoTA,并且超越了 GPT-5 等一众闭源模型。

 

30B参数超越GPT-5!REDSearcher让「深度搜索Agent」做到低成本可扩展!图2

 

 

30B参数超越GPT-5!REDSearcher让「深度搜索Agent」做到低成本可扩展!图3

 

一、什么是「足够难」的深度搜索题目?

 

什么是困难的搜索题目?推理跳数往往只是表象,应该追求的是问题的结构性困难。

 

1. 拓扑复杂度:用树宽衡量「结构性困难」

 

复杂任务中,信息分叉交织形成回环。Agent 需同时记忆多路推论,时刻验证一致性,并随时准备整体回溯,这便是深度搜索的核心挑战。为此,团队引入图论中的 TreeWidth(树宽)概念来刻画这种「结构性困难」。以下通过三种结构问题进行对比:

 

30B参数超越GPT-5!REDSearcher让「深度搜索Agent」做到低成本可扩展!图4

 

 

 

 

2. 信息分散度:杜绝搜索「捷径」

 

即使问题的拓扑结构很复杂,如果存在一个网页恰好包含所有关键事实,模型一次检索就能抄走答案。为此,团队引入「信息分散度」,即覆盖全部关键证据所需的最小来源数。信息分散度越大,表明问题相关的证据片段(注:原文为“争取片段”,疑为笔误,此处已作修正)在互联网上的分布就更加零散,这迫使 Agent 与外部环境进行更多轮次的交互从而获取更加充分的信息。

 

二、大规模「自动化」合成

「高难度」的深度搜索问题

 

基于双约束复杂度标准,我们采用 graph-to-text 流程合成数据:先生成符合树宽与分散度的推理图,再将其翻译为自然语言问题,并经过多层校验确保「高难度、可解且答案唯一」。同时,我们设计了基于「结构化信息」与「网络浏览」两套图构造流程,以覆盖不同搜索环境。在合成问题中,我们采取:

 

 

 

30B参数超越GPT-5!REDSearcher让「深度搜索Agent」做到低成本可扩展!图5

 

三、多模态扩展:从「文本图」到「多模态图」

 

在文本合成基础上,REDSearcher 通过模态注入将纯文本推理图转化为跨模态推理,使部分约束锚定在图像中。

 

 

通过这套轻量级扩展,REDSearcher 可高效迁移至多模态搜索领域,合成高质量的图文深度搜索问题。

 

四、「成本可控」Mid-Training 强化智能体能力

 

预训练模型缺乏多轮交互训练,在长程搜索中易出现目标漂移、重复搜索等问题。为此,REDSearcher 采用可扩展的两阶段 Mid-Training 框架,依次强化模型的「原子能力」与「组合能力」,实现从语言建模到智能体的过渡。

 

30B参数超越GPT-5!REDSearcher让「深度搜索Agent」做到低成本可扩展!图6

 

原子能力建设

 

针对深度搜索重要的两个基础能力优化:

 

 

组合能力建设

 

通过环境交互强化长程任务中的状态维持与目标一致性,全程以成本为约束:

 

 

五、后训练持续进化:

不只是「搜得多」,更要「搜得准」

 

后训练采取 SFT + Agentic RL 双阶段增强:

 

 

 

团队观察到了效率与性能同步提升的现象:随着训练进行,模型的平均交互轮次不断下降,但准确率持续提升。这表明 REDSearcher 并非简单的「暴力搜索」,而是学会了更精准的信息获取策略,主动减少无效调用,形成「越训越聪明」的良性循环。

 

六、实验结果

 

在多项深度搜索权威基准上,REDSearcher 在开源模型中取得了优异的表现:

 

 

 

30B参数超越GPT-5!REDSearcher让「深度搜索Agent」做到低成本可扩展!图7
30B参数超越GPT-5!REDSearcher让「深度搜索Agent」做到低成本可扩展!图8

 

结语

 

REDSearcher 的核心在于系统性设计:从图论角度定义深度搜索任务复杂度,以双约束优化可扩展合成数据,以两阶段中间训练降低能力迁移成本,以高质量轨迹合成结合强化学习实现持续迭代。它提供了一条可复现、低成本的深度搜索智能体训练路径,使 AI 系统从静态知识查询走向开放环境下的自主探索、验证与信息整合。


作者简介

 

初征,哈工大社会计算与信息检索中心在读博士生,由刘铭教授和秦兵教授共同指导,研究方向是智能体、大语言模型、复杂推理、深度搜索。

 

王枭,就职于小红书 Hi Lab,负责Search Agent,主要关注长程推理、智能体、数据合成、强化学习。

 

Jack Hong,小红书 Hi Lab 团队算法实习生,主要研究方向是多模态大模型、Agent、计算机视觉等。

© THE END 

转载请联系本公众号获得授权

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AR
more
CES 2026 | NVIDIA DLSS 4.5、路径追踪和 G-SYNC Pulsar 为游戏体验注入强劲动力,显著提升性能与视觉效果
格罗方德签署协议收购新思科技ARC处理器IP业务,强化物理AI布局
OpenClaw昨晚大更新:支持GPT-5.4,记忆热插拔,Star量破28万
苹果CarPlay将支持第三方AI聊天机器人,Siri或面临“让位”
英特尔Bartlett Lake-S嵌入式处理器阵容曝光:全P核设计,最高12核5.9GHz
拒绝Reward Hacking!港科联合快手可灵提出高效强化学习后训练扩散模型新范式
亿航智能携手土耳其电信、Argela 共拓土耳其先进空中交通新生态
索尼新技术识别AI音乐版权,比亚迪首台纯电 K-Car内饰公布,苹果将在中国办发布会,Switch2将迎来涨价,这就是今天的其他大新闻!
Snap成立独立子公司Specs Inc.,全力推进2026年消费级AR眼镜上市
微信炼出扩散语言模型,实现vLLM部署AR模型3倍加速,低熵场景超10倍
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号