大厂数据护城河打破!上交全开源Search Agent OpenSeeker登场

机器之心 2026-03-31 20:18
大厂数据护城河打破!上交全开源Search Agent OpenSeeker登场图1


一直以来,高性能 Search Agent 都像是 “大厂的专属游戏”。虽然业界涌现了许多开源模型,但真正决定 Agent 能力上限的 “高质量训练数据” 却始终被各大企业严格保密,形成了一道坚固的数据护城河。这种持续的数据稀缺,极大地阻碍了广大研究社区在这一领域的创新与发展。


今天,由上海交通大学研究团队推出的 OpenSeeker 彻底打破这一现状!


作为首个纯学术团队打造完整开源模型 + 100% 全量训练数据的前沿深度搜索 Agent,OpenSeeker 证明了:不靠堆砌算力资源,依靠极高的数据合成质量,学术界同样能跑出 SOTA!在同等条件下(约 30B 参数量、纯 ReAct 架构),OpenSeeker 仅需 11.7k 合成样本进行单轮 SFT(监督微调),便在多个前沿榜单上取得了 SOTA 成绩。


大厂数据护城河打破!上交全开源Search Agent OpenSeeker登场图2



核心亮点速览



核心技术揭秘:

突破大厂数据瓶颈的高质量数据合成方案


要有效训练深度搜索 Agent,核心在于解决两个关键问题:首先,必须构建足够高难度的问答任务,以激发模型“推理 → 工具调用 → 工具反馈”的多轮工具调用能力,从而形成包含明确决策节点和长工具调用链的长程交互轨迹;其次,需要通过稳定且可复现的方法生成高质量解题轨迹,确保训练信号学习到的是正确且可泛化的策略,而非依赖随机采样产生的偶然成功。


为此,OpenSeeker 进一步提出基于真实网页结构的事实锚定问答构建动态去噪轨迹合成方法,以系统性提升多跳推理能力与信息提取能力。


1. 基于事实锚定的问答构建:基于真实网页图谱构造高难度多跳问题


大厂数据护城河打破!上交全开源Search Agent OpenSeeker登场图3


现有的检索任务往往容易被模型通过简单的模式匹配 “走捷径”。为了逼迫模型进行真正的多跳推理,OpenSeeker 直接从海量真实网页的图结构出发进行逆向工程



OpenSeek QA 合成的方法,不仅保证了数据的真实可信,还从结构上强制模型必须进行多步导航与深度推理。


2. 动态去噪轨迹合成:基于非对称上下文构建,强化嘈杂环境下的核心信息提取


大厂数据护城河打破!上交全开源Search Agent OpenSeeker登场图4


真实的网页环境充满了冗长且无关的噪音。为了合成高质量的动作轨迹,OpenSeeker 设计了一套非对称的 “动态上下文去噪” 策略



该方法激发 OpenSeeker 从嘈杂的真实网页环境中学习到了强大的信息提取与去噪能力。


实验结果:11.7k 数据的越级挑战


11.7k 数据单轮 SFT,媲美大厂表现:OpenSeeker 仅使用 11.7k 样本和 SFT 进行单轮训练,便展现出媲美甚至超越大厂资源密集型模型的竞争力。令人瞩目的是,在 BrowseComp-ZH 榜单上,仅采用单轮简单 SFT 训练的 OpenSeeker-v1-30B-SFT 取得了 48.4% 的高分,超越经历了持续预训练 (CPT)、SFT 和强化学习 (RL) 多阶段训练的 Tongyi DeepResearch (46.7%)。


大厂数据护城河打破!上交全开源Search Agent OpenSeeker登场图5


纯 SFT 与 ReAct 架构下的 SOTA 表现:在同为 SFT 训练的 ReAct Agent 竞争中,OpenSeeker 取得 SOTA。仅凭借 11.7k 数据,OpenSeeker 在 BrowseComp (29.5)、BrowseComp-ZH (48.4)、xbench (74.0) 和 WideSearch-EN (59.4) 四大榜单上均取得最优成绩,显著拉开了与阿里巴巴通义实验室提出的 WebSailor-V2、WebLeaper 等同类开源模型的差距。


大厂数据护城河打破!上交全开源Search Agent OpenSeeker登场图6


同等数据规模下的显著优势,凸显极高数据质量:在控制数据量规模可比的情况下(10k-15k 级别),OpenSeeker 的数据质量明显优于阿里巴巴通义实验室的 WebSailer-V2 和 WebLeaper 的各类组合版本,在各项指标上均保持显著优势。


大厂数据护城河打破!上交全开源Search Agent OpenSeeker登场图7


远超 Benchmark 的数据难度:为了量化数据难度,研究团队使用相同的模型对合成数据和标准 Benchmark 进行了推理对比。结果显示:


大厂数据护城河打破!上交全开源Search Agent OpenSeeker登场图8


社区反响:真正推动领域发展的底层开源支撑


OpenSeeker 一经发布,便在海外社交平台和开源社区引发了热烈反响。许多研究者与开发者纷纷表示,这正是目前学术界最迫切需要的破局之作:


大厂数据护城河打破!上交全开源Search Agent OpenSeeker登场图9



这不仅是一个 SOTA 模型,更是赋能整个学术界探索下一代 Search Agent 的坚实基座。


全面开源,即刻体验!


OpenSeeker 作为首个由纯学术团队打造、模型与全量训练数据完全开源的深度搜索 Agent,从根本上打破了长期以来由大厂构筑的数据护城河,真正为科研人员提供了可直接使用、可复现、可扩展的高质量研究数据基础。这一开放不仅降低了前沿 Search Agent 研究的门槛,更让研究者能够专注于方法创新本身,而不再受限于数据。打破闭源垄断,让前沿研究不再遥不可及。也期待更多开发者与研究者加入,共同探索下一代 Agent 的可能性,欢迎 Star 关注并上手体验!


作者介绍:

本文共同第一作者为上海交通大学博士生杜钰文与叶锐,其中叶锐为项目负责人,指导老师为上海交通大学人工智能学院陈思衡教授,主要研究方向为 AI Agents、Agentic Science 等领域。




大厂数据护城河打破!上交全开源Search Agent OpenSeeker登场图10


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AR 开源
more
刚刚,阿里达摩院祭出开源架构CPU王炸,直指AI Agent
阿里辟谣“千问团队集体离职”传闻,强调开源战略不变并加大AI人才引进
中科院发布“香山”“如意”开源芯片系统,推动RISC-V生态自主演进
企业级OpenClaw最强拍档来了!万亿参数的国产多模态大模型,刚刚开源发布
OpenAI 收购 Astral、Claude Channels、X 算法开源 | AI 资讯
全球OCR新王来自中国开源!GitHub狂揽73300+Star
端侧AI进入生态与场景决胜时代,上海海思给出端侧AI最优解:五芯布局、开源OS、兼容200款模型
科研AI出了个狠角色:开源30B小模型,硬刚Gemini和Claude
Cohere发布开源语音识别模型Transcribe,支持14种语言但部分语种表现欠佳
国产大模型强势崛起:豆包登顶国内榜首,小米双模上榜,开源赛道领跑全球
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号