阿里开源「深度研究」王炸Agent,登顶开源Agent模型榜首

智东西 2025-09-17 23:07

资讯配图资讯配图▲头图由AI生成

3B参数超越OpenAI o3、DeepSeek V3.1。
作者 |  王涵
编辑 |  漠影
智东西9月17日报道,今天凌晨,阿里巴巴开源了其首个深度研究Agent模型:通义DeepResearch
在Humanity's Last Exam(HLE)、BrowseComp、BrowseComp-ZH、GAIA、xbench-deepsearch、WebWalkerQA以及Frames等权威Agent评测集中,通义DeepResearch模型凭借3B激活参数,性能超越基于OpenAI o3DeepSeek V3.1Claude-4-Sonnet等旗舰模型的ReAct Agent(推理-行动智能体)。
资讯配图

▲基准测试成绩排名

资讯配图

▲基准测试分数

目前,通义DeepResearch的模型、框架和方案已在Github、Hugging Face和魔搭社区全面开源,开发者和用户可自行下载模型与代码。
资讯配图

下载地址:
Github:
https://github.com/Alibaba-NLP/DeepResearch
Hugging Face:
https://huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B
魔搭社区:
https://modelscope.cn/models/iic/Tongyi-DeepResearch-30B-A3B
深度研究作为近一年的AI研究热点,吸引了谷歌、OpenAI、Anthropic等众多主流企业投入研发。
深度研究研发的现有方法大多采用“单窗口、线性累加”的信息处理模式,在处理长周期任务时,Agent易遭遇“认知空间窒息”与“不可逆的噪声污染”,导致推理能力降低,难以完成复杂研究任务。
据介绍,为解决这些问题,阿里通义团队构建了一套合成数据驱动的完整训练链路,覆盖预训练与后训练阶段。
该链路以Qwen3-30B-A3B模型为基础进行优化,设计了RL算法验证与真实训练模块,涵盖真实与虚拟环境,并借助异步强化学习算法及自动化数据策展流程,有效提升了模型的迭代速度与泛化能力。
在推理阶段,通义团队还设计了ReAct基于自研IterResearch的Heavy两种模式。ReAct用于精准评估模型的基础内在能力,Heavy则通过test-time scaling策略,充分挖掘模型的性能上限,确保在长任务中也能实现高质量推理。

结语:阿里进一步补全开源布局


今年以来,阿里已陆续开源WebWalker、WebDancer和WebSailor等多款检索和推理智能体,且均取得开源SOTA成绩。通义DeepResearch的开源,进一步丰富了阿里在AI智能体领域的开源布局。
通义DeepResearch的开源为深度研究Agent赛道提供了“轻量化高性能”的新选择,也为全球开发者攻克长周期复杂研究任务提供了关键工具支撑。
资讯配图
(本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。)

资讯配图

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源
more
从中国“霸榜”到全球开源,AI的新思考!GOSIM HANGZHOU 2025圆满收官
腾讯开源混元图像2.1!原生2K分辨率生图,千字长文本秒懂
宇树:开源机器人世界大模型!
刚刚,宇树宣布开源
里程碑!逻辑智能发布全球首个完全开源语音大模型框架LLaSO,语音AI迎来新纪元
全新开源模型复现o3视觉推理,无需大量训练即可实现深度思考
宇树开源 UnifoLM-WMA-0
CVPR'25开源 | 还在用ICP?点云配准新框架:DFAT凭啥霸榜4个数据集?
【源头活水】CVPR 2025 | 打破壁垒!多模态统一学习新范式来了,数据、模型、代码全开源
LibEER:脑电情绪识别领域的全面实验基准及开源算法库
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号