刚刚,阿里开源WebWatcher,能力超越GPT-4o近一倍,Agent智能体新SOTA诞生

智能情报所 2025-09-04 17:03

阿里巴巴通义实验室近日开源了一款重量级的 AI 智能体 WebWatcher。

它由通义实验室的 NLP 团队研发,是一款能够深度理解图像和文字的尖端研究工具。

WebWatcher 目前提供 7B 和 32B 两种参数规模,在多项高难度视觉问答基准测试中,其表现全面超越了 GPT-4o、Gemini 1.5 等顶级模型,刷新了行业纪录。

Github:https://github.com/Alibaba-NLP/WebAgent/tree/main/WebWatcher

核心性能数据一览

它的实测表现相当惊人,以下是基于 32B 模型的几项关键数据:

  • 在 HLE-VL 基准测试中,WebWatcher 的通过率达到了 13.6%,显著高于 GPT-4o 的 9.8%。
  • 在 BrowseComp-VL 基准测试中,它的平均通过率为 27.0%,几乎是 GPT-4o 的两倍。
  • 在 LiveVQA 测试中,其准确率为 58.7%,远超 Gemini 1.5-Flash 的 41.3%。
  • 在 MMSearch 测试中,通过率也以 55.3% 领先于 Gemini 1.5-Flash 的 43.9%。
资讯配图

WebWatcher 的独到之处

WebWatcher 的与众不同之处,在于它建立了一个统一的多模态推理框架。

这个框架能无缝结合视觉图像与文本信息,并灵活调用网页搜索、图像处理、文字识别和代码解释等多种工具。

它摒弃了传统的模板化方法,采用了一套能自主规划高质量、多步骤推理路径的自动化流程。

更详细的技术细节,可以参考其发布的论文。

资讯配图

传送门:https://arxiv.org/pdf/2508.05748

模型如何学习?

WebWatcher 的能力源于一套精巧的训练方法。它集成了五种核心工具:网页文本搜索、图片搜索、代码执行、文字识别以及深度网页浏览

它的训练数据极具特色,并非简单投喂,而是通过爬取真实网站,并刻意隐藏关键信息,迫使模型必须学会推理和探索才能找到答案。

为了提升模型的规划能力,研究团队还专门构建了 BrowseComp-VL 基准。初级任务会给出明确目标,而高级任务则会隐藏目标,考验智能体自主规划多步操作的能力。

先模仿,再优化的训练哲学

训练过程分为两步走。首先,通过监督微调,让模型学习 ReAct 框架下的「思考-行动-观察」决策模式,初步掌握如何使用工具。

在此基础上,再利用强化学习进行优化。通过算法比较不同工具使用路径的优劣,并引导模型学习最优解。这一步优化,必须建立在第一步微调的基础上才能生效。

核心洞见与启发

WebWatcher 的核心洞见其实非常简洁明了。

它将看、读、搜、写代码和操作网页这些跨模态能力,全部整合到一个统一的智能规划器中。

再通过精心设计的数据和奖励机制,教会模型如何像一个真正的专家那样,一步步思考和行动,最终解决复杂问题。


一键三连点赞」「转发」「小心心

欢迎在评论区留下你的想法!


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源
more
苹果深夜开源FastVLM,首词生成速度飙升85倍,浏览器就能跑实时视频字幕,LLaVA忌惮的对手来了?
万物皆可“邪修”?科研党靠这个开源大模型“开挂”:能解化学题、能分析AFM图,有8B轻量版还能二次开发
字节开源图像生成“六边形战士”,一个模型搞定人物/主体/风格保持
80%美国AI初创靠中国开源模型“吃饭”!a16z投资人震惊,全球开源榜前16名全被中国包揽
快讯|马斯克证实xAI代码库被盗;美团首个开源大模型追平DeepSeek-V3.1;我国低空装备产品数量超400万台
首个为具身智能而生的大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等重磅开源
美团自研大模型开源;百亿级半导体项目正式宣告破产;微信:发布AI生成的内容,用户需主动声明 | AI周报
摆脱英伟达依赖?美团发布首个开源大模型
几个受欢迎的嵌入式开源项目
媲美Nano-Banana | 字节{全量开源}首个“风格+主题”「双修」模型,节省百万外包费!
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号