刚刚，阿里开源WebWatcher，能力超越GPT-4o近一倍，Agent智能体新SOTA诞生

阿里巴巴通义实验室近日开源了一款重量级的 AI 智能体 WebWatcher。

它由通义实验室的 NLP 团队研发，是一款能够深度理解图像和文字的尖端研究工具。

WebWatcher 目前提供 7B 和 32B 两种参数规模，在多项高难度视觉问答基准测试中，其表现全面超越了 GPT-4o、Gemini 1.5 等顶级模型，刷新了行业纪录。

Github：https://github.com/Alibaba-NLP/WebAgent/tree/main/WebWatcher

核心性能数据一览

它的实测表现相当惊人，以下是基于 32B 模型的几项关键数据：

WebWatcher 的与众不同之处，在于它建立了一个统一的多模态推理框架。

这个框架能无缝结合视觉图像与文本信息，并灵活调用网页搜索、图像处理、文字识别和代码解释等多种工具。

它摒弃了传统的模板化方法，采用了一套能自主规划高质量、多步骤推理路径的自动化流程。

更详细的技术细节，可以参考其发布的论文。

资讯配图

传送门：https://arxiv.org/pdf/2508.05748

WebWatcher 的能力源于一套精巧的训练方法。它集成了五种核心工具：网页文本搜索、图片搜索、代码执行、文字识别以及深度网页浏览。

它的训练数据极具特色，并非简单投喂，而是通过爬取真实网站，并刻意隐藏关键信息，迫使模型必须学会推理和探索才能找到答案。

为了提升模型的规划能力，研究团队还专门构建了 BrowseComp-VL 基准。初级任务会给出明确目标，而高级任务则会隐藏目标，考验智能体自主规划多步操作的能力。

训练过程分为两步走。首先，通过监督微调，让模型学习 ReAct 框架下的「思考-行动-观察」决策模式，初步掌握如何使用工具。

在此基础上，再利用强化学习进行优化。通过算法比较不同工具使用路径的优劣，并引导模型学习最优解。这一步优化，必须建立在第一步微调的基础上才能生效。

WebWatcher 的核心洞见其实非常简洁明了。

它将看、读、搜、写代码和操作网页这些跨模态能力，全部整合到一个统一的智能规划器中。

再通过精心设计的数据和奖励机制，教会模型如何像一个真正的专家那样，一步步思考和行动，最终解决复杂问题。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！