阿里巴巴通义实验室近日开源了一款重量级的 AI 智能体 WebWatcher。
它由通义实验室的 NLP 团队研发,是一款能够深度理解图像和文字的尖端研究工具。
WebWatcher 目前提供 7B 和 32B 两种参数规模,在多项高难度视觉问答基准测试中,其表现全面超越了 GPT-4o、Gemini 1.5 等顶级模型,刷新了行业纪录。
Github:https://github.com/Alibaba-NLP/WebAgent/tree/main/WebWatcher
核心性能数据一览
它的实测表现相当惊人,以下是基于 32B 模型的几项关键数据:
在 HLE-VL 基准测试中,WebWatcher 的通过率达到了 13.6%,显著高于 GPT-4o 的 9.8%。 在 BrowseComp-VL 基准测试中,它的平均通过率为 27.0%,几乎是 GPT-4o 的两倍。 在 LiveVQA 测试中,其准确率为 58.7%,远超 Gemini 1.5-Flash 的 41.3%。 在 MMSearch 测试中,通过率也以 55.3% 领先于 Gemini 1.5-Flash 的 43.9%。

WebWatcher 的独到之处
WebWatcher 的与众不同之处,在于它建立了一个统一的多模态推理框架。
这个框架能无缝结合视觉图像与文本信息,并灵活调用网页搜索、图像处理、文字识别和代码解释等多种工具。
它摒弃了传统的模板化方法,采用了一套能自主规划高质量、多步骤推理路径的自动化流程。
更详细的技术细节,可以参考其发布的论文。
传送门:https://arxiv.org/pdf/2508.05748
模型如何学习?
WebWatcher 的能力源于一套精巧的训练方法。它集成了五种核心工具:网页文本搜索、图片搜索、代码执行、文字识别以及深度网页浏览。
它的训练数据极具特色,并非简单投喂,而是通过爬取真实网站,并刻意隐藏关键信息,迫使模型必须学会推理和探索才能找到答案。
为了提升模型的规划能力,研究团队还专门构建了 BrowseComp-VL
基准。初级任务会给出明确目标,而高级任务则会隐藏目标,考验智能体自主规划多步操作的能力。
先模仿,再优化的训练哲学
训练过程分为两步走。首先,通过监督微调,让模型学习 ReAct
框架下的「思考-行动-观察」决策模式,初步掌握如何使用工具。
在此基础上,再利用强化学习进行优化。通过算法比较不同工具使用路径的优劣,并引导模型学习最优解。这一步优化,必须建立在第一步微调的基础上才能生效。
核心洞见与启发
WebWatcher 的核心洞见其实非常简洁明了。
它将看、读、搜、写代码和操作网页这些跨模态能力,全部整合到一个统一的智能规划器中。
再通过精心设计的数据和奖励机制,教会模型如何像一个真正的专家那样,一步步思考和行动,最终解决复杂问题。
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!