o3 Gemini 都翻车?首个可验证长链 GUI 数据集 VeriGUI 重磅开源,探索通用 Agent 能力边界

AI科技评论 2025-08-13 12:01
资讯配图

VeriGUI 论文一经发布,迅速在 Hugging Face 荣登月榜第三。


作者丨整数智能


                                                                                         资讯配图

GUI 智能体正以前所未有的速度崛起,有望彻底改变人机交互的方式。然而,这一领域的进展正面临瓶颈:现有数据集大多聚焦于 10 步以内的短程交互,且仅验证最终结果,无法有效评估和训练智能体在真实世界中的长时程规划与执行能力。

长期以来,评估 AI 模型能力的标准主要依赖于静态的、封闭世界的基准测试,例如 MMLU 或 GPQA。这些基准有效地衡量了一个模型“知道”什么,即其知识储备和在特定、孤立任务上的表现。然而,随着 Agent 的兴起,研究界的共识正在迅速转向一个更根本的问题:一个 LLM 及 Agent,如何创造更大的价值?

这种转变催生了新一代的动态、交互式基准,它们旨在评估 Agent 在复杂、开放和不可预测的环境中的实际执行能力。在这个背景下,由 2077AI 开源基金会牵头构建的全新基准 VeriGUI应运而生,VeriGUI 具备两大核心特征突破——长链复杂性 (Long-Chain Complexity) 与子任务级可验证性 (Subtask-Level Verifiability)。

VeriGUI 论文一经发布,迅速在 Hugging Face 荣登月榜第三!这一成就不仅证明了社区对 VeriGUI 价值的高度认可,也为通用智能代理的研究提供了一个更真实、更精细的试验场。

资讯配图

VeriGUI 数据集一览

资讯配图

01

背景痛点:简单任务已成“过去式”,复场景呼唤新基准

当前 GUI 智能体研究的核心痛点在于,现有数据集已无法满足前沿模型的评估需求:

资讯配图

VeriGUI 与其他现有 GUI 数据集和基准测试平台在平台支持、步骤数、可验证性、人工演示、可执行性和交互方式上的差异

资讯配图

02

三大技术亮点:为复杂任务而生

VeriGUI 通过三大技术亮点,精准地解决了上述难题:

  1. 4-8 子任务 × 百级操作的长链轨迹VeriGUI 中的每个任务都被分解为 4-8 个相互依赖的子任务,完成全程需要数百次 GUI 操作。更具创新性的是,任何子任务都能作为独立的起点,从而可以对智能体在任务不同阶段的规划、记忆和决策能力进行全面评估。

  2. 子任务级验证信号,支持多策略探索VeriGUI 提供子任务级别的精细化监督信号,它只验证每个子任务的目标是否达成,而不限制智能体达成目标的具体方式。这极大地鼓励了智能体探索多样化的解决策略,而不是死板地遵循预设步骤。

  3.  Web & Desktop 的统一操作空间:数据集同时涵盖了网页和桌面两大主流平台,并定义了一套统一的 GUI 操作空间(如点击、输入、拖拽等),使智能体能够学习跨环境的通用交互能力。

资讯配图

VeriGUI 数据集的设计理念与核心:长链条复杂性 (Long-Chain Complexity)和子任务级别可验证性 (Subtask-Level Verifiability)

资讯配图

03

数据规模速览

基于已收集的 130 个 Web 任务轨迹,VeriGUI 展现了其卓越的复杂性:

资讯配图

VeriGUI 数据集的详细统计数据,包括任务领域分布(a)、子任务数量分布(b、c)、GUI 动作分布(d)、不同领域中的动作数量(e)以及总体步骤数量分布(f)

资讯配图

04

基准实验摘要:顶尖模型遭遇“滑铁卢”

我们在 VeriGUI 上对多种 SOTA 基础模型进行了全面测试,测试框架涵盖了四种主流范式:

资讯配图

不同类型的智能体在 VeriGUI 基准测试上 130 个网页任务中的成功率(SR)和任务完成率(CR)

资讯配图

05

科研价值:填补评测空白,赋能前沿研究

VeriGUI 的发布具有重要的科研价值:

资讯配图

06

开源资源 & 快速上手

我们已将 VeriGUI 完全开源,希望能为社区的研究提供便利。

您可以轻松通过 Datasets 库一键加载,快速开启您的研究。

如果您需要详细了解我们的实验过程和更多数据集构建细节,欢迎阅读我们的论文:

资讯配图

07

展望与合作计划

VeriGUI 项目仍在进行中。我们正积极扩充数据集,未来版本将包含更多强调交互性的 Web 任务(如表单填写、账户登录)以及大量复杂的桌面软件操作任务。

2077AI 开源基金会 致力于推动 AI 领域开放研究和合作。我们真诚地邀请学术界和工业界的同仁们与我们合作,共同建设 VeriGUI 生态,在我们的基准上提交新的 Baseline,一起探索通用智能体的未来。

欢迎关注我们(https://www.2077ai.com/),也期待与您的合作!

//

推荐阅读

资讯配图

为什么中国只有一个 DeepSeek?


资讯配图

关于 DeepSeek 一体机落地真相,我们调研了 12 家上市公司

资讯配图

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
EMI 开源
more
戴尔推出 16 Premium 笔记本电脑:沿袭 XPS 16,可选 RTX 5070 显卡
【AI】刚刚,马斯克Grok4干翻谷歌Gemini!o3杀入首届大模型对抗赛决战
重构创新 | SEMI-e深圳国际半导体展暨2025集成电路产业创新展今年大不同
细看Intel EMIB封装技术:它会成为AI芯片的未来吗?
刚刚,马斯克Grok4干翻谷歌Gemini!o3杀入首届大模型对抗赛决战
Chemical Eng J:基于纳米胶囊修饰还原氧化石墨烯/席夫碱功能化Fe₃O₄复合材料实现对Cd²⁺高灵敏高选择性检测
Gemini负责人爆料!多模态统一token表示,视觉至关重要
SEMI-e 深圳国际半导体展半导体核心零部件产品合集:杰为科技、甲冠半导体、芯密科技、明睿陶瓷、槃实科技
博思特携手双子智擎发布GeminiBot A1
韩国SK Key Foundry和LB Semicon联合发布面向汽车半导体的下一代封装技术
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号