VeriGUI 论文一经发布，迅速在 Hugging Face 荣登月榜第三。

作者丨整数智能

GUI 智能体正以前所未有的速度崛起，有望彻底改变人机交互的方式。然而，这一领域的进展正面临瓶颈：现有数据集大多聚焦于 10 步以内的短程交互，且仅验证最终结果，无法有效评估和训练智能体在真实世界中的长时程规划与执行能力。

长期以来，评估 AI 模型能力的标准主要依赖于静态的、封闭世界的基准测试，例如 MMLU 或 GPQA。这些基准有效地衡量了一个模型“知道”什么，即其知识储备和在特定、孤立任务上的表现。然而，随着 Agent 的兴起，研究界的共识正在迅速转向一个更根本的问题：一个 LLM 及 Agent，如何创造更大的价值？

这种转变催生了新一代的动态、交互式基准，它们旨在评估 Agent 在复杂、开放和不可预测的环境中的实际执行能力。在这个背景下，由 2077AI 开源基金会牵头构建的全新基准 VeriGUI应运而生，VeriGUI 具备两大核心特征突破——长链复杂性（Long-Chain Complexity）与子任务级可验证性（Subtask-Level Verifiability）。

VeriGUI 论文一经发布，迅速在 Hugging Face 荣登月榜第三！这一成就不仅证明了社区对 VeriGUI 价值的高度认可，也为通用智能代理的研究提供了一个更真实、更精细的试验场。

VeriGUI 数据集一览

背景痛点：简单任务已成“过去式”，复杂场景呼唤新基准

当前 GUI 智能体研究的核心痛点在于，现有数据集已无法满足前沿模型的评估需求：

短流程，浅交互：现有数据集的任务平均长度通常不足 10 步，智能体只需识别 UI 元素并执行相应动作即可完成，这远不能模拟真实世界中涉及条件判断和状态追踪的复杂工作流。
结果式验证，过程成“黑箱”：大多基准仅通过 URL 匹配等方式验证最终结果，当任务失败时，无法得知问题出在哪个环节，难以对智能体的规划能力进行针对性改进。

VeriGUI 与其他现有 GUI 数据集和基准测试平台在平台支持、步骤数、可验证性、人工演示、可执行性和交互方式上的差异

三大技术亮点：为复杂任务而生

VeriGUI 通过三大技术亮点，精准地解决了上述难题：

4-8 子任务 × 百级操作的长链轨迹：VeriGUI 中的每个任务都被分解为 4-8 个相互依赖的子任务，完成全程需要数百次 GUI 操作。更具创新性的是，任何子任务都能作为独立的起点，从而可以对智能体在任务不同阶段的规划、记忆和决策能力进行全面评估。
子任务级验证信号，支持多策略探索：VeriGUI 提供子任务级别的精细化监督信号，它只验证每个子任务的目标是否达成，而不限制智能体达成目标的具体方式。这极大地鼓励了智能体探索多样化的解决策略，而不是死板地遵循预设步骤。
跨 Web & Desktop 的统一操作空间：数据集同时涵盖了网页和桌面两大主流平台，并定义了一套统一的 GUI 操作空间（如点击、输入、拖拽等），使智能体能够学习跨环境的通用交互能力。

VeriGUI 数据集的设计理念与核心：长链条复杂性 (Long-Chain Complexity)和子任务级别可验证性 (Subtask-Level Verifiability)

数据规模速览

基于已收集的 130 个 Web 任务轨迹，VeriGUI 展现了其卓越的复杂性：

任务总数： 130
子任务总数： 587
平均每任务步数： 214.4

VeriGUI 数据集的详细统计数据，包括任务领域分布（a）、子任务数量分布（b、c）、GUI 动作分布（d）、不同领域中的动作数量（e）以及总体步骤数量分布（f）

基准实验摘要：顶尖模型遭遇“滑铁卢”

我们在 VeriGUI 上对多种 SOTA 基础模型进行了全面测试，测试框架涵盖了四种主流范式：

智能体框架： Deep Research Agent、Search Engine Agent、Browser-Use Agent 及 Multi-Agent System。
实验结果：结果令人震惊——在所有测试组合中，没有任何一个模型的平均任务成功率超过 10%。这清晰地揭示了现有模型在长时程规划、多步推理和复杂决策方面的普遍瓶颈，也印证了 VeriGUI 作为新一代高难度基准的价值。