港大联手月之暗面等开源OpenCUA：人人可造专属电脑智能体

机器之心报道

编辑：冷猫、Panda

刚刚，一篇来自香港大学 XLANG Lab 和月之暗面等多家机构的论文上线了 arXiv，其中提出了一个用于构建和扩展 CUA（使用计算机的智能体）的完全开源的框架。具体来说，该框架包括：

一个用于捕获人类使用计算机的演示的注释工具
AgentNet，首个涵盖 3 个操作系统和 200 多个应用程序/网站的大规模数据集
一个将演示转化为具有长思维链推理的「状态-动作」对的工作流程

使用该框架，他们还构建了一个旗舰模型 OpenCUA-32B，其在 OSWorld-Verified 上达到了 34.8% 的成功率，创下了新的开源 SOTA，甚至在这个基准测试中超越了 GPT-4o。

更妙的是，他们完全公开了相关代码、数据和模型！

论文标题：OpenCUA: Open Foundations for Computer-Use Agents
论文地址：https://arxiv.org/abs/2508.09123
项目页面：https://opencua.xlang.ai/ （包含工具、模型、数据集）

值得注意的是，这项研究共有 6 位共一作者。项目负责人是香港大学计算机科学助理教授Tao Yu（余涛）。另外，月之暗面创始人和 CEO 杨植麟以及斯坦福大学计算机科学系助理教授杨笛一也在作者名单中。

下面我们就来详细看看这项研究。

OpenCUA 框架

下图展示了OpenCUA 框架概览。

具体来说，OpenCUA 框架包含以下内容：AgentNet Tool，如左上角所示，可通过屏幕视频与操作流程捕捉跨操作系统的用户交互。右上角则展示了原始演示被处理成包含推理与历史的「状态–动作」轨迹。右下角展示了 AgentNet 数据集与基准，其中涵盖多样化的任务，并提供含黄金标准动作的离线评估。最后，左下角则是 OpenCUA 模型经过训练后，可在真实环境中执行计算机操作任务。

AgentNet 数据收集

OpenCUA 的目标是将使用桌面计算机的数据扩展到不同的计算机环境和用户场景。很自然地，该团队首先要做的是收集符合自然用户行为的演示，并尽量减少对用户与计算机交互方式的额外限制，以提高数据收集的可扩展性。

为此，他们开发了 AgentNet Tool 并收集了 AgentNet 数据集，这也是首个大规模桌面智能体任务数据集。

AgentNet Tool

AgentNet Tool 是一个跨平台的标注应用，可记录用户在 Windows、macOS 和 Ubuntu 上的交互。它可捕捉屏幕视频、鼠标/键盘操作以及相关元数据，从而实现对真实计算机使用演示的采集，而且这个方法是可以大规模扩展的。

AgentNet Tool 标注和验证

该团队对原始用户演示进行了处理，得到了干净、可用于训练的「状态–动作」轨迹。生成的轨迹中包含「内心独白式」的思考与操作历史，适用于视觉-语言模型的训练。

原始演示包含高频的屏幕录制与细粒度交互信号（如鼠标移动、点击、滚动、按键等）。一个典型任务可能产生成千上万条底层动作记录，密度过高，训练效率低下。为解决这一问题，该团队提出两种技术方案：

1、动作约简（Action Reduction）

这是该团队开发的一种基于规则的方法，可将密集动作信号约简为更少但更有意义的操作，同时保留必要信息。

将原子操作压缩为高阶操作；
鼠标移动被视为点击/拖拽的前置条件，仅保留起止位置；
滚动事件按方向合并，并累计滚轮数量；
连续按键合并为文本输入字符串，快捷键组合（如 CTRL+C）抽象为「热键动作」；
常见的多步手势（如拖拽、双击）也被整合为单一动作。

约简后的动作序列与 pyautogui 动作空间对齐（详见表 1）。

表1：人类操作与对应智能体动作函数

2、状态–动作匹配（State-Action Matching）

为了将每个动作 a_i 配对至代表性状态 s_i，该团队从屏幕录制中提取关键帧，捕捉动作发生前的系统状态。但如果关键帧直接与鼠标点击时间戳对齐，可能泄露未来信息（例如：鼠标已悬停在按钮上，预测将变得过于容易）。

为避免该问题，他们的做法是在处理鼠标点击时，回溯至鼠标开始移动前的阶段，并向前搜索最后一个视觉上有明显变化的帧，作为该动作的起始状态。任务结束后，再附加一个终止帧及对应的「结束动作」。

AgentNet 数据集与测试基准

最终，他们得到了 AgentNet 数据集和 AgentNetBench 基准测试集。

数据集涵盖了来自 140 多款应用和 190 多个网站的多样化开放领域任务，任务涉及多应用协作流程、专业工具操作以及非通用功能的使用。基准提供任务指令、步骤历史及每一步的多个黄金标准动作，便于高效的离线评估。

图 4：AgentNet 数据集中任务的领域分布

该数据集共包含 22,625 条人工标注的计算机使用任务，其中约 12,000 条来自 Windows，5,000 条来自 macOS，5,000 条来自 Ubuntu，支持的屏幕分辨率范围从 720p 到 4K。每条轨迹的平均步骤为 18.6 步，体现了任务本身的复杂性。

下面展示了一个示例：

如表 2 所示，与现有的 GUI 数据集相比，AgentNet 是首个具备真实性、复杂性、多样性与多模态特征的桌面端轨迹级数据集。

表2：AgentNet 数据集与现有GUI数据集对比

为实现稳定、快速且无需依赖环境配置的评估，他们还构建了 AgentNetBench ——一个离线的计算机使用智能体评估基准。

该基准是从 AgentNet 数据集中精选出 100 个具有代表性的任务构成的，涵盖 Windows 与 macOS 平台，任务内容横跨多个应用领域。

该团队表示，每个任务均经过人工审查，明确任务目标并剔除冗余操作。值得注意的是，考虑到计算机操作任务中天然存在多种合理操作路径，他们还在每个步骤上手动提供了多个有效动作选项，以提升评估的灵活性与真实性。

OpenCUA 模型

基于上述数据集，该团队打造了 OpenCUA 智能体模型，其结合了反思式思维链推理、多图像历史以及跨领域数据。模型能够在多个操作系统的真实桌面环境中执行计算机操作任务。

值得注意的是，他们还设计了一条新颖的处理流程，用于为每个任务步骤增强反思式长思维链（reflective long CoT）：「生成器」（generator）与「反思器」（reflector）会以迭代方式生成并验证推理过程中，在观察信息与真实动作（ground-truth actions）之间的各个组件。

实验结果与分析

实验基于多个开源的视觉-语言模型进行，包括：KimiVL-A3B 、Qwen2-VL-7B-Instruct、Qwen2.5-VL-7B-Instruct 和 Qwen2.5-VL-32B-Instruct。

其中，KimiVL-A3B 采用了混合专家（MoE）架构，拥有总计 16B 参数，在训练与推理时激活参数为 3B，具备一定的计算机操作能力，如对象定位与任务规划。

Qwen2-VL 与 Qwen2.5-VL 是通用型视觉-语言模型（VLM），其中 Qwen2.5-VL 在数字智能体任务中表现更强，特别擅长高分辨率场景的理解。

该团队对上述模型进行了监督微调，得到多个 OpenCUA 模型变体：OpenCUA-A3B、OpenCUA-Qwen2-7B、OpenCUA-7B 和 OpenCUA-32B。

然后，他们在以下多个基准上对这些模型进行了评估，包括在线评估基准、离线智能体评估基准以及GUI 定位能力评估基准。

在线智能体评估

OSWorld-Verified：OSWorld 最初收集整理了 369 个人工构建的任务，涵盖大量应用程序，并配有对应的环境配置与评估脚本。OSWorld 团队近期对这些任务进行了验证，修复了因依赖过期、评估错误或指令不清导致无法测试的项目，并将改进后的基准发布为 OSWorld-Verified 。评估结果通过 OSWorld 团队部署在 AWS 基础设施上的公开评估平台获得，结果列于表 3。
WindowsAgentArena (WAA) ：该基准包含 154 个以 Windows 为中心的任务，涵盖原生 Windows 应用以及若干出现在 OSWorld 中的开源程序，能有效反映智能体在 Windows 系统上的在线性能。

表 3：OSWorld-Verified 评估结果

从结果上看，OpenCUA-32B 在所有开源模型中取得了最佳表现，平均成功率达 34.8%，大幅领先于此前的各类基线模型。同时，它显著缩小了与闭源智能体的性能差距，甚至超越了 OpenAI CUA。这一结果充分证明了OpenCUA 训练流程在可扩展性与性能上的优势。

离线智能体评估

离线评估使用了 AgentNetBench，这是该团队创建的 CUA 离线评估基准，其中包含 100 个具有代表性任务，覆盖 Windows 与 macOS 上的多个领域。结果如下表所示。

表 4：AgentNetBench 上，各个 CUA 的性能表现

可以看到，OpenCUA-32B 的整体表现最佳，但 OpenAI CUA 在Function action成功率上的表现有明显优势。

GUI 定位能力评估

该团队也评估了模型在图形用户界面（GUI）中将自然语言指令映射到具体操作的能力，这里使用了三个基准：OSWorld-G、Screenspot-V2、Screenspot-Pro

其中，OSWorld-G 包含 564 个样本，系统性地覆盖了文本匹配、界面元素识别、布局理解以及细粒度操作控制等任务，并提供了解决每个任务所需的界面元素类型注释。Screenspot-V2 包含来自移动端、桌面端与网页端的截图，旨在评估跨平台场景下的 GUI 理解能力。Screenspot-Pro 则聚焦于高分辨率桌面环境，尤其强调在专业应用场景中的表现能力。