
在数字时代,图形用户界面(GUI)是我们与手机、电脑等设备交互的基石。能否打造一个智能体,让它像人类一样,通过“看”屏幕、“点”按钮、“滑”页面来操作任意软件,实现真正的端到端自动化?这个愿景正在成为现实,但道路并非坦途。
当前,GUI智能体的研究面临一个核心瓶颈:这并非单一的模型问题,而是一个全栈系统工程问题。一个真正有用的智能体,需要在真实环境中训练,在可比条件下评估,并最终部署到真实设备上为用户服务。然而,现有研究往往各自为战:训练框架封闭且局限于模拟器,评估标准不一导致结果难以复现,而精心训练的智能体却鲜少能真正触达终端用户。
针对这一系列挑战,来自浙江大学的团队推出了 ClawGUI——一个旨在将GUI智能体的在线强化学习训练、标准化评估和真实设备部署整合于单一管道的开源框架。
论文标题:ClawGUI: A Unified Framework for Training, Evaluating, and Deploying GUI Agents
论文链接:https://arxiv.org/pdf/2604.11784
开源仓库:https://github.com/zju-real/ClawGUI
项目主页:https://zju-real.github.io/ClawGUI-Page
一、 为何需要ClawGUI?破解三大瓶颈
GUI智能体研究近年来进展迅速,从基础的界面元素定位,到长序列的任务导航,再到利用强化学习进行策略优化。但当我们试图将这些技术拼凑成一个完整可用的系统时,裂痕便显现出来。
首先是训练生态的封闭性。 尽管近期一些系统报告了在虚拟环境中进行在线强化学习的优异结果,但底层基础设施大多未开源。这使得外部研究者无法复现其设置或在此基础上构建。即使有代码,也往往仅绑定于模拟器沙盒。而智能体最终必须在真实设备上运行,直接在物理设备上进行训练在公开研究中几乎仍是空白。背后的工程难点并非强化学习算法本身,而是环境管理:模拟器在长时间运行后容易状态漂移,真实设备无法暴露系统级验证信号,而GUI任务的奖励信号天然稀疏。
其次是评估标准的混乱。 GUI基准测试看似直接,但不同论文报告的数字往往难以直接比较。提示词格式、坐标归一化惯例、图像分辨率、采样配置等细微差异,都可能导致准确率出现几个百分点的波动,而这些选择通常缺乏文档记录。结果是,社区缺乏一个共享的基线来衡量真正的进展。一个在ScreenSpot-Pro基准上2%的提升,可能源于真正的技术进步、有利的提示词,或者仅仅是不同的图像分辨率,而读者目前无从分辨。
最后是从研究到用户部署的链条断裂。 在研究管道中训练的智能体,几乎从未到达最终用户手中。近期一些工作探索了基于命令行(CLI)的智能体框架,它通过结构化命令提供精确控制,但仅能覆盖现实应用中很窄的一部分。与此同时,能够将训练好的GUI策略连接到真实硬件、通过用户日常使用的界面进行暴露、并随时间推移保持持久个性化的系统,在开源生态中仍然基本缺席。没有这最后一环,GUI智能体的实际价值便无法得到验证。
ClawGUI正是为了弥合这三个关键缺口而设计。
二、 ClawGUI核心模块:三位一体
ClawGUI由三个紧密集成的模块构成,分别对应训练、评估和部署。
1. ClawGUI-RL:可扩展的在线强化学习训练
GUI任务本质上是序列决策问题,需要智能体通过真实环境交互学习。ClawGUI-RL提供了首个支持大规模并行虚拟环境和真实物理设备训练的开源强化学习基础设施。
统一的环境管理器
稳定的环境管理是在线强化学习训练的前提。如图2所示,ClawGUI-RL将所有设备后端抽象在一个统一接口之后,允许虚拟环境和物理设备在同一训练循环中互换使用。
-
虚拟环境:基于Docker并行启动数十个安卓模拟器,每个环境遵循四阶段生命周期:任务重置、任务评估、备用服务器轮换和容器清理。其中,备用服务器轮换机制能自动检测并替换不健康的容器,确保长时间训练的稳定性。 -
真实设备训练:通过同一接口支持直接训练物理安卓设备或云手机。这带来了新挑战:任务需人工设计以确保可执行和可验证;由于无法获得系统级权限,任务完成评估完全依赖于大语言模型裁判对最终屏幕状态的判断。
奖励设计:二元奖励与稠密奖励
奖励设计对长序列GUI任务的强化学习至关重要。ClawGUI-RL采用了两级奖励方案。
-
二元结果奖励:在回合结束时给出,成功为1,失败为0。这种信号极其稀疏,对中间步骤缺乏指导。 -
基于过程奖励模型的稠密步级奖励:为弥补稀疏奖励的不足,ClawGUI-RL集成了一个过程奖励模型。在每一步行动后,该模型根据前后屏幕截图和动作历史,判断当前动作是否对任务完成有实质性贡献,产生一个步级分数。稠密反馈极大地缓解了稀疏性问题。
强化学习训练器
ClawGUI-RL基于verl和verl-agent构建,支持多种强化学习算法。在实验中,团队重点集成了GRPO和GiGPO作为主要的优势估计算法。
-
GRPO 为同一任务的所有轨迹分配统一的回合级优势,这对于步骤质量差异巨大的长序列GUI任务来说过于粗糙。 -
GiGPO 通过两级分层优势估计解决了这一问题。它在回合级保留宏观相对优势,同时在步级引入锚状态分组机制:将不同轨迹中遇到相同中间状态的步骤聚类成子组,并在子组内通过折扣回报归一化估计微优势。这种分层结构产生了细粒度的步级信用分配,非常适合GUI任务的多步骤特性。
2. ClawGUI-Eval:可复现的GUI评估
评估是研究进展的指南针,但GUI评估的复现比看起来更难。ClawGUI-Eval通过为每个模型固定所有评估选择,并采用严格的三阶段管道,在6个基准和超过11个模型上实现了高达95.8%的官方结果复现率。
广泛的基准与模型覆盖
ClawGUI-Eval覆盖了6个涵盖多样化GUI定位和导航场景的基准,包括ScreenSpot-Pro、ScreenSpot-V2、UI-Vision、MMBench-GUI、OSWorld-G和AndroidControl。模型方面支持超过11个主流模型,所有推理结果均与评估代码一同公开。
解耦的三阶段管道架构
ClawGUI-Eval将评估解耦为三个独立的阶段:
-
推理:给定基准数据集和目标模型,生成原始预测。支持本地GPU推理和远程API推理,并自动处理多GPU并行推理及断点续传。 -
判断:使用特定于基准的评判器解析原始模型输出并与真值比对。 -
度量:将每个样本的正确性标签汇总为最终准确率分数,并提供细粒度分析。 这种解耦设计允许独立重新运行任一阶段,例如用更新的解析器重新判断现有预测,而无需重复昂贵的推理。
3. ClawGUI-Agent:个人GUI助手
随着GUI智能体能力增强,最后的挑战是将其交付给真实用户。ClawGUI-Agent旨在弥合这一鸿沟,提供一个生产就绪的系统,将GUI智能体带入真实用户手中的真实设备。
混合设备控制:CLI与GUI结合操作
CLI交互精确高效,但有其根本局限:并非所有应用都暴露编程接口;操作对用户不透明;且绕过了使智能体行为可解释的可视层。GUI交互通过直接操作屏幕解决了这些问题,能覆盖任何应用,但代价是CLI一步完成的任务可能需要多个连续的GUI动作。 ClawGUI-Agent采用混合方法,在接口允许时利用CLI效率,否则回退到GUI控制。这种组合既保留了CLI在受支持操作上的速度,又通过GUI确保了广泛的覆盖范围。
个性化记忆
ClawGUI-Agent集成了一个持久化个性化记忆系统。在执行任务时,智能体会自动从交互中提取结构化事实(如联系人、常用应用、用户习惯),并将其存储为向量嵌入。在后续任务中,会检索语义最相似的前k个记忆并注入系统上下文,使智能体能识别重复实体并随时间适应用户模式。
远程与本地控制
ClawGUI-Agent支持两种部署模式:远程控制模式(通过飞书、钉钉、Telegram等超过12个聊天平台访问)和本地控制模式(用户直接从手机上的聊天应用发送指令)。
可部署的技能:ClawGUI-Eval
ClawGUI-Agent将ClawGUI-Eval作为一个内置工具技能暴露出来,用户可以通过单一自然语言命令触发完整的基准评估流程,无需编写任何脚本。
三、 实验验证:性能提升与高度复现
为了端到端验证该框架,研究团队在ClawGUI-RL管道内完整训练了ClawGUI-2B模型。
主要结果
在MobileWorld GUI-Only基准(117个纯视觉GUI控制任务)上,ClawGUI-2B取得了17.1%的成功率。这一结果凸显了三个关键发现:
-
基础设施驱动策略质量:ClawGUI-2B比同规模的MAI-UI-2B基线高出6.0%,两者基础权重相同,提升完全来自于ClawGUI-RL的可扩展环境管理和奖励设计。 -
训练有素的小模型优于未训练的大模型:ClawGUI-2B超越了规模大得多的端到端模型,如Qwen3-VL-32B (11.9%) 和 UI-Venus-72B (16.4%),表明通过真实环境交互的在线强化学习训练,对任务完成能力的贡献超过了单纯的模型规模。 -
智能体框架仍属不同范式:将专有前沿模型与专用定位模块结合的方法能达到更高的绝对数值,但它们依赖于无法进行端到端优化的闭源规划器,与紧凑的训练型智能体不直接可比。

稠密奖励解锁更优策略
如表2所示,用GiGPO(支持稠密步级奖励)替换GRPO(仅回合级奖励),在MobileWorld GUI-Only任务上带来了2.6%的成功率提升(从14.5%到17.1%),相对增益达17.9%。这证实了细粒度的步级监督比单纯的回合级奖励提供了丰富得多的学习信号,精确的信用分配是GUI智能体训练的关键因素。

基准测试的可信度:95.8%的复现率
ClawGUI-Eval通过固定每个模型的评估选择,在6个基准和超过11个模型上实现了95.8%的总体复现率(48个有官方基线的单元格中成功复现46个)。开源模型复现率达95.7%,而前沿模型在ScreenSpot-Pro上达到100%。两个复现失败的案例均涉及官方评估配置未公开的模型,这表明未公开的提示词或分辨率选择是导致该领域不可复现的主要原因。
四、 未来展望:从封闭模拟到开放世界
ClawGUI的推出为GUI智能体社区提供了一个坚实的研究与工程基础。展望未来,团队在论文中指出了几个值得探索的方向:
-
走向统一的GUI-CLI智能体框架:CLI和GUI智能体已发展为两个几乎不共享基础设施的平行生态系统。ClawGUI是迈向共享框架标准的一步,该标准将CLI、GUI和API调用视为可互换的动作,并从交互数据中学习路由策略本身。 -
将在线强化学习扩展到模拟器之外:当前的GUI智能体强化学习训练几乎完全局限于模拟器沙盒。未来的方向包括利用现代代码生成模型重建的模拟应用,以及具有隐私保护的设备端强化学习与轨迹收集。 -
迈向设备端、常驻的系统级智能体:随着设备端推理变得可行,GUI智能体的最终形态可能更像一个在本地持续运行的系统级智能体,能够感知完整设备状态、保留持久个性化记忆,并在后台自主执行多应用工作流。 -
GUI环境的世界模型:当前的GUI智能体是反应式的。学习UI动态作为预测模型现在已变得可行,这将支持基于模型的规划、反事实推演和早期死胡同检测,将多步骤交互从盲目的试错转变为有意的搜索。
结语
ClawGUI作为一个统一的开源框架,成功地将GUI智能体的在线强化学习训练、标准化评估和真实设备部署整合进一个连贯的管道中。它不仅通过ClawGUI-2B验证了框架的有效性,更通过开源其全部基础设施、评估代码和预测结果,为整个社区构建、评估和部署下一代GUI智能体奠定了坚实的基础。这标志着GUI智能体研究从各自为战的模型竞赛,向系统化、工程化、可复现、可部署的全栈解决方案迈出了关键一步。
> 本文由 Intern-S1 等 AI 生成,机智流编辑部校对
-- 完 --