在多模态⼤模型的加持下,纯视觉GUI智能体被视为未来通⽤操作智能体的重要⽅向。

作者丨陈恭巍

近年来，GUI智能体的发展正从依赖HTML、Accessibility树等⽂本解析的模式，逐步迈向基于截图感知的“纯视觉”范式。在多模态⼤模型（MLLM）的加持下，纯视觉GUI智能体展现出⽆需系统权限、泛化能⼒强、交互⾃然等优势，被视为未来通⽤操作智能体的重要⽅向。

然⽽，这⼀新范式背后却暗藏困境：⾼密度、松散关联的元素上下⽂，以及冗余的历史上下⽂，正在制约GUI智能体在性能与效率上的平衡。为此，哈⼯深和华为的研究者们从上下⽂简化建模的⻆度提出了SimpAgent，实现了更快更强的GUI智能体，该⼯作已被 ICCV 2025 录⽤为 Highlight 论⽂。

📄 论⽂地址：https://arxiv.org/abs/2507.03730

💻 代码仓库：https://github.com/JiuTian-VL/SimpAgent

背景：从⽂本解析到纯视觉智能体，效率困境浮现

早期GUI智能体多依赖HTML、Accessibility树等⽂本表示，具备明确的结构化信息，但受限于权限、噪声和可扩展性，难以在真实环境中⼴泛部署。随着GPT-4o、Gemini等多模态基础模型的兴起，研究者逐渐转向基于截图的纯视觉⽅案（如SeeClick、ShowUI、OdysseyAgent），实现了⽆需API的通⽤GUI操作。

这⼀趋势催⽣了两类主流技术⽅案：

1. 基于模块化框架的视觉智能体（UGround，Aguvis）：借助MLLM作为Planner与Executor，结合⼤量GUI预训练数据（数⼗万到百万级），显著提升了界⾯理解与操作能⼒。

2. 端到端视觉智能体（OS-Altas、ShowUI）：通过整合截图与操作历史，直接训练MLLM进⾏决策，减少依赖外部规划模块。

但是现有基于纯视觉的GUI智能体在上下⽂建模上仍然存在内在缺陷：它们未能针对GUI界⾯特有的结构特性与冗余模式进⾏有效优化。

核⼼挑战：⾼密度界⾯元素与冗余历史上下⽂

通过对典型GUI导航任务的深⼊分析，我们总结出两⼤制约因素：

1️⃣ ⾼密度、弱关联的界⾯元素

GUI截图平均包含⼏⼗⾄上百个UI元素（AITW：56个，AndroidControl：180个）。然⽽，⼤量元素与任务⽬标⽆关且呈弱关联：遮蔽部分区域通常对任务完成⽆影响。⽆关元素不仅增加视觉⼲扰，还削弱模型对关键元素的聚焦能⼒。

实验证明：仅使⽤截图中与操作相关的⼀半区域（元素剪枝）即可⽐完整截图取得更⾼决策准确率（68.8% vs. 66.0%）。

2️⃣ 冗余的历史上下⽂

复杂任务需要参考历史操作与截图。然⽽，在AITW实验中，引⼊4步历史截图和动作仅提升3%性能，却带来3.4倍计算开销。这种低性价⽐的冗余上下⽂，不仅拖慢推理速度，也⼤幅增加部署成本。

现有探索：数据堆叠与压缩加速的局限

为应对这些挑战，学术界和产业界提出了多种尝试：

⼤规模预训练（OS-Atlas、ShowUI）：通过数⼗万到百万级GUI样本显著增强模型基础能⼒，但⾼昂成本使迁移⾄新领域困难。
视觉压缩（FastV、Victor、Token Merger）：通过token裁剪或显式聚合加速推理，然⽽压缩后的信息丢失明显，性能显著下降。
历史重采样（OdysseyAgent）：利⽤外部模块对历史截图进⾏降维，但忽视多模态交互，且引⼊额外参数开销。

这些⽅法要么成本⾼昂，要么在效率与性能之间⽆法兼顾，亟需⼀种从上下⽂建模⻆度出发的新范式。

我们的⽅案：上下⽂感知简化框架——SimpAgent

针对上述痛点，我们提出SimpAgent，⼀种⾯向GUI智能体的上下⽂感知简化框架，围绕“元素剪枝”与“历史压缩”两⼤核⼼模块，实现推理性能与计算效率的双重突破：

1. Masking元素剪枝：⾼效去除⼲扰元素

⽅法：在训练中基于概率分布随机遮盖截图区域，以⾼概率剔除⽆关元素，避免复杂的元素关系建模。
特点：利⽤UI元素的弱关联特性，简化视觉场景；即使遮盖区域覆盖⼀半截图，模型性能仍显著提升。
效果：显著增强模型对关键信息的感知能⼒，减少⽆效特征⼲扰。

2. ⼀致性引导的历史压缩：⾼效保留关键信息

⽅法：在LLM浅层丢弃冗余视觉token，通过⼀致性损失约束深层压缩结果与完整历史分⽀⼀致，避免信息丢失。
优势：
基于模型⾃身注意⼒机制完成压缩，⽆需额外参数模块；
推理FLOPs降低27%，性能损耗极⼩（AITW下降仅0.1%）。
可解释性：可视化注意⼒表明，动作token在⼀致性引导下能更聚焦于历史关键元素，信息流更紧凑。

实验结果：更少计算，更强性能

我们在四⼤代表性GUI导航基准上全⾯验证SimpAgent：

AITW（移动+Web）：提升⾄71.3%，较基线Qwen2VL-2B提升+2.3%。
GUI-Odyssey（⻓序列导航）：提升⾄76.0%，历史压缩在15.4步平均⻓度下依然稳定。
Mind2Web（跨⽹站测试）：跨域测试集刷新SOTA，具备更强泛化。
AndroidControl（833款App）：⽆额外预训练数据下，性能媲美预训练1.9M样本的OS-Atlas。

可视化分析：上下⽂简化如何改变模型的关注模式？

1️⃣ 元素剪枝后的注意⼒分布

可视化结果显示，经过Masking剪枝，模型在截图中的注意⼒显著向与⽬标操作直接相关的UI元素集中，背景与⽆关区域的注意⼒权重降低。
这种聚焦效应表明，剪枝有效减少了冗余视觉信息对模型的⼲扰，帮助模型在复杂界⾯中迅速定位关键⽬标。

2️⃣ ⼀致性引导的历史压缩效果

在⼀致性引导的监督下，动作Token（红⾊）作为query时更关注历史观测Token（橙⾊）。该对⽐表明，⼀致性引导有助于促进观测信息向动作的聚合，提升历史信息压缩效果。
可视化结果验证了SimpAgent的⼀致性引导机制：它通过调整注意⼒分布，促进模型在历史压缩条件下⾼效聚合关键信息，从⽽在降低计算开销的同时维持推理性能。