
在多模态⼤模型的加持下,纯视觉GUI智能体被视为未来通⽤操作智能体的重要⽅向。
作者丨陈恭巍

近年来,GUI智能体的发展正从依赖HTML、Accessibility树等⽂本解析的模式,逐步迈向基于截图感知的“纯视觉”范式。在多模态⼤模型(MLLM)的加持下,纯视觉GUI智能体展现出⽆需系统权限、泛化能⼒强、交互⾃然等优势,被视为未来通⽤操作智能体的重要⽅向。
然⽽,这⼀新范式背后却暗藏困境:⾼密度、松散关联的元素上下⽂,以及冗余的历史上下⽂,正在制约GUI智能体在性能与效率上的平衡。 为此,哈⼯深和华为的研究者们从上下⽂简化建模的⻆度提出了SimpAgent,实现了更快更强的GUI智能体,该⼯作已被 ICCV 2025 录⽤为 Highlight 论⽂。
📄 论⽂地址:https://arxiv.org/abs/2507.03730
💻 代码仓库:https://github.com/JiuTian-VL/SimpAgent

01
背景:从⽂本解析到纯视觉智能体,效率困境浮现
早期GUI智能体多依赖HTML、Accessibility树等⽂本表示,具备明确的结构化信息,但受限于权限、噪声和可扩展性,难以在真实环境中⼴泛部署。随着GPT-4o、Gemini等多模态基础模型的兴起,研究者逐渐转向基于截图的纯视觉⽅案(如SeeClick、ShowUI、OdysseyAgent),实现了⽆需API的通⽤GUI操作。
这⼀趋势催⽣了两类主流技术⽅案:
1. 基于模块化框架的视觉智能体(UGround,Aguvis):借助MLLM作为Planner与Executor,结合⼤量GUI预训练数据(数⼗万到百万级),显著提升了界⾯理解与操作能⼒。
2. 端到端视觉智能体(OS-Altas、ShowUI):通过整合截图与操作历史,直接训练MLLM进⾏决策,减少依赖外部规划模块。
但是现有基于纯视觉的GUI智能体在上下⽂建模上仍然存在内在缺陷:它们未能针对GUI界⾯特有的结构特性与冗余模式进⾏有效优化。

02
核⼼挑战:⾼密度界⾯元素与冗余历史上下⽂
通过对典型GUI导航任务的深⼊分析,我们总结出两⼤制约因素:
1️⃣ ⾼密度、弱关联的界⾯元素
GUI截图平均包含⼏⼗⾄上百个UI元素(AITW:56个,AndroidControl:180个)。然⽽,⼤量元素与任务⽬标⽆关且呈弱关联:遮蔽部分区域通常对任务完成⽆影响。⽆关元素不仅增加视觉⼲扰,还削弱模型对关键元素的聚焦能⼒。

实验证明:仅使⽤截图中与操作相关的⼀半区域(元素剪枝)即可⽐完整截图取得更⾼决策准确率(68.8% vs. 66.0%)。
2️⃣ 冗余的历史上下⽂
复杂任务需要参考历史操作与截图。然⽽,在AITW实验中,引⼊4步历史截图和动作仅提升3%性能,却带来3.4倍计算开销。这种低性价⽐的冗余上下⽂,不仅拖慢推理速度,也⼤幅增加部署成本。


03
现有探索:数据堆叠与压缩加速的局限
为应对这些挑战,学术界和产业界提出了多种尝试:
⼤规模预训练(OS-Atlas、ShowUI):通过数⼗万到百万级GUI样本显著增强模型基础能⼒,但⾼昂成本使迁移⾄新领域困难。
视觉压缩(FastV、Victor、Token Merger):通过token裁剪或显式聚合加速推理,然⽽压缩后的信息丢失明显,性能显著下降。
历史重采样(OdysseyAgent):利⽤外部模块对历史截图进⾏降维,但忽视多模态交互,且引⼊额外参数开销。
这些⽅法要么成本⾼昂,要么在效率与性能之间⽆法兼顾,亟需⼀种从上下⽂建模⻆度出发的新范式。

04
我们的⽅案:上下⽂感知简化框架——SimpAgent
针对上述痛点,我们提出SimpAgent,⼀种⾯向GUI智能体的上下⽂感知简化框架,围绕“元素剪枝”与“历史压缩”两⼤核⼼模块,实现推理性能与计算效率的双重突破:

1. Masking元素剪枝:⾼效去除⼲扰元素
⽅法:在训练中基于概率分布随机遮盖截图区域,以⾼概率剔除⽆关元素,避免复杂的元素关系建模。
特点:利⽤UI元素的弱关联特性,简化视觉场景;即使遮盖区域覆盖⼀半截图,模型性能仍显著提升。
效果:显著增强模型对关键信息的感知能⼒,减少⽆效特征⼲扰。
2. ⼀致性引导的历史压缩:⾼效保留关键信息
⽅法:在LLM浅层丢弃冗余视觉token,通过⼀致性损失约束深层压缩结果与完整历史分⽀⼀致,避免信息丢失。
优势:
基于模型⾃身注意⼒机制完成压缩,⽆需额外参数模块;
推理FLOPs降低27%,性能损耗极⼩(AITW下降仅0.1%)。
可解释性:可视化注意⼒表明,动作token在⼀致性引导下能更聚焦于历史关键元素,信息流更紧凑。

05
实验结果:更少计算,更强性能
我们在四⼤代表性GUI导航基准上全⾯验证SimpAgent:
AITW(移动+Web):提升⾄71.3%,较基线Qwen2VL-2B提升+2.3%。
GUI-Odyssey(⻓序列导航):提升⾄76.0%,历史压缩在15.4步平均⻓度下依然稳定。
Mind2Web(跨⽹站测试):跨域测试集刷新SOTA,具备更强泛化。
AndroidControl(833款App):⽆额外预训练数据下,性能媲美预训练1.9M样本的OS-Atlas。




06
可视化分析:上下⽂简化如何改变模型的关注模式?
1️⃣ 元素剪枝后的注意⼒分布

可视化结果显示,经过Masking剪枝,模型在截图中的注意⼒显著向与⽬标操作直接相关的UI元素集中,背景与⽆关区域的注意⼒权重降低。
这种聚焦效应表明,剪枝有效减少了冗余视觉信息对模型的⼲扰,帮助模型在复杂界⾯中迅速定位关键⽬标。
2️⃣ ⼀致性引导的历史压缩效果

在⼀致性引导的监督下,动作Token(红⾊)作为query时更关注历史观测Token(橙⾊)。该对⽐表明,⼀致性引导有助于促进观测信息向动作的聚合,提升历史信息压缩效果。
可视化结果验证了SimpAgent的⼀致性引导机制:它通过调整注意⼒分布,促进模型在历史压缩条件下⾼效聚合关键信息,从⽽在降低计算开销的同时维持推理性能。

07
展望:让GUI智能体更轻、更强
SimpAgent展示了“少即是多”的范式转向:
不再依赖数据与算⼒的堆叠,⽽是深⼊任务本质,从上下⽂特性出发优化架构;
为低算⼒环境、移动端和实时场景部署GUI智能体提供可⾏⽅案;
为未来的⾼效纯视觉智能体提供可复⽤的训练与压缩策略。



未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。