SimpAgent (ICCV2025 Highlight):上下⽂简化重塑GUI智能体,更少计算,更强性能

AI科技评论 2025-08-06 18:39
资讯配图

在多模态⼤模型的加持下,纯视觉GUI智能体被视为未来通⽤操作智能体的重要⽅向。


者丨陈恭巍

                                                                                         资讯配图

近年来,GUI智能体的发展正从依赖HTMLAccessibility树等⽂本解析的模式,逐步迈向基于截图感知的纯视觉范式。在多模态⼤模型(MLLM)的加持下,纯视觉GUI智能体展现出⽆需系统权限、泛化能⼒强、交互⾃然等优势,被视为未来通⽤操作智能体的重要⽅向。

然⽽,这⼀新范式背后却暗藏困境:⾼密度、松散关联的元素上下⽂,以及冗余的历史上下⽂,正在制约GUI智能体在性能与效率上的平衡。 为此,哈⼯深和华为的研究者们从上下⽂简化建模的⻆度提出了SimpAgent,实现了更快更强的GUI智能体,该⼯作已被 ICCV 2025 录⽤为 Highlight 论⽂。

📄 论⽂地址https://arxiv.org/abs/2507.03730

💻 代码仓库https://github.com/JiuTian-VL/SimpAgent

资讯配图

01

背景:从⽂本解析到纯视觉智能体,效率困境浮现

早期GUI智能体多依赖HTMLAccessibility树等⽂本表示,具备明确的结构化信息,但受限于权限、噪声和可扩展性,难以在真实环境中⼴泛部署。随着GPT-4oGemini等多模态基础模型的兴起,研究者逐渐转向基于截图的纯视觉⽅案(如SeeClickShowUIOdysseyAgent),实现了⽆需API的通⽤GUI操作。

这⼀趋势催⽣了两类主流技术⽅案:

1. 基于模块化框架的视觉智能体UGroundAguvis):借助MLLM作为PlannerExecutor,结合⼤量GUI预训练数据(数⼗万到百万级),显著提升了界⾯理解与操作能⼒。

2. 端到端视觉智能体OS-AltasShowUI):通过整合截图与操作历史,直接训练MLLM进⾏决策,减少依赖外部规划模块。

但是现有基于纯视觉的GUI智能体在上下⽂建模上仍然存在内在缺陷:它们未能针对GUI界⾯特有的结构特性与冗余模式进⾏有效优化

资讯配图

02

核⼼挑战:⾼密度界⾯元素与冗余历史上下⽂

通过对典型GUI导航任务的深⼊分析,我们总结出两⼤制约因素:

1️⃣ ⾼密度、弱关联的界⾯元素

GUI截图平均包含⼏⼗⾄上百个UI元素(AITW56个,AndroidControl180个)。然⽽,⼤量元素与任务⽬标⽆关且呈弱关联:遮蔽部分区域通常对任务完成⽆影响。⽆关元素不仅增加视觉⼲扰,还削弱模型对关键元素的聚焦能⼒。

资讯配图

实验证明:仅使⽤截图中与操作相关的⼀半区域(元素剪枝)即可⽐完整截图取得更⾼决策准确率(68.8% vs. 66.0%)。

2️⃣ 冗余的历史上下⽂

复杂任务需要参考历史操作与截图。然⽽,在AITW实验中,引⼊4步历史截图和动作仅提升3%性能,却带来3.4倍计算开销。这种低性价⽐的冗余上下⽂,不仅拖慢推理速度,也⼤幅增加部署成本。

资讯配图
资讯配图

03

现有探索:数据堆叠与压缩加速的局限

为应对这些挑战,学术界和产业界提出了多种尝试:

这些⽅法要么成本⾼昂,要么在效率与性能之间⽆法兼顾,亟需⼀种从上下⽂建模⻆度出发的新范式。

资讯配图

04

我们的⽅案:上下⽂感知简化框架——SimpAgent

针对上述痛点,我们提出SimpAgent,⼀种⾯向GUI智能体的上下⽂感知简化框架,围绕元素剪枝与“历史压缩两⼤核⼼模块,实现推理性能与计算效率的双重突破:

资讯配图

1. Masking元素剪枝:⾼效去除⼲扰元素

2. ⼀致性引导的历史压缩:⾼效保留关键信息

资讯配图

05

实验结果:更少计算,更强性能

我们在四⼤代表性GUI导航基准上全⾯验证SimpAgent

资讯配图
资讯配图
资讯配图
资讯配图

06

可视化分析:上下⽂简化如何改变模型的关注模式?

1️⃣ 元素剪枝后的注意⼒分布

资讯配图

2️⃣ ⼀致性引导的历史压缩效果

资讯配图
资讯配图

07

展望:让GUI智能体更轻、更强

SimpAgent展示了少即是多的范式转向:

//

推荐阅读

资讯配图

为什么中国只有一个 DeepSeek?


资讯配图

关于 DeepSeek 一体机落地真相,我们调研了 12 家上市公司

资讯配图

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
IC
more
Anthropic 抢先发布 Opus 4.1,剑指竞争对手 GPT-5
ICCV 2025|告别语义漂移!清华最新3D场景定制神器ScenePainter让“想象”走得更远
倒计时2天丨解锁2025 DIC显示展展位分布图+展商名录+同期会议全攻略!
重大突破!会吸奶、呕吐、成长的婴儿机器人,正在改变儿科医学 | npj Robotics发表
博通新品Jericho4路由器,36000端口/3.2Tbps,突破AI计算瓶颈
英飞凌大功率应用EconoDUAL™ 3 CoolSiC™ SiC MOSFET 1200V模块介绍
普通双非!逆袭ICRA!
Silicon 100新榜五大趋势总结!
ICCV 2025 | SeaS: 工业异常生成+正常合成+精准掩码大一统框架,指标全面碾压SOTA
英伟达回应“后门”,微信客服回应提现手续费下降,阿里巴巴原掌门张勇加盟港交所,Epic在美国胜诉谷歌,这就是今天的其他大新闻!
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号