
图1:UI-Venus在多个UI定位与导航基准测试中的SOTA性能。该图展示了UI-Venus在ScreenSpot-V2、ScreenSpot-Pro和AndroidWorld等基准测试中的卓越表现,7B和72B模型均超越了现有开源和闭源模型。
在人工智能飞速发展的今天,图形用户界面(GUI)的智能化交互已成为技术领域的热点。无论是手机、电脑还是网页,界面操作的便捷性直接影响用户体验,而如何让机器像人类一样高效、自主、精准地理解和操作这些界面,成为了研究的重点方向。
围绕这一话题,已经有了:
智谱发布的首个电脑智能体大模型 GLM-PC [2025-01-23] SimulalAI发布的Agent S2 [2025-03-14] 字节开源的 UI-TARS 和 Agent-TART [2025-03-24] 面壁智能和清华人大团队适配 APP 场景的 AgentCPM-GUI [2025-05-13] 微软前几个月发布的 GUI-Actor [2025-06-05]
令人振奋的是,时隔数月,来自蚂蚁集团的科研团队发布了一项新成果——UI-Venus。
这是一款仅以屏幕截图为输入的原生UI智能智能体,凭借其卓越的性能和创新的强化微调技术(Reinforcement Fine-Tuning, RFT),在UI定位和导航任务中刷新了多项行业标杆。这款由蚂蚁集团打造的智能智能体,不仅在技术上实现了突破,还通过开源代码和数据处理策略,为学术界和工业界提供了宝贵的资源,开启了UI交互智能化的新篇章。
创新点:以强化学习为核心,重塑UI交互逻辑
UI-Venus的核心创新在于其基于Qwen2.5-VL多模态大语言模型,通过精心设计的强化学习微调(RFT)技术,显著提升了UI智能体的性能。传统的监督微调(SFT)方法在UI任务中存在局限,例如在定位任务中,模型可能会因过于依赖中心点预测而忽略边界框内的其他有效点,导致泛化能力不足。而UI-Venus通过引入 Group Relative Policy Optimization (GRPO) 算法,结合精心设计的奖励函数,成功解决了这一问题。GRPO通过组内奖励归一化提升了训练稳定性,仅需数十万高质量训练样本,就实现了优于传统方法的性能。
更令人瞩目的是,UI-Venus提出了自进化轨迹历史对齐与稀疏动作增强(Self-Evolving Trajectory History Alignment & Sparse Action Enhancement)框架。这一框架通过迭代优化历史推理轨迹,确保模型在复杂导航任务中的决策连贯性,同时通过增强稀疏但关键动作(如长按)的学习,显著提升了模型在动态界面中的泛化能力。这种自进化的机制让UI-Venus能够持续改进其推理能力,仿佛一位不断学习和适应的“数字助手”。
此外,UI-Venus在数据质量控制上也下足了功夫。团队设计了一套三阶段数据处理流水线,包括数据过滤、轨迹重构和迭代轨迹生成,从约627k的开源数据中精选出107k高质量定位样本和350k导航样本,确保训练数据的精准性和多样性。这种高效的数据清洗策略,不仅提升了模型性能,还为社区提供了可复现的参考。
实验方法:从数据到算法的全面优化
UI-Venus的开发过程体现了科学研究的严谨与创新。以下从数据收集、清洗到算法设计,详细介绍其实验方法。

图2:UI-Venus在定位与导航任务中的执行流程。图a展示了UI-Venus-Ground基于截图和指令输出坐标的过程;图b展示了UI-Venus-Navi利用历史上下文生成推理和动作的过程,凸显了其动态规划能力。
数据收集与清洗
为了确保模型在多种平台(手机、桌面、网页)上的泛化能力,团队从多个公开数据集(如Widget Captioning、UI RefExp、SeeClick等)中收集了约627k条UI定位样本,并通过手动检查和重新采样,剔除了约40%的噪声数据(如模糊指令、偏移框等),最终保留107k条高质量样本用于训练。对于导航任务,团队整合了GUI Odyssey、AndroidControl等数据集,并新增了2万条来自热门中文移动应用的自定义样本,以增强模型的跨语言能力。
数据清洗过程包括三阶段:
数据过滤:统一滚动方向,剔除不一致轨迹,并根据应用和子任务类别重新采样,确保数据多样性。 轨迹重构:针对信息检索任务(如查询天气或购物车总价),通过多模态大语言模型生成明确答案,并插入到轨迹的最后步骤,增强模型的交互逻辑。 迭代轨迹生成:利用UI-Venus自身在虚拟云环境中生成新轨迹,结合规则过滤、结果奖励模型(ORM)评分和人工筛选,迭代优化训练数据。
算法设计
UI-Venus的训练基于GRPO算法,通过组内奖励归一化,避免了传统强化学习中对单独评论模型的依赖,提升了训练稳定性。在UI定位任务中,奖励函数包括格式奖励(确保输出符合预定义语法)和点框奖励(判断预测点是否落入真实边界框)。对于导航任务,团队设计了统一的动作空间,涵盖点击、拖动、滚动、输入等13种动作,并通过自进化框架优化历史推理轨迹,确保模型能够根据上下文进行连贯决策。
自进化轨迹历史对齐机制是UI-Venus的核心亮点。在每一轮训练后,模型通过多次推理生成候选推理-动作对,仅保留与真实动作匹配的推理内容,动态更新历史轨迹。这种机制确保模型的推理过程与当前决策模式保持一致,从而提高导航任务的规划准确性。同时,稀疏动作增强策略通过重采样包含稀疏动作(如长按)的轨迹,平衡动作分布,提升模型对关键操作的学习能力。

图3:自进化轨迹历史对齐与稀疏动作增强框架。展示了UI-Venus通过轨迹历史对齐优化历史上下文,并通过稀疏动作增强提升关键动作学习的过程,显著提升了导航性能。
实验结果:刷新多项SOTA纪录
UI-Venus在多个权威基准测试中展现了卓越的性能,涵盖了UI定位和导航两大任务。以下从两个方面总结其成果。
UI定位性能
UI-Venus在五个UI定位基准测试(ScreenSpot-V2、ScreenSpot-Pro、OSWorld-G、UI-Vision、CA-GUI)中均取得了SOTA(State-of-the-Art)成绩。
其7B和72B模型在ScreenSpot-V2/Pro上的准确率分别达到94.1%/50.8%和95.3%/61.9%,超越了之前的开源标杆GTA1和闭源模型UI-TARS-1.5。
在OSWorld-G基准中,72B模型以70.4%的得分大幅领先,展现了其在细粒度任务(如文本匹配、元素识别)中的优越性。
此外,UI-Venus在中文CA-GUI基准中表现出色,7B和72B模型在Fun2Point和Text2Point任务中的平均准确率分别达到83.3%和85.0%,比AgentCPM-GUI高出5-9.4%,彰显了其强大的跨语言泛化能力。

图4:UI-Venus在桌面专业软件Blender中的定位示例,指令为“增加Z轴”,结果以红色虚线框显示,精准定位目标元素。

图5:UI-Venus在Excel中的定位示例,指令为“重做”,结果以红色虚线框显示,准确识别操作按钮。
UI导航性能
在导航任务中,UI-Venus同样表现出色。在实时交互的AndroidWorld基准中,7B和72B模型的成功率分别达到49.1%和65.9%,超越了UI-TARS-1.5(64.2%)和UI-TARS-72B(46.6%)。
在离线基准AndroidControl和GUI-Odyssey中,UI-Venus在高层次指令任务(AndroidControl-High)中表现最佳,类型准确率和步骤成功率均名列前茅,展现了其在长轨迹规划中的优异能力。
图6:UI-Venus在AndroidWorld中的导航示例,任务为创建新联系人草稿,点击点以红色圆圈标记,成功完成任务且未点击保存,展现了强大的指令遵循能力。
图7:UI-Venus在中文应用中的导航示例,目标为中文指令,交互点以红色圆圈标记,展示了其跨语言导航能力。
开源贡献与未来展望
UI-Venus 不仅在性能上树立了新标杆,还通过开源代码和数据处理脚本,为社区提供了宝贵资源。项目代码已公开在GitHub[1],包括定位和导航的评估代码、提示模板和后处理脚本,极大降低了研究者的复现门槛。团队还计划进一步优化模型,解决推理与动作之间的“幻觉”问题,并探索大规模轨迹预训练,以提升模型对陌生应用的适应性。
未来,UI-Venus的研发方向将聚焦于增强模型的上下文理解能力和动态适应性。例如,通过引入领域特定知识,模型可以在多样化的计算环境中实现更高效的交互。此外,结合更先进的强化学习算法和多模态预训练技术,UI-Venus有望进一步缩小人机交互的差距,为智能助手、自动化测试等领域带来更多可能性。
结语
蚂蚁集团的UI-Venus项目以其创新的强化学习框架、高效的数据处理策略和卓越的实验性能,为UI智能智能体领域注入了新的活力。无论是精准的界面元素定位,还是复杂的多步骤导航任务,UI-Venus都展现了无与伦比的实力。通过开源和社区共享,这项技术不仅推动了学术研究的进步,也为实际应用场景提供了强有力的支持。未来,随着技术的不断迭代,UI-Venus有望成为人机交互领域的标杆,引领我们迈向更加智能的数字世界。
编辑:Intern-S1、Qwen3等AI
校对:机智流编辑部
GitHub: https://github.com/antgroup/UI-Venus
-- 完 --
机智流推荐阅读:
1. TRO2025|基于隐式表面优化的快速精确6D物体位姿精修方法
2. HF今日论文: 阿里WebWatcher登顶,从全景3D世界生成到超长搜索,Agent智能大爆发!
3. 聊聊大模型推理系统之 TaiChi:打破聚合/分离之争,华为云提出统一架构
4. 还在为AI智能体的成本发愁?OPPO AI团队打造低成本高性能智能体,成本降低28.4%!
关注机智流并加入 AI 技术交流群,不仅能和来自大厂名校的 AI 开发者、爱好者一起进行技术交流,同时还有HuggingFace每日精选论文与顶会论文解读、Talk分享、通俗易懂的Agent知识与项目、前沿AI科技资讯、大模型实战教学活动等。
cc | 大模型技术交流群 hf | HuggingFace 高赞论文分享群 具身 | 具身智能交流群 硬件 | AI 硬件交流群 智能体 | Agent 技术交流群