更懂国内APP的开源智能体!感知/定位/推理/中文能力全面提升,还能自己学会操作

量子位 2025-08-31 12:22
UItron团队 投稿
量子位 | 公众号 QbitAI

最新开源多模态智能体,能自动操作手机、电脑、浏览器的那种!开源评测榜单和中文场景交互成绩全面提升。

比如让它播放一首歌,它就能自己找到对应软件、找到对应歌手、选择歌曲,像人类一样点击、滑动、输入。其中,多模态智能体学习和交互的对象是多步执行的轨迹数据。

它适用于手机/电脑上的复杂多步任务,尤其是在中文APP场景下的真实交互方面具有优势。

资讯配图

来自浙江大学和美团的研究者们开源了多模态智能体UItron,具有先进的GUI内容感知、任务定位和推理规划能力,以及优秀的中文场景交互能力

UItron弥补了操作轨迹的稀缺性和智能体交互基建的可用性,提供了更好的基础能力来促进未来的智能体研究,图中展示了UItron和基准方法在十个主流评测榜单中的性能对比,显示了全面的性能水平提升。

资讯配图

方法与技术

多模态智能体依赖高质量的操作轨迹和可交互的虚拟环境,因此构建多模态智能体是一项有挑战的任务。UItron构建了系统性的数据工程来缓解操作轨迹的缺乏,搭建了可交互的虚拟环境支持手机/电脑的连接,提出了从简单离线强化学习到复杂在线强化学习的训练方法。

数据工程

研究者探索了系统的数据工程来改进UItron,包括感知数据、规划数据和蒸馏数据,如下图所示。此外,还组织了少量有利于多模态智能体训练的通用多模态数据,以及中文场景的高质量手动标注数据。具体地,在感知数据中,UItron将广泛来源的跨平台数据整理到统一的多轮对话模板中,有效的扩大了可用训练数据的规模。

同时,UItron整合了UI内容关联的多任务数据,包括OCR\VQA\Caption等,这些多任务数据有效的提供了基础的页面理解能力。在规划数据中,UItron系统地研究了一系列提高训练效果的数据工程策略,包括利用各种轨迹元素(如观察、 思想和行动),探索不同的推理格式,以及结合各种 反射机制(如回溯)。

资讯配图

交互基建

为了便于轨迹数据收集、在线评估和强化学习训练,UItron构建了一个连接移动和PC设备的交互环境基建,如下图所示。其意义来自以下三个方面。首先,移动端和PC端的交互环境提供了自动记录截图和坐标的功能,大大简化了手动标注轨迹数据的难度,尤其是提高了收集中文场景下操作轨迹的效率。

其次,为移动端和PC端的交互环境提供了一种实现方式,不仅实现了传统的英文环境下智能体交互环境(如OSWorld),还实现了中文环境中和国内App的交互环境。最后,通过连接手机/电脑,为在线强化学习提供了训练基础,模型在训练的过程中不断输出执行动作,然后访问交互环境获得执行后的新界面,从而交替循环下去直到任务完成。

资讯配图

训练范式

在训练过程中,UItron采用了一个三阶段的训练策略(如下图所示),其中包括两个用于感知和规划任务的SFT阶段,以及一个带有课程强化学习框架的RL阶段。

在第一阶段,感知任务侧重于提高GUI场景中视觉语言模型的基本理解能力,如定位、问答、描述和OCR。

在第二阶段,规划任务集中于根据历史行动预测下一个行动,从而获得长步骤的推理和执行能力。

在最后的强化学习阶段,课程强化学习框架旨在通过对轨迹数据的群体相对策略优化算法来提高推理和探索能力,包括从简单的离线环境中进行步骤级的强化学习到复杂的在线环境中进行任务级的强化学习算法。

资讯配图

重点考虑国内月活前100的Apps

研究者进行了广泛的实验,涵盖场景包括GUI感知、定位、离线规划和在线规划。除了公开评测榜单之外,研究者还在自建中文APP场景下的离线环境和在线环境中进行充分的评测。以下是一些代表性的评测:

首先是在经典的开源榜单ScreenspotV2上,UItron实现了92.0的平均分数,优于现有的方法,反映了较强的GUI内容理解能力和任务定位能力。

资讯配图

在代表性的离线规划榜单Android-Control和GUI-Odyssey上,UItron实现了92.9的最高平均分,显著优于其他工作,展示了很强的任务规划和执行能力。

资讯配图

在开源环境中,在最受关注的评测榜单OSWorld上进行了对比,UItron取得了24.9的分数(15 Steps),在所有GUI Agent中性能最佳,弱于CUA方法,这是因为CUA方法只专注于优化compute-use场景。

资讯配图

特别的,研究者还强调了中文场景下和头部的APP进行交互的能力,重点考虑了国内月活前100的Apps。研究者们构建了一个离线环境和一个在线环境进行中文App能力的评测,实验结果表明UItron取得了明显的性能优势,通过中文操作轨迹收集和中文交互环境基建改进了中文场景的智能体水平

UItron在多模态智能体的主流榜单中都取得了较好的效果,为领域提供了一个开源的更强的基础模型,期望推动未来技术的发展。同时,UItron强调了多模态智能体的可用性、可信度研究,尤其是面向真实应用诉求的中文App交互能力,发挥其应用价值和提升人机交互的效率。

(团队招收面向Agentic RL&Infra的科研实习生,可提供纯粹的科研环境,丰富的计算资源和前沿的技术探索,欢迎有相关经验者投递简历至zengzhixiong@meituan.com)

项目地址:https://github.com/UITron-hub/UItron
论文地址:https://github.com/UITron-hub/UItron/blob/main/report/uitron.pdf

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

资讯配图


🌟 点亮星标 🌟

科技前沿进展每日见

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
定位 开源
more
突破户外RGB SLAM尺度漂移难题,精确定位+高保真重建(ICCV'25)
两部门出台《方案》:开展低空航空器等关键共性计量技术研究,攻克低空航空器智能感知、定位导航、能源动力等关键参数测量校准技术
定位纯电动紧凑型SUV 羿驰05S申报图曝光 外观采用全新设计
星图低空云受邀参加中国卫星导航定位协会成立30年暨北斗+低空经济商业航天大会
iCAR V27发布!—— 增程动力/定位中大型越野SUV
双杀痛点!布局生成图「WinWinLay」横空出世:精准定位+逼真质感,告别模糊与失真!
全新红旗商务车,中大型豪华定位!将上市仅23万,2.0T轻混动力
资讯 | 我国自主研发脑机接口成功完成脑深部肿瘤边界精准定位临床试验、5G脑心动车-全球首个老年痴呆脑机接口临床应用等
中国北斗空间定位服务行业市场发展现状及前景展望:市场规模为4857亿元
顶刊TII新作 | 完美实现动态环境中的长期定位!加速200倍,定位精度+70%!
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号