手机AGI助手还有多远?移动智能体复合长程任务测试基准与调度系统发布

机器之心 2025-07-26 17:32
资讯配图

本文第一作者郭源是上海交通大学计算机系三年级本科生,研究方向为自主智能体和智能体安全。该工作由上海交通大学与澜舟科技共同完成。


资讯配图




从原子任务自动化

到系统级端侧智能


多模态大模型 (MLLM) 驱动的 OS 智能体在单屏动作落实(如 ScreenSpot)、短链操作任务(如 AndroidControl)上展现出突出的表现,标志着端侧任务自动化的初步成熟。


但是,真实世界的用户需求常常包含复合长程任务,例如 “比较价格并在便宜的平台下单” 任务,需要在多个应用程序中操作,收集和比较异源信息,并据此确定后续的操作步骤;“查看今日热点新闻,概括并记录” 的任务,需要在多个网页之间导航,将设备操作与文本概括的通用推理能力交错融合,并完成适时的信息传递。从简单有序任务到复杂有序和复杂无序任务的过渡是从单智能体基座增强到 AI 操作系统的必经之路。当前主流的环境感知、动作落实和短序列轨迹微调等训练方式显著地提高了前述原子任务上的表现,但是复合长程任务带来了长链条进度管理、信息收集和传递、操作与通用思考的结合等全新的挑战。


研究人员针对主流的移动端 GUI 智能体展开系统的研究。实验显示,现有的移动端 GUI 智能体在面对复合长程任务时都具有明显的能力缺陷,展现出显著的原子任务到复合任务的泛化困难。


针对这一缺口,研究人员提出:


1. 态评测基准 UI-Nexus:构建可控的动态测评平台,覆盖复合型、传递型、深度分析型等复杂长程任务,涵盖 50 类中英文应用(包括本地功能应用和第三方在线应用),共设计 100 个任务模板,平均最优完成步数为 14.05 步。

2. 多智能体任务调度系统 AGENT-NEXUS:提出轻量化调度框架,支持指令分发、信息传递与进程管理。该系统无需修改底层智能体模型,便于高效接入与多体协同。


该工作为复合长程任务下的移动端智能体提供了有挑战性的测试基准和开发平台,也为展望未来复杂、精细的 AI 原生操作系统建立了雏形。


移动端智能体

在复合长程任务中的能力瓶颈


随着基座模型的持续增强和环境感知、单屏动作落实、静态轨迹微调、强化学习等训练策略的优化,基于多模态大模型的设备操控 GUI 智能体在单屏动作落实(grounding)和短链操作任务上的测试表现持续提升,已经能够端到端地自动化执行网络搜索等原子任务。


但是,真实场景中的用户指令常常包含长程场景与复合依赖需求。本文依据子任务的依赖关系分类,给出了常见的三种任务复合类型:



资讯配图

依据子任务依赖结构的复合任务分类


研究人员在常用手机应用上构造代表性的测试任务,针对主流的 OS-Atlas, UI-TARS, Mobile-Agent 系列,M3A 等移动端 GUI 智能体进行初步实验,发现主流智能体在复合长程任务上明显表现欠佳。


对错误案例的细致分析显示,主流移动端智能体由于缺乏有效的进度管理和信息管理机制等,展现出典型的失败类型,如:



UI-NEXUS:

针对移动端智能体复合任务的

全面测试基准


为了对移动端智能体在复合长程任务上的表现提供科学全面的测试基准与开发平台,研究人员提出了 UI-NEXUS:一个针对移动端智能体复合任务的交互式测试基准。


资讯配图

UI-NEXUS 测试基准概览


如概览图所示,UI-NEXUS 基准有如下的特点:



研究人员选取了 5 种代表性的移动端智能体基线进行测试,这 5 种智能体都基于 GUI 操作进行移动端操作任务的自动化,具体实现模式包括:


1. 单模型微调(Agent-as-a-Model):OS-Atlas-7B-Pro 和 UI-TARS-7B-SFT 都是基于 Qwen2-VL-7B 进行大量 GUI 领域训练得到的智能体基座,可以通过单模型推理逐步执行手机操作任务。


2. 工作流搭建(Agentic Workflow):通常利用 GPT-4o 等闭源模型辅以模块化设计来构建智能体工作流。如 M3A 是 AndroidWorld 中提出的手机智能体,每步推理时利用 a11y tree 提取出元素列表作为辅助输入,并使用 React 和 Reflexion 来进行动作推理和结果反思。Mobile-Agent-V2 和 Mobile-Agent-E 采取多智能体协作的模式,并辅以 OCR 和元素标记等模块,进行手机任务自动化。


除了上述基线以外,本文还提出了 Agent-NEXUS:针对复合设备操作任务的调度系统。Agent-NEXUS 将高阶调度与低阶执行解耦,通过 Scheduling Module, Execution Module 和 Process Memory 的协同工作完成复合长程任务的调度。


在每个子任务完成后,调度模块根据历史进程信息和当前环境感知更新高阶任务规划,并将后续的第一个子目标传给执行模块的 Navigator/Analyst/Tool 进行具体落实。这样的层次化调度模式让低阶执行模块每次都收到意图明确的原子任务,减轻了语境过载的风险。


资讯配图

Agent-NEXU 架构示意图


Agent-NEXUS 支持智能体的可插拔接入。在本实验中,研究人员尝试了用 UI-TARS-7B-SFT 和 M3A 作为低阶执行模块的智能体。


实验分析:

从原子到复合任务的泛化之路


研究人员在本地功能应用(UI-NEXUS-Anchor)、中文在线服务应用、英文在线服务应用三个测试子集,共 100 个指令模板上进行了测试,主要结论有:



资讯配图

主要实验结果


为了深入分析原子到复合泛化的表现,研究人员选取部分独立组合型和语境传递型任务进行了进一步的分析实验。研究人员对比了三种任务成功率


1. 直接将复合指令给定智能体,测试智能体的任务完成率,作为原子 - 复合泛化中的 Weak Performance。


2. 人为将复合指令拆分成多个原子指令(如将 "In the Tasks app, create and save a new task named 'Exercise' repeating every day. Then open the Broccoli recipe app and delete the 'French Fries' recipe." 拆分成 "In the Tasks app, create and save a new task named 'Exercise' repeating every day." 和 "Open the Broccoli recipe app and delete the 'French Fries' recipe." 两个原子指令,分别交付智能体执行,均成功则视为该任务成功,测定任务完成率,作为原子 - 复合泛化中的理论上的 Strong Ceiling。


3. 将 UI-TARS-7B-SFT 和 M3A 接入 Agent-NEXUS 调度系统后的任务完成率。


结果如下图所示:


资讯配图

所有移动端智能体 baseline 在给定手动拆分后的原子指令时表现都显著更优,其中 UI-TARS 的差异尤其显著,从 11% 直接提升到了 60%。这是由于其在微调后已经训练了充分的 GUI 操作能力,而直接给定复合指令时的极低完成率主要受制于进度管理和信息管理功能的缺失。


Agent-NEXUS 调度框架有效地弥补了原子到复合任务的泛化损失,在成本提升可控的同时让任务完成率大幅提升,逼近了 strong ceiling 的表现。


此外,针对不同智能体构建方案的进一步讨论和分析显示:


1. 在线服务类 App 因信息动态性强、UI 结构复杂及环境干扰频繁,构成了更大的挑战;


2. 基于 GPT-4o 搭建的 Agentic Workflow 由于具有多智能体协作,复杂推理等机制,在复合任务上的表现显著更优。但是,GPT-4o 在 GUI 操作任务上的原生领域能力比较有限,需要借助元素列表、屏幕解析工具等辅助,加之本身调用成本较高,限制了实际应用的可行性。


相比之下,基于开源规模领域微调的 Agent-as-a-Model 在短链操作内部逻辑、动作落实、推理速度等方面有显著优势,但由于训练方式的限制,当面对选择等复合逻辑、动作和通用推理交错等任务需求时完全无法应对,容易出现盲目执行的现象,需要借助系统级的设计来增强。


3. Memory 机制的设计在处理复合长程任务中至关重要。当前移动端智能体的 Memory 机制主要包含无记忆(如 OS-Atlas-Pro,只根据动作历史和当前屏幕预测下一步动作,没有储存历史信息的机制)、部分记忆(如 UI-TARS,每次输入前 N 张屏幕观察,一定程度上可以利用前 N 张屏幕中的有利信息,但是在多源、跨越较大的信息传递和整合中收到较大限制)、主动记忆(如 Mobile-Agent-V2 和 Mobile-Agent-E 每一步都会主动判断当前是否有信息要存储到记忆模块)。


主动记忆在复杂信息依赖的复合长程任务中带来更优的表现,但是每一步都判断是否记忆带来较大的计算冗余。Agent-NEXUS 通过将界面导航。信息收集、信息处理都显式在高阶调度中分配好次序,在开销可控的同时实现了多源信息的管理和整合。


未来展望:

面向新一代 AI 操作系统


本文不仅全面、深入地探讨了当下移动端智能体研究中迫切需要深入发掘的一个方面:复合长程任务,也畅想了新一代 AI 操作系统的雏形。


在未来,我们不仅需要能依据一个指令为人类自动化完成简单操作的智能体模型,更希望构建能够高效协调、处理、调度复合任务需求的系统级端侧智能。我们相信,当这样的评测基准与调度框架被广泛采用并不断演进,移动设备将真正蜕变为具备类操作系统层次智能的个人助手,为人机协作打开新的想象空间。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
测试
more
从研发到量产,这款自动化测试神器,9大行业都在用!
3C电子产品安规和测试汇总(家电手机等)
懂车帝测试震惊全网,特斯拉智驾拿下第一,友商面子挂不住了
36车ADAS测试:特斯拉双车夺冠!
数据驱动的自动驾驶虚拟测试方法
德开发出标准化机器人灵敏度测试系统
储能安全新突破,多家企业以火烧测试筑牢行业防线
【AI】Grok4全网玩疯,成功通过小球编程测试,Epic创始人:这就是AGI
AMD Radeon显卡五年历程测试
新车:吉利银河A7新款9.78万元起;小鹏G6增程版谍照;特斯拉Model YL测试车谍照;新款吉利星越L亮相
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号