
PromptRPA 是一项由清华大学团队提出的智能手机端机器人流程自动化(RPA)系统,核心目标是通过自然语言文本提示自动生成并执行手机上的复杂任务,从而降低传统 RPA 的技术门槛。该系统采用多智能体架构,将任务自动化过程划分为信息收集、指令生成和操作映射三个阶段,每个阶段由专门设计的智能体负责处理,并通过不断积累用户交互数据来提升性能。
在信息收集阶段,系统通过分析用户输入的自然语言提示,结合历史任务记录和在线教程,补全缺失的上下文信息,形成完整的任务描述。指令生成阶段则将这些描述转化为结构化的操作指令,支持灵活的自然语言理解和指令解析。操作映射阶段负责在实时手机界面上定位并执行相应操作,通过语义匹配、历史记录比对和探索机制来适应界面变化。
系统引入了五个关键智能体:分析智能体负责解析用户意图,检索智能体补充外部知识,解析智能体将描述转化为指令,定位智能体在界面上执行操作,移动语义智能体增强界面理解,评估智能体则监控执行过程并在必要时请求用户干预。这些智能体协同工作,并通过历史任务库、上下文库、指令集和移动交互图等知识库不断自我优化。
实验评估显示,PromptRPA 在 2500 个真实用户提示下,任务成功率从基线的 22.28% 提升至 95.21%,平均每个新任务仅需 1.66 次用户干预。系统支持包括微信、抖音、支付宝等在内的多款主流应用,覆盖从常见到冷门的多种任务类型。用户研究进一步验证了其易用性和有效性,无论是熟练用户还是老年用户都能通过自然语言完成任务,且系统在重复任务中表现显著提升。
此外,PromptRPA 具备开放知识体系和持续学习能力,能够动态适应应用更新和用户习惯,适用于教程生成、智能助手和客户服务等多种场景。尽管当前在处理复杂条件逻辑和界面语义理解方面仍有局限,但未来将通过更精细的对话机制、语义模型和领域优化持续改进。



本书免费下载地址
关注微信公众号“人工智能产业链union”回复关键字“流程自动化04”获取下载地址。