【AI加油站】RPA 流程自动化系列十：CAAP：仅通过前端 UI 解决计算机任务的上下文感知操作规划提示技术（附PDF下载）

核心总结

一、研究背景与意义

在机器人流程自动化（RPA）领域，传统软件机器人多依赖规则算法处理结构化、重复性任务，难以应对桌面任务中大量不可预见的异常情况。随着大语言模型（LLMs）的兴起，其强大的推理能力和上下文学习（ICL）能力为处理复杂、未知任务提供了可能，只需少量示例即可学习特定任务的有效操作，大幅减少对大规模专家演示数据的依赖。

然而，现有基于 LLM 的自动化技术存在明显局限：一方面，常依赖 HTML 源代码或文档对象模型（DOM）作为输入，仅适用于网页环境，无法覆盖非网页类桌面任务或无 API 支持的应用；另一方面，HTML 代码中的信息往往不准确或不完整，降低了智能体在实际应用中的可靠性。此外，此前在 MiniWoB++ 等基准测试中，各研究常选择特定任务子集报告结果，缺乏公平的性能对比标准。

在此背景下，本文提出一种仅基于屏幕截图感知环境、结合 ICL 技术的 LLM 智能体，无需大规模人类演示数据集，旨在突破环境限制，提升自动化任务的通用性与可靠性，推动 RPA 工具在计算机、智能手机等多设备跨应用协同场景中的应用。

二、相关工作综述

（一）智能体视觉模型

现有 UI 元素检测与解读技术各有特点：Faster R-CNN 通过区域提议网络（RPN）实现复杂场景高精度检测，但处理速度较慢；SSD（Single Shot MultiBox Detector）省去 RPN 环节，推理速度快且精度尚可，可通过多样化默认框和特征图优化小目标检测与误检问题；Co-DETR 基于 Transformer 架构，无需锚点，能学习对象间关系，但训练耗时耗资源；YOLOv8 可一次性处理全图目标类别与边界框预测，兼顾速度与精度。

与上述侧重目标位置和类型信息提取的技术不同，Pix2Struct 基于视觉 Transformer（ViT）和 T5 Transformer，以图像为输入输出结构化文本，擅长提取目标详细属性与嵌入式文本信息。本文则结合 YOLOv8 的高速目标检测能力与 Pix2Struct 的详细属性分析优势，处理视觉信息。

（二）深度学习方法

WebGPT（基于 GPT-3）、WebGUM（结合 ViT 与 T5）、CC-Net（融合 ResNet 与 Transformer）等模型，均需依赖 HTML 或 DOM 输入，且需大规模监督学习（SL）和强化学习（RL）训练，WebGUM 甚至使用了 401K 条演示数据，CC-Net 则耗费 6300 小时收集 240 万条演示数据，不仅数据收集成本高，且训练流程复杂。

Pix2Act 是首个仅通过截图实现 MiniWoB++ 高性能的模型，同样依赖 SL 和 RL，且需要 130 万条演示数据，在适应新任务时灵活性不足。

（三）基于 LLM 的上下文学习智能体

ReAct 模型通过先评估当前状态再决策下一步动作提升合理性；RCI 提示技术借助渐进式自我批判优化动作规划；Inner Monologue（IM）通过显式反馈循环将实时环境状态融入动作规划；AdaPlanner 受 IM 启发，让 LLM 生成 Python 函数形式的动作计划，并在执行失败时调整；Synapse 框架利用过往成功动作轨迹作为少样本示例指导后续操作；Reflexion 则鼓励 LLM 反思过往失败并记录，将经验用于后续任务。这些工作均体现了先进推理技术与环境适应能力在智能体开发中的重要性，但部分仍依赖 HTML 输入，限制了应用范围。

（四）接地技术

接地技术（Grounding）是确保 LLM 智能体准确解读现实世界信息的关键，包括 UI 对象检测、基于上下文选择动作、通过结构化格式消除沟通歧义等。研究表明，人类参与接地任务的智能体性能远超纯 LLM 驱动的智能体。

ScreenAI 通过回答截图视觉状态相关问题（如 “搜索栏中的文本是什么”）解决视觉理解问题，结合了 Pix2Struct 的对象理解能力与 T5 的指令理解能力；Set-of-Mark 技术通过 MaskDINO 为截图添加数字标签，并与文本指令结合输入 GPT-4V，WebVoyager 将其与 ReAct 提示结合应用于智能体领域；SeeClick 仅以截图为输入，将截图划分为网格，通过学习网格坐标确定目标点击动作，但性能相对有限。

三、CAAP 智能体设计：模拟人类任务解决流程

CAAP 智能体模仿人类处理计算机任务的流程 —— 通过视觉观察屏幕评估现状、拆解复杂任务为简单动作、执行动作后观察状态变化并循环直至任务完成，主要包含视觉观察器（Visual Observer）、决策器（Decision Maker）和动作执行器（Action Executor）三大核心组件。

（一）视觉观察器：视觉信息转语言表征

视觉观察器通过两步将屏幕视觉信息转化为语言领域的结构化文本，为决策器提供当前状态描述：

UI 元素检测
：微调 YOLOv8-x 模型，检测截图中所有 UI 元素并提取其空间位置（边界框），暂不提取元素类型信息，留待后续环节提升准确性。
UI 元素解读
：使用微调后的 Pix2Struct 模型提取检测到的 UI 元素详细属性。微调过程中采用特殊掩蔽技术 —— 勾勒目标 UI 元素区域并暗化周围区域，既保留目标元素像素级细节，又帮助模型学习目标与相邻元素的空间关系。最终输出包含元素类型（如按钮、输入框）、坐标、文本内容、是否聚焦等结构化信息。

研究团队还指出，未来随着大型多模态模型（LMMs）的发展，有望替代当前视觉观察器，无需训练神经网络，仅依靠 LMM 的集成能力完成观察与决策，且 CAAP 提示技术的 “感知 - 推理” 分离模块化设计，仍将优于单一 LMM 处理观察与决策的端到端系统，因更贴合人类与计算机交互的方式。

（二）决策器：基于上下文的动作规划

决策器接收视觉观察器输出的当前屏幕状态表征，确定完成任务的可能动作，核心组件包括上下文收集器与 CAAP 提示生成器：

上下文收集器
：收集任务解决所需关键上下文信息，包括人类演示示例（动作轨迹及背后原理）、任务目标描述、已执行动作历史、LLM 可选择的动作范围等，均以文本形式整理。
CAAP 提示生成器
：将收集的上下文信息构建为提示，输入 LLM 以获取下一步动作指导，其核心是 CAAP 提示技术，具体结构后续详述。

（三）动作执行器：动作落地与状态反馈

动作执行器通过操作系统底层接口，将决策器确定的动作转化为环境变化：首先解析决策器输出文本，识别推荐动作序列；随后通过操作系统的键盘、鼠标接口执行动作，包括点击、指向、滚动等鼠标操作，以及打字、快捷键使用等键盘操作；每次动作执行后，获取更新后的屏幕截图，若检测到环境变化则暂停后续动作，等待下一轮决策。

四、CAAP 提示技术：提升 LLM 智能体决策能力

CAAP 提示技术是提升 LLM 智能体处理复杂桌面任务 ICL 能力的核心，通过高效传递相关上下文信息、引导 LLM 生成思维链（CoT）推理，优化决策质量，主要包含四部分内容：

（一）人类演示示例

少样本示例能显著增强 LLM 的高级推理能力。CAAP 提示以人类在类似任务中的动作轨迹文本作为开端，文本中包含每个动作的原理说明 —— 即使原理并非来自演示者本人，也可由 LLM 自动生成（如通过输入视觉状态与对应动作，让 GPT-4 生成动作原理），大幅提升演示文本的有效性。在 MiniWoB++ 实验中，研究选用相同任务类型、不同随机种子生成的任务作为演示素材；实际应用中，可通过检索增强生成（RAG）技术从数据库提取相似任务记录。

（二）周围上下文信息

这是 CAAP 提示的核心部分，为 LLM 准确决策提供必要信息，包括目标任务描述、视觉观察器输出的当前状态描述、过往动作记录、智能体可执行的动作范围，以及上一轮 LLM 的动作计划回复（确保决策策略的连续性，维持目标一致性）。

（三）思维链诱导指令

该部分通过特定指令引导 LLM 自主解读周围上下文信息，生成思维链：包括 “动作轨迹回顾指令”（鼓励 LLM 回顾已执行动作，理解过往动作与当前环境状态的关联）、“视觉观察回顾指令”（引导 LLM 关注当前状态观察结果，聚焦完成任务所需的相关对象）、“动作计划优化指令”（要求 LLM 结合已生成的推理内容，制定后续动作计划）。

（四）下一步动作决策指令

此部分主要包含格式规范与额外指导：一方面明确 LLM 输出的动作格式要求，确保后续动作执行器可准确解析；另一方面针对所使用 LLM 的常见错误，提供专项指导，减少决策失误。

五、实验设计与结果分析

（一）实验设置

测试环境
：选用 MiniWoB++ 基准测试环境，该环境包含超 100 个网页交互任务场景（如点击按钮、填写表单、拖放操作等）。实验中刻意不使用 MiniWoB++ 提供的简化交互 API，模拟真实桌面任务无系统捷径的场景。
任务筛选
：从 MiniWoB++ 中筛选出 67 个任务，筛选标准为：任务涉及的 UI 元素类型在视觉观察器支持范围内、任务过程中 UI 元素不超出 160×210 像素默认屏幕区域、无需颜色识别能力（视觉观察器暂未训练该功能）。
数据集准备
：

视觉观察器微调数据集：2 人各耗时 10 小时，收集 67 个任务各 10 个 episodes 的截图，共 1768 张（去重后），并使用 GUI 标注工具为截图中 UI 元素添加边界框与属性标注（存储为 JSON 格式），结合颜色调整、边界框缩放、添加高斯噪声等数据增强技术，将标注数据量扩大 3 倍。
人类演示数据集：1 人耗时 2 小时，为 67 个任务生成 0-5 条不等的演示数据（共 99 条），记录动作轨迹与对应截图，再由 LLM（GPT-4）为每个动作生成原理说明，丰富演示内容。
数据划分：通过任务实例随机种子区分训练与测试数据，图像标注数据来自种子 1000-2999 的任务，演示数据来自种子 3000-3999 的任务，测试数据来自种子 0-999 的任务，每个实验至少重复 50 次以保证统计可靠性。

模型选择

：决策环节采用 Azure OpenAI 的 gpt-4-0125 模型，利用其 “函数调用” 功能传递动作类型信息（而非在提示中直接罗列动作类型）。

（二）实验结果

整体性能：在 67 个 MiniWoB++ 任务中，CAAP 智能体整体成功率达 94.4%，仅需平均 1.48 个演示示例 per 任务类型。在覆盖任务范围与成功率上，显著优于多个现有模型：

对比依赖 DOM/HTML 输入的模型（如 RCI、AdaPlanner）：RCI 和 AdaPlanner 虽在部分任务上成功率超 92%，但仅支持少量任务（54 个、53 个），若将未支持 / 未报告任务视为失败，其成功率分别降至 50.8%、49.2%；而 CAAP 无需依赖 DOM/HTML，支持 67 个任务，且 61 个任务成功率超 80%，在 100 个标准任务集（CC-Net 覆盖的任务）中的成功率达 63.3%，比仅用图像输入的 Pix2Act（55.8%）高 7.5%。
对比同样基于图像输入的模型（如 Pix2Act、SeeClick）：Pix2Act 需 130 万条演示数据才覆盖 58 个任务，SeeClick 虽用少量演示数据，但 100 任务集成功率仅 38.2%；CAAP 仅用 99 条演示数据，在更多任务上实现更高成功率。
对比需大规模数据与复杂训练的模型（如 CC-Net、WebGUM）：CC-Net 需 240 万条演示数据、6300 小时数据收集时间，且依赖 DOM 信息；WebGUM 用 401K 条演示数据，结合 HTML 与图像输入，性能仍不及 CAAP；CAAP 在降低数据成本与环境依赖的同时，保持了高任务解决能力。

消融实验：验证 CAAP 提示各组件的作用，结果显示：

移除 “思维链诱导指令”，成功率从 94.4% 降至 92.0%（下降 2.4%）；
移除 “人类演示中的原理说明”，成功率降至 91.1%（下降 3.3%）；
完全移除 “人类演示示例”，成功率降至 85.7%（下降 8.7%）；
同时移除 “思维链诱导指令” 与 “人类演示示例”，成功率大幅降至 80.9%（下降 13.5%）。
这表明人类演示示例（尤其是包含原理说明的演示）与思维链诱导指令对提升 LLM 决策能力至关重要，CAAP 的 ICL 支持机制有效增强了模型的任务处理能力。

与 RCI 提示技术对比：在相同输入与动作范围、仅替换提示机制的实验中，采用 CAAP 提示的 RCI 智能体平均任务成功率从 76.9% 提升至 84.0%（提高 7.1%），进一步验证了 CAAP 提示技术在优化 LLM 计算机任务处理性能上的有效性。

（三）失败案例分析

CAAP 智能体在 MiniWoB++ 任务中的失败案例主要分为三类：

指令错误
：一是 MiniWoB++ 基准本身存在错误指令（如无意义句子 “Thanks Bette, I’ll Mauris”）；二是指令存在语法错误（如 “我想从 Elka 发送邮件到 Ingaborg’s email”，LLM 误将 “Ingaborg’s email” 填入收件人字段，而非识别出正确收件人 “Ingaborg”）。
观察失败
：如任务要求识别标签为 “Maighdiln” 的对象，但视觉观察器将文本误识别为 “Maighdin”，导致 LLM 判断目标不存在；或按钮 “ONE” 被 “TWO” 遮挡，人类可尝试移动 “TWO” 以查看遮挡内容，但智能体无法做出此类判断。
决策失败
：如任务要求找出文本中第 6 个单词 “sed”，视觉观察器准确观察但 LLM 判断错误；任务需从滚动列表中选择 “Cassandry”，LLM 滚动操作过早停止；需将 “Hermione” 拖至屏幕左中位置，LLM 虽选择拖放动作但终点坐标错误；需高亮第一段文本，视觉观察器按行检测文本，LLM 无法准确判断段落结构。

其中，基准指令错误占比极少，约 40% 失败源于视觉观察器的观察误差，其余为 LLM 决策失误，尤其在解读数值坐标相关任务时难度较大。研究团队认为，随着 LLM 推理能力的提升，部分指令错误与观察误差可通过更优决策弥补，进而提升任务成功率。

六、研究贡献与局限

（一）主要贡献

提出新型前端 UI 智能体设计
：智能体输入输出均通过面向人类的前端 UI 渠道，摆脱对 HTML/DOM 和应用专属 API 的依赖；结合 LLM 的 ICL 能力，无需大规模神经网络重训练即可轻松适应新任务。
开发 CAAP 提示技术
：通过系统组织动作决策所需上下文信息、利用触发最优思维链推理的语法模式，显著增强 LLM 智能体处理复杂桌面任务的 ICL 能力，性能优于其他智能体设计。
建立更公平的 MiniWoB++ 性能评估标准
：针对过往研究选择特定任务子集报告结果、难以直接对比的问题，提出两种新 metrics：一是统计成功率超 80% 和 90% 的任务数量；二是将未支持 / 未报告任务视为失败，重新计算整体成功率，为智能体性能对比提供公平依据。

（二）研究局限

当前 CAAP 智能体的验证范围仅限于 MiniWoB++ 基准，缺乏在更多不同类型基准（如 WebShop、AlfWorld、WebArena 等）中的测试，难以全面评估其在各类实际场景中的适用性。未来研究将重点拓展测试平台，进一步验证智能体的通用性。

七、未来展望

研究团队指出，随着 AI 芯片在计算机、智能手机中的普及，AI 设备将逐渐成为市场主流，CAAP 智能体的设计理念 —— 仅通过视觉信息交互、模拟人类任务处理流程、低环境依赖 —— 有望在更广泛领域应用，如机器人、移动设备等依赖视觉信息的场景。其 “感知 - 推理” 分离的模块化架构，也为后续结合更先进多模态模型、进一步提升自动化任务处理能力奠定了基础。