【AI加油站】RPA 流程自动化系列八:SmartFlow:融合 LLM 与计算机视觉的智能机器人流程自动化系统解析(附下载)

人工智能产业链union 2025-09-04 12:00
资讯配图
核心总结

一、研究背景与动机

当前主流的机器人流程自动化(RPA)系统存在明显短板,其核心依赖像素级编码技术,如通过拖拽界面或 Selenium 等自动化框架构建导航流程,缺乏对图形用户界面(GUI)元素的深度视觉理解能力。这导致此类系统在应对复杂业务流程、多样化屏幕布局,以及需要类人决策判断的场景时表现乏力,难以灵活适配 UI 界面变化,也无法高效处理涉及复杂视觉分析与自然语言理解的任务。


与此同时,深度学习领域成果显著,计算机视觉技术在目标识别、图像分割等方向持续突破,预训练大型语言模型(LLM)如 GPT-3、ChatGPT、Llama、PaLM 等彻底革新了自然语言处理,具备了先进的语言理解与生成能力。视觉语言模型(VLM)如 Control-Net、Visual-ChatGPT 的出现,也为图像分析与处理开辟了新路径。但现有相关研究存在不足,例如部分研究仅能识别屏幕元素却无法确定完成任务所需的对应动作,部分目标检测器的训练范围局限于特定应用(如仅针对 Eclipse IDE 的屏幕元素),无法通用。在此背景下,研究团队提出了 SmartFlow 系统,旨在通过融合 LLM 与深度学习图像理解技术,弥补传统 RPA 系统的缺陷。

二、SmartFlow 系统核心概述

SmartFlow 是一款基于人工智能技术的 RPA 系统,其核心设计思路是整合计算机视觉与自然语言处理技术,借助预训练 LLM 实现任务的自主执行。该系统无需人工干预,就能自适应 GUI 界面变化与输入数据差异,具体工作流程为:首先,通过计算机视觉与自然语言处理技术感知 GUI 上的可见元素,并将这些视觉信息转换为文本表示;接着,LLM 基于该文本表示生成一系列有序的动作指令;最后,由脚本引擎执行这些动作指令,完成指定任务。在应用场景上,SmartFlow 可广泛覆盖表单填写、客户服务、发票处理、后台运营等各类业务流程,能帮助企业进一步扩大屏幕端工作流程的自动化覆盖范围,提升整体生产效率。

三、系统设计与关键模块

(一)用户角色与任务流程

SmartFlow 围绕任务处理全流程,设计了四类协同工作的用户角色,具体分工与任务流转如下:


  1. 终端用户
    :作为任务发起方,通过邮件或聊天机器人向系统提交任务请求,同时提供完成任务所需的全部数据信息,之后等待任务自动执行完成并获取结果。
  2. 信息验证系统(IVS)
    :承担任务准入审核职责,对终端用户提交的任务请求进行完整性校验,确认是否包含填充所有数据字段所需的必要信息。校验通过后,将任务请求加入待处理任务目录,等待后续处理。
  3. 管理员
    :负责系统的初始配置与关键设置,包括提供应用相关的元数据(如目标网站的 URL、各页面的 HTML 源代码),并完成 “布局映射” 工作 —— 即建立屏幕上可见字段名与对应的编辑字段、数据提示之间的关联。管理员可根据实际情况选择三种布局映射方法,若前两种方法无法满足精度要求,可通过演示法确保布局映射的准确率达到 100%。
  4. SmartFlow API
    :作为任务执行的核心调度模块,从待处理任务目录中按顺序提取任务请求并执行。任务完成后,将执行结果状态(如成功、失败、具体错误信息)反馈至任务状态目录,再由管理员通过终端用户偏好的沟通渠道(如邮件、聊天)告知最终结果。

(二)布局映射方法

布局映射是确保系统准确识别字段关联关系的关键环节,SmartFlow 提供三种不同的实现方法:


  1. 基于规则的方法
    :研究团队通过对大量 Web 应用表单的分析,总结出字段布局的普遍规律 —— 字段名通常位于编辑字段的左侧或顶部,数据提示则多分布在编辑字段的底部或右侧。基于这一规律,结合计算机视觉技术与预定义的规则、启发式算法,实现字段间关联关系的自动映射。
  2. 虚拟网格方法
    :针对传统布局映射模型难以通过像素坐标准确理解空间布局的问题,该方法将屏幕的像素坐标转换为虚拟网格空间,每个网格单元覆盖多个像素块,大幅简化了错位检查流程(仅需检查每个网格单元的 8 个相邻单元格)。同时,以 CSV 格式记录虚拟网格空间的布局信息,将其与文本提示一同输入 LLM,由 LLM 生成最终的布局映射结果。
  3. 管理员演示方法
    :当上述两种方法无法实现精准映射时启用,管理员需在 Web 应用表单中输入虚拟测试数据,并提交包含相关字段详细信息的 JSON 文件。SmartFlow 通过对比表单填写前后的截图进行视觉分析,结合 JSON 文件中的字段信息,建立字段名、占位符与对应值之间的准确关联,确保布局映射的精度。

(三)SmartFlow 算法流程

SmartFlow 的算法流程围绕任务执行的全周期设计,涵盖从数据预处理到任务状态判定的完整环节:


  1. 预处理
    :对输入的元数据(包括应用 URL、HTML 源代码、布局映射信息)进行清洗,重点处理 HTML 源代码,移除其中不必要的属性和类定义,确保处理后的代码符合 LLM 的输入尺寸限制,避免因代码冗余影响后续处理效率。
  2. 表单元素提取
    :一方面,将清洗后的 HTML 源代码输入 GPT-3、ChatGPT 等预训练 LLM,通过特定提示词引导 LLM 提取表单中的字段名和字段类型;另一方面,捕获应用当前界面的截图,利用 EasyOCR 工具提取截图中的文本区域。随后,再次通过提示词让 LLM 将 HTML 提取的字段信息与 OCR 提取的文本信息、布局映射进行融合,生成 “映射列表”—— 该列表包含字段名、字段类型、字段在屏幕上的坐标等关键信息,是后续生成导航流程的核心依据。
  3. 导航流程生成
    :将映射列表与终端用户的任务请求作为输入,结合提示词让 LLM 生成 PyAutoGUI 脚本代码。该脚本代码精确定义了完成任务所需的动作序列,如点击指定表单字段、输入数据等。针对日期选择器、下拉菜单、单选按钮 / 复选框等复杂字段,系统设计了专门的处理算法,这些算法会在 LLM 生成导航流程时被自动调用,基于对字段视觉特征和操作行为模式的理解,实现精准操作。
  4. 多页面表单提交处理
    :在执行完当前页面的脚本代码后,SmartFlow 会再次捕获界面截图,通过分析网站布局的视觉线索(如 “下一页” 按钮、表单分区标识)判断是否存在后续表单页面。若存在多页面表单,则按顺序继续处理用户请求,填充剩余字段,直至完成所有页面的表单填写。
  5. 任务状态判定
    :采用帧差法对比表单提交前后的界面截图,提取其中的反馈信息(如 “提交成功” 提示、“缺少必填字段” 错误提示等),通过文本提取模块将这些反馈信息转换为结构化数据,并记录到状态队列中。这些信息不仅用于向用户反馈结果,还可为后续系统优化提供数据支持。

四、数据集(RPA-Dataset)详情

为全面评估 SmartFlow 的性能,研究团队构建并公开了 RPA-Dataset 数据集,该数据集的设计聚焦企业级应用场景,具体特征如下:
数据集涵盖 5 个对 RPA 集成需求较高的典型企业应用场景,包括会议签到系统、新患者注册系统、销售线索生成系统、客户投诉处理系统、护照注册系统。针对每个应用场景,研究团队开发了不同的 HTML 网站,且每个网站设计了最多 5 种布局变体,以体现不同的界面设计风格和开发实现方式。每个布局变体对应 5 个用户任务请求,确保测试场景的多样性。


在数据内容上,RPA-Dataset 不仅包含各应用的完整 HTML 源代码,还提供了多类任务的真值标注,包括 OCR 文本识别真值、布局映射真值、数据字段填充真值,以及日期选择器、下拉菜单、单选按钮 / 复选框等复杂字段处理的真值。此外,数据集还包含手动生成并以 CSV 格式组织的输入准备任务文件,以及这些文件对应的表单填充后真值数据,为相关领域的研究提供了丰富、规范的实验数据支持。

五、实验结果与分析

(一)评估指标

为全面、客观地评估 SmartFlow 的性能,实验设计了多维度评估指标:


  1. 文本提取准确率
    :通过字符错误率(CER)和词错误率(WER)两个指标,衡量 OCR 技术对屏幕文本字段的检测精度,错误率越低,文本提取效果越好。
  2. 布局映射准确率
    :评估系统将字段名与对应的编辑字段、占位符、数据提示建立正确关联的比例,直接反映布局映射功能的可靠性。
  3. 填充数据准确率
    :统计系统在表单字段中填充正确数据的比例,体现系统数据处理的准确性。
  4. 请求提交准确率
    :判断系统执行任务请求后,是否成功完成表单提交(或达到任务预期目标)的比例,反映任务执行的整体成功率。
  5. 复杂组件准确率
    :针对日期选择器、下拉菜单、单选按钮 / 复选框等复杂字段,单独统计其数据填充或选项选择的准确率,评估系统对复杂交互场景的处理能力。
  6. 任务完成时间
    :记录系统完成单个任务请求所需的平均时间(单位:分钟),衡量系统的任务处理效率。

(二)关键实验结果

实验基于 OpenAI 的 GPT-3 API 实现,硬件环境为配备 8GB GPU 内存的 GTX 1080 机器,核心实验结果如下:


  1. 文本提取性能
    :以会议签到系统(CAS)为测试对象,OCR 技术的平均 CER 为 0.015,平均 WER 为 0.086,表明系统对屏幕文本的识别精度较高,能为后续处理提供可靠的文本数据。
  2. 布局映射效果
    :基于规则的方法与虚拟网格方法在布局映射准确率上表现相近,且整体效果良好。少量映射错误主要源于两个原因:一是部分字段名或数据提示与错误的编辑字段距离过近,导致系统误关联;二是 OCR 文本检测出现级联错误(如文本识别错误引发后续关联错误)。不过,这些错误可在系统初始设置阶段由管理员手动修正,不影响系统整体可用性。
  3. 数据填充与任务提交
    :在会议签到系统中,系统的填充数据准确率为 95%,错误主要集中在单选按钮和复选框字段 —— 这两类字段的选项选择逻辑相对复杂,导致 LLM 生成的动作指令偶有偏差。若对 LLM 进行针对性微调(增加单选 / 复选字段处理样本),可进一步提升该指标。此外,请求提交准确率达到 100%,说明系统能准确判断任务执行结果,并成功完成表单提交等核心操作。
  4. 任务完成时间
    :会议签到系统因涉及多页面表单处理,平均任务完成时间为 5.7 分钟;而单页面表单应用的任务完成时间更短。不同布局和任务的完成时间差异,主要受日期选择器操作(如年份滚动、月份切换)和下拉菜单滚动(寻找目标选项)的耗时影响,操作步骤越复杂,完成时间越长。
  5. 跨应用通用性
    :在 RPA-Dataset 的所有 5 个应用场景中,SmartFlow 的平均填充数据准确率达到 93.3%,平均请求提交时间为 1.433 分钟,整体表现稳定,证明其具备良好的跨应用适配能力。但需注意的是,单选按钮和复选框的选项选择准确率仍有提升空间,是后续优化的重点方向。

六、系统局限性

尽管 SmartFlow 在实验中表现出优异性能,但当前版本仍存在以下局限性:


  1. 动态字段处理能力不足
    :当前系统无法支持动态字段 —— 即字段的显示 / 隐藏或字段属性(如可选值)依赖前序字段的输入值。虽可通过 “为每个字段单独生成 PyAutoGUI 代码、填充数据后重新进行布局映射” 的方式临时处理,但该方法操作繁琐、耗时较长,效率低下。研究团队正针对这一问题展开研究,探索更高效的动态字段处理方案。
  2. 可滚动表单处理流程待优化
    :对于包含滚动区域的表单,系统虽能通过 HTML 源代码判断页面是否可滚动,并通过截图捕获可见字段、生成填充代码,但当存在隐藏字段或 “下一步”“提交” 等隐藏按钮时,需反复滚动页面、重复截图与处理流程,直至找到目标元素,整体流程较为繁琐,处理效率有待提升。
  3. 字段类型推断依赖 HTML 代码
    :当前系统主要依赖 HTML 源代码中的标签信息(如<select>标签表示下拉菜单)推断字段类型,若 HTML 代码不规范或缺失关键标签,可能导致字段类型判断错误。未来计划通过训练深度学习目标检测器,仅基于界面视觉特征即可准确推断字段类型,减少对 HTML 源代码的依赖,但目前因缺乏足够的训练数据,该功能暂未集成到系统中。

七、结论与未来工作

(一)研究结论

本研究提出的 SmartFlow 系统,是一款无需额外训练即可直接部署的 AI 驱动型 RPA 系统。其核心创新在于融合计算机视觉技术与 LLM 等生成模型,实现了导航流程的自动生成,能够自适应 GUI 界面变化与应用场景差异,无需人工干预即可自主完成用户提交的任务请求。在基于 RPA-Dataset 的实验中,SmartFlow 在多类企业级应用场景、多种界面布局下均表现出优异的性能,验证了该系统的有效性与实用性,为解决传统 RPA 系统的局限性提供了可行方案。

(二)未来工作方向

  1. 优化动态 Web 应用与可滚动表单处理
    :针对当前系统在动态字段和可滚动表单处理上的不足,进一步研究更智能的界面分析算法,实现动态字段的自动识别与适配,简化可滚动表单的处理流程,提升系统对复杂界面场景的适应能力。
  2. 研发深度学习 - based 字段类型检测器
    :收集并构建大规模、多样化的界面字段数据集,训练专门的深度学习目标检测器,实现仅通过视觉特征即可准确推断字段类型(如下拉菜单、日期选择器等),彻底摆脱对 HTML 源代码的依赖,提升系统的灵活性与鲁棒性。
  3. 提升 LLM 对复杂字段的处理能力
    :通过增加单选按钮、复选框等复杂字段的训练样本,对 LLM 进行微调,优化其生成复杂字段操作指令的逻辑,进一步提升系统在这类场景下的数据填充准确率,减少人工干预需求。
资讯配图
资讯配图
资讯配图

本书免费下载地址


    关注微信公众号“人工智能产业链union”回复关键字“流程自动化08”获取下载地址。

【AI加油站】RPA 流程自动化系列一:《机器人流程自动化魔力象限》市场格局、厂商优劣与选型指南(附PDF下载)
【AI加油站】RPA 流程自动化系列二:从RPA到APA:ProAgent引领的智能代理流程自动化革命(附PDF下载)
【AI加油站】RPA 流程自动化系列三:AUTONODE:认知 GUI 自动化的“神经-图式”自学习引擎全景解读(附PDF下载)
【AI加油站】RPA 流程自动化系列四:PromptRPA——面向智能手机的自然语言驱动机器人流程自动化系统综述(附PDF下载)
【AI加油站】RPA 流程自动化系列五:《FlowMind》:金融级智能工作流自动生成框架(附PDF下载)
【AI加油站】RPA 流程自动化系列六:GUIDE:开启认知驱动RPA时代的多模态GUI智能数据集全景解读(附PDF下载)

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI AR 机器人 自动化
more
【倒计时7天】具身机器人感知与控制峰会
人形机器人终于学会洗碗了
超越微软Magma!NVIDIA联合提出机器人VLA推理模型ThinkAct,能反思错误并自主纠正
英伟达"最强"机器人大脑平台与5G物联网完成验证测试,RedCap支持人形机器人高效连接
2.5亿元人形机器人订单!「优必选」迎“史诗级”商业化突破
2.5亿!全球人形机器人最大合同诞生!
亚秒级反应!伯克利HITTER框架让人形机器人实现106拍乒乓球对打
国家级试点!杭州3个机器人项目入选
【AI加油站】机器人设计系列九:一文读懂固定翼空中机器人:从原理到应用的全方位技术指南(附下载)
对话玄源科技:AI陪伴机器人CEO不相信「AI陪伴」
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号