
在现代经济中,数字化工作流是核心支柱,92% 的工作需数字技能加持,而员工日均 3 小时耗费在重复性数字工作流上,企业自动化潜力巨大,据估算自动化企业工作流每年可释放 4 万亿美元生产力。当前主流的机器人流程自动化(RPA)虽在特定场景有 30%-200% 的投资回报率且能提升工作流速度一倍,但存在三大关键缺陷,严重限制其广泛应用。
从案例来看,医院收入周期管理(RCM)部门为解决医疗报销复杂问题,尝试 RPA 却面临高成本困境,开发部署 RPA 机器人耗时 18 个月、花费数万美元,还需与供应商反复沟通;且机器人仅能处理两个特定工作流,系统和网站更新易使其失效,医院不得不开发定制 API,同时因人员紧张,需外包监控并人工审核输出。大型 B2B 企业的发票处理工作,引入 RPA 虽让 5 名员工完成原 20 人工作,但前期投入大,从签约到部署耗时 12 个月,还需外部咨询和内部人力,机器人初始准确率仅 60%,6 个月才提升至 95%,且需 2 名全职员工持续监控,因维护和扩展难题,企业未将 RPA 推广到其他工作流。
为解决 RPA 的弊端,斯坦福大学研究团队提出 ECLAIR 系统,借助多模态基础模型(如 GPT-4)实现企业工作流自动化,涵盖 “演示 - 执行 - 验证” 三大核心阶段。在 “演示” 阶段,ECLAIR 通过观看人类操作视频、读取文档学习工作流,无需人工编码规则。实验显示,结合工作流描述、关键帧截图和操作日志,GPT-4 生成的标准操作流程(SOP)能确保 93% 工作流顺利完成,仅用截图也达 90% 正确率,大幅降低部署成本与技术门槛。“执行” 阶段,ECLAIR 依托多模态模型的视觉理解与推理能力规划并执行 GUI 操作。有 SOP 指导时,工作流整体完成率从 17% 提升至 40%,单步动作建议准确率达 92%。不过,模型在将动作与 GUI 元素关联(如区分同标签按钮)时存在困难,且专用小模型(如 180 亿参数的 CogAgent)在 GUI 元素定位上表现优于通用大模型 GPT-4,但整体准确率最高仅 70%,小元素定位仍是挑战。“验证” 阶段,ECLAIR 可进行自我监控与纠错,在判断工作流是否成功完成(精确率 90%、召回率 84%)和动作轨迹是否符合 SOP(精确率 88%、召回率 83%)等高层级验证上表现较好,但在判断动作是否可行(如按钮是否可用)等低层级验证上存在不足,精确率 67%、召回率仅 36%。
尽管 ECLAIR 展现出潜力,但仍有开放挑战亟待解决。在人机协作方面,部分关键环节(如医生处方签字、用户认证)需人工介入,未来需通过 SOP 标记交接节点或建立敏感操作白名单实现高效协作。验证机制上,需结合完整性约束库、程序化启发式规则(如监控工作流耗时偏差)和有限人工审核,提升自我监控可靠性,同时可利用监控数据进一步优化模型。自我改进方面,可借鉴自驱动数据库原理,记录 ECLAIR 操作效果,构建 “技能库” 实现跨工作流知识迁移,通过多次查询、集成预测等方式降低模型不确定性。多智能体协作也是方向,可针对不同子任务或数字环境部署专用智能体,参考协作数据处理工具提升系统扩展性。
ECLAIR 系统为企业自动化提供了新路径,虽目前未达 100% 准确率,但无需完美准确率即可带来价值。未来结合数据管理技术解决现有挑战,有望推动企业工作流自动化进入新阶段,释放更多生产力,尤其在需实时决策、GUI 交互和隐性领域知识的工作流中,潜力巨大,或如麦肯锡预测,使可自动化的知识工作总量翻倍。



本书免费下载地址
关注微信公众号“人工智能产业链union”回复关键字“流程自动化07”获取下载地址。