
这篇名为《FlowMind: Automatic Workflow Generation with LLMs》的论文由J.P. Morgan AI Research团队撰写,提出了一种名为FlowMind的新框架,利用大型语言模型(LLM,如GPT)自动生成工作流程,以解决传统机器人流程自动化(RPA)在应对突发或不可预测任务时的局限性。该研究聚焦于金融领域,尤其强调数据隐私、安全性和用户交互。
一、研究背景与问题
RPA的局限性:传统RPA适用于重复性任务,但对突发、复杂或用户临时提出的任务无能为力。
LLM的挑战:虽然大模型具备生成代码的能力,但存在“幻觉”问题(生成错误或无意义内容),且直接处理敏感数据会泄露隐私。
二、FlowMind框架设计
FlowMind分为两个阶段:
阶段1:对LLM进行“讲授”
目的:让LLM理解任务背景和可用工具(API)。
讲授内容包括三部分:
上下文:说明任务领域(如处理基金报告)。
API列表:提供函数名、参数、返回值的语义化描述,但不暴露底层实现。
代码要求:提示LLM准备好用这些API生成Python代码来响应用户查询。
阶段2:工作流程生成与执行
LLM根据用户问题生成代码,调用API完成查询。
用户反馈机制:LLM先用自然语言向用户解释生成的流程,用户可提出修改意见,系统据此调整代码,提升准确性。
三、金融数据集:NCEN-QA
来源:基于美国SEC的N-CEN基金报告构建。
规模:共600个问题-答案对,分为三个难度等级:
Easy:单基金、单信息点查询(如“某基金的托管人是谁?”)。
Intermediate:单基金、需计算(如“某基金佣金与净资产比率”)。
Hard:涉及多个基金的聚合或筛选(如“某顾问公司管理哪些基金?”)。
四、API设计(用于处理N-CEN报告)
共6个函数,分为三类:
检索类:获取报告、获取所有报告。
分段类:将报告拆分为单个基金信息块。
提取类:从文本中提取实体(如托管人)或数值(如佣金)。
五、实验与评估
对比方法:
基线:GPT + 上下文检索(传统方法,易出错)。
FlowMind及其三种“消融版本”(分别去除讲授中的上下文、API描述、代码提示)。
结果:
FlowMind在所有难度等级上准确率远高于基线,Easy和Intermediate达99%以上,Hard达89.5%。
用户反馈进一步提升准确率至100%(Easy/Intermediate)和96%(Hard)。
消融实验表明,讲授中的每一个组件(上下文、API语义、代码提示)都至关重要,缺一不可。
六、贡献与意义
提出FlowMind框架:首次将LLM用于安全、动态、可解释的工作流程生成。
解决幻觉与隐私问题:通过API抽象层隔离LLM与敏感数据。
引入NCEN-QA数据集:为金融领域自动问答系统提供标准化评测基准。
用户交互机制:无需编程背景的用户也能参与流程优化,提升系统适应性。
七、未来展望
规模化用户反馈:探索众包方式收集反馈以持续优化流程。
终身学习:基于历史用户反馈自动改进未来生成质量。
扩展API库:支持更大规模API集合,通过语义检索匹配任务所需工具。
总结一句话:
FlowMind通过“讲授-生成-反馈”的闭环设计,让LLM在金融等高风险领域中,安全、准确地完成复杂任务的自动化流程构建,突破了传统RPA的瓶颈。


本书免费下载地址
关注微信公众号“人工智能产业链union”回复关键字“流程自动化05”获取下载地址。