上交、清华、微软、上海AI Lab等联合发布数据分析智能体综述，LLM化身数据分析师，让数据自己「说话」

传统数据分析方法依赖人工拼接的流程，如编写SQL、调用Python脚本及手动解读数据，不仅耦合度高且扩展性差，难以应对动态、多模态的复杂数据。而大语言模型与智能体的出现，将数据分析从「规则执行」推向「语义理解」，使机器能够真正解读数据内在逻辑与关系，从而灵活完成查询、建模与报告生成等多样化任务。

近日，由上海交通大学、清华大学、微软雷德蒙德研究院、上海 AI Lab 等机构研究者联合撰写的最新综述论文系统回顾了大语言模型在数据分析领域的整体演进：从传统规则化流程到智能协作，从单模态到多模态融合，并提出构建「通用数据分析智能体（General Data Analyst Agent）」的新范式。

上交、清华、微软、上海AI Lab等联合发布数据分析智能体综述，LLM化身数据分析师，让数据自己「说话」图2

论文标题：LLM/Agent-as-Data-Analyst
论文地址：https://arxiv.org/abs/2509.23988
Github 项目主页：https://github.com/weAIDB/awesome-data-llm

本文综述了大语言模型（LLM）与智能体（Agent）在数据分析领域的最新进展，重点讨论结构化、半结构化、非结构化及异构数据上的关键技术与演化趋势，并总结出语义理解、自主管道、自动工作流、工具协作与面向开放世界五大方向。还提出了在可扩展性、评估体系与实际落地等方面的未来挑战，旨在推动通用数据分析智能体的发展与应用。

上交、清华、微软、上海AI Lab等联合发布数据分析智能体综述，LLM化身数据分析师，让数据自己「说话」图3

图 1：大语言模型进行数据分析的技术演进示意图

经过系统的调研与分析，研究团队总结出 LLM/Agent 技术在数据分析领域的四个核心演进方向：

从字面理解 → 语义推理：模型不再只「看数据」，而是真正「理解数据」，能洞察语义、推理逻辑。

从封闭工具 → 自由协作：模型能调用外部 API 与知识库，与各类工具协同完成复杂任务。

从封闭数据 → 开放域分析：针对没有结构约束的数据进行分析，摆脱原有工具限制，可以从数据中分析获得更有价值的结论。

从静态工作流 → 动态生成：智能体可自动构建分析流程与管道，让数据处理更高效、更灵活。

从人工 Agent 框架 → 自动生成框架：智能体可以智能构建为某个工作服务的智能体，更灵活的实现 Agent 工作流。

这五大趋势共同指向一个方向——让数据分析真正从「规则系统」迈向「智能体系统」，让模型不止是工具，而成为数据智能时代的思考者与合作者。

上交、清华、微软、上海AI Lab等联合发布数据分析智能体综述，LLM化身数据分析师，让数据自己「说话」图4

图 2：LLM/Agent-as-Data-Analyst 技术总览，涵盖本文具体讨论的四大数据模态：结构化数据、半结构化数据、非结构化数据和异构化数据。

图 2 展示了该综述的主要研究内容，首先从不同数据类别进行介绍，包括结构化数据、半结构化数据、非结构化数据以及异构数据，针对不同数据类型，针对不同任务或技术展开。

结构化数据：（1）关系型数据分析：由 NL2SQL 向多样化的 NL2Code、ModelQA 过渡，研究方向包括语义对齐与模式链接、多步分解与检索增强推理、端到端表格问答（TableGPT、ReAcTable）；（2）图数据分析：以 NL2GQL 为代表，研究重点在图查询生成、语义级图推理与代理式操作（如 R3-NL2GQL、GraphGPT），逐步实现从代码级到语义级的自动理解与执行。

半结构化数据：（1）标记语言理解：任务包含标记抽取（如 Evaporate）、标记查询（如 XPath Agent）、以及结构语义理解（如 MarkupLM）。技术路线从模板 + 规则驱动向基于 LLM 的数据抽取与查询转变，强调树结构建模、层级编码、工具增强等；（2）半结构化表格理解：核心任务涵盖表格结构化表示（如 ST-Raptor）、模型驱动转换（如 TabFormer）、表格提示压缩（如 HySem）与查询推理（如 CoS）。

非结构化数据：（1）文档理解：使用 OCR 等技术将文档转换为纯文本格式（ZenDB、QUEST），结合 RAG 等技术进行理解；从 OCR 模板式到 VLM 转变（DocLLM、DocOwl2、DLAFormer），任务包括版面识别、RAG 检索问答、摘要生成与多文档推理。（2）图表理解：将图像解析与自然语言推理结合（ChartQA、Chart-of-Thought），支持描述生成、问答与可视化推理。（3）视频与 3D 模型分析：实现时序定位、行为识别、三维语义融合（Video-LLaMA、LLMI3D）。

异构数据：跨模态整合多源数据湖，支撑统一语义查询与多模态推理。主要子任务包括模态对齐、自然语言检索接口、异构分析智能体（HetAgent、XMODE）。

不同于以往聚焦单一任务或单一模态的研究，这篇综述首次从全模态与全流程视角系统梳理了 LLM/Agent 在数据分析领域的整体格局，提出了构建「通用数据分析智能体（General Data Analyst Agent）」的五项核心设计原则。它不仅总结了当前研究的关键能力与趋势，也揭示了可扩展性、鲁棒性与开放域适配等未来挑战。欢迎感兴趣的读者阅读、讨论和引用该论文。

上交、清华、微软、上海AI Lab等联合发布数据分析智能体综述，LLM化身数据分析师，让数据自己「说话」图5

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com