上交、清华、微软、上海AI Lab等联合发布数据分析智能体综述,LLM化身数据分析师,让数据自己「说话」

机器之心 2025-10-27 18:40
上交、清华、微软、上海AI Lab等联合发布数据分析智能体综述,LLM化身数据分析师,让数据自己「说话」图1


传统数据分析方法依赖人工拼接的流程,如编写SQL、调用Python脚本及手动解读数据,不仅耦合度高且扩展性差,难以应对动态、多模态的复杂数据。而大语言模型与智能体的出现,将数据分析从「规则执行推向「语义理解,使机器能够真正解读数据内在逻辑与关系,从而灵活完成查询、建模与报告生成等多样化任务。


近日,由上海交通大学、清华大学、微软雷德蒙德研究院、上海 AI Lab 等机构研究者联合撰写的最新综述论文系统回顾了大语言模型在数据分析领域的整体演进:从传统规则化流程到智能协作,从单模态到多模态融合,并提出构建「通用数据分析智能体(General Data Analyst Agent)」的新范式。


上交、清华、微软、上海AI Lab等联合发布数据分析智能体综述,LLM化身数据分析师,让数据自己「说话」图2



本文综述了大语言模型(LLM)与智能体(Agent)在数据分析领域的最新进展,重点讨论结构化、半结构化、非结构化及异构数据上的关键技术与演化趋势,并总结出语义理解、自主管道、自动工作流、工具协作与面向开放世界五大方向。还提出了在可扩展性、评估体系与实际落地等方面的未来挑战,旨在推动通用数据分析智能体的发展与应用。


上交、清华、微软、上海AI Lab等联合发布数据分析智能体综述,LLM化身数据分析师,让数据自己「说话」图3

图 1:大语言模型进行数据分析的技术演进示意图


经过系统的调研与分析,研究团队总结出 LLM/Agent 技术在数据分析领域的四个核心演进方向:







这五大趋势共同指向一个方向——让数据分析真正从「规则系统」迈向「智能体系统」,让模型不止是工具,而成为数据智能时代的思考者与合作者。


上交、清华、微软、上海AI Lab等联合发布数据分析智能体综述,LLM化身数据分析师,让数据自己「说话」图4

图 2:LLM/Agent-as-Data-Analyst 技术总览,涵盖本文具体讨论的四大数据模态:结构化数据、半结构化数据、非结构化数据和异构化数据。


图 2 展示了该综述的主要研究内容,首先从不同数据类别进行介绍,包括结构化数据、半结构化数据、非结构化数据以及异构数据,针对不同数据类型,针对不同任务或技术展开。






不同于以往聚焦单一任务或单一模态的研究,这篇综述首次从全模态与全流程视角系统梳理了 LLM/Agent 在数据分析领域的整体格局,提出了构建「通用数据分析智能体(General Data Analyst Agent)」的五项核心设计原则。它不仅总结了当前研究的关键能力与趋势,也揭示了可扩展性、鲁棒性与开放域适配等未来挑战。欢迎感兴趣的读者阅读、讨论和引用该论文。


上交、清华、微软、上海AI Lab等联合发布数据分析智能体综述,LLM化身数据分析师,让数据自己「说话」图5


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
more
一副 AI 眼镜,让 500 万盲人有了重见光明的希望
给留守儿童的“AI信箱”,如何才能更“有爱”?
2026中国AIoT产业年会最新议程揭晓!诚邀共赴AIoT智能体觉醒之年!
「世界理解」维度看AI视频生成:Veo3和Sora2水平如何?新基准来了
33位院士共同研讨AI for Science——“学术科协”科学智能专家委员会在京成立
冰城码力全开,共赴AI Coding英雄之旅!CEDxCNCC百度文心快码Meetup圆满落幕
开源即登榜!登顶全球前十AI编程智能体,UCL初创团队开源Prometheus
NI深化中国本土战略,Nigel首秀擘画AI驱动下的智能测试新蓝图
60 台 iPhone 17 Pro 拍的刘亦菲子弹时间,我用 AI 复刻了同款平替 | 附教程
美国联邦AI立法的“布莱克本时刻”——跨党派共识的形成与对科技巨头游说的反制【AI战略洞察】
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号