
一句话总结: 上海交通大学、清华大学、微软研究院等机构联合发布综述论文,系统梳理了LLM在数据准备(清洗、集成、丰富化)三大核心任务中的应用现状、技术路线与未来挑战。
原文链接: https://huggingface.co/papers/2601.17058
在数据驱动的时代,企业或者研究机构每天都要处理海量的原始数据。然而,这些数据往往存在格式不一致、错误值、缺失值、重复记录等问题,直接使用会导致分析结果失真、决策失误。传统的数据准备方法依赖手工编写规则、需要大量专家知识,且难以适应多样化的数据场景。近年来,随着大语言模型(LLM)技术的快速发展,数据准备领域正在经历一场深刻的变革。
上海交通大学、清华大学、微软研究院、MIT CSAIL等多家顶尖机构的研究人员,通过调研数百篇最新文献,系统梳理了LLM增强的数据准备方法。这项研究聚焦于将原始数据转换为高质量、可用于下游应用的数据集,涵盖了数据清洗、数据集成和数据丰富化三大核心任务。

下面,让我们一起来看看这篇论文吧~
项目仓库:https://github.com/weAIDB/awesome-data-llm
PaperScope解读:https://www.paperscope.ai/hf/2601.17058
LLM带来的范式转变
那么,LLM技术究竟如何改变数据准备的游戏规则?它带来了哪些传统方法无法企及的能力?
LLM技术的兴起为数据准备带来了四个关键机遇。
首先是实现从手动准备到指令驱动和智能体化自动化(agentic automation)的转变。用户可以直接使用自然语言定义转换逻辑,而不需要编写复杂的用户定义函数。高级数据清洗框架(如Clean Agent、AutoDCWorkflow)集成了LLM增强的智能体来编排清洗工作流,智能体通过识别质量问题并调用外部工具,实现最小人工干预的有效数据清洗。
其次是语义推理能力。与依赖语法相似性或启发式方法的传统方法不同,LLM增强方法将语义推理融入准备流程。在数据集成中,LLM利用预训练的语义知识解决缩写、同义词和领域特定术语的歧义。在数据丰富化中,LLM推断语义列组并生成符合人类理解的数据集描述,实现超越基于关键词或统计分析的更准确的数据集理解和丰富化。
第三是跨模态泛化能力。LLM增强技术减少了对领域特定特征工程和任务特定训练的依赖,在数据模态间表现出强大的适应性。例如,在数据清洗中,LLM通过少样本、基于相似度的上下文提示处理异构模式和格式,无需微调。对于表格数据集成,专门的编码器(如TableGPT2)弥合了表格结构和文本查询之间的模态差距。
最后是知识增强的准备工作,最小化标注需求。LLM通过利用预训练知识和动态集成外部上下文,减少了对大量高质量标签的需求。在实体匹配中,一些方法(如KCMF)将外部领域知识(如来自Wikidata)和结构化伪代码纳入提示,减少对任务特定训练对的依赖。在数据清洗和数据丰富化中,基于检索增强生成(RAG)的框架(如RetClean、Pneuma)从数据湖中检索相关外部信息,实现准确的值恢复和元数据生成,无需完全观测的训练数据。
三大核心任务的技术路线
了解了LLM带来的范式转变,我们不禁要问:LLM在数据准备中具体如何应用?不同任务采用了哪些技术路线?
下面,让我们深入探讨三大核心任务的技术实现。
01 数据清洗:从标准化到错误处理
在实际应用中,我们经常面对格式混乱、错误频出的原始数据。那么,LLM如何系统性地进行清洗和修复呢?
数据清洗旨在将损坏或低质量的数据转换为适合下游任务的可信形式。研究重点关注三个关键子任务:数据标准化、数据错误处理和数据填补。
1.数据标准化
这是将异构、不一致的数据格式(如不同写法的日期、大小写文本)转换为统一规范格式,满足预设一致性要求的过程。现有方法可分为三类。
-
第一类是基于提示的端到端标准化,使用结构化提示指定详细的标准化规则或提供逐步推理指令,引导LLM生成标准化格式的数据输出。例如,LLM-GDO使用用户指定的提示和参数化模板,将数据标准化规则编码为文本指令(如"将日期转换为YYYYMMDD格式"),替代用户定义函数。
-
第二类是自动代码合成标准化,通过指示LLM生成可执行代码来执行标准化。生成的代码随后被执行以确保统一的数据处理并提高效率。Evaporate提示LLM生成从半结构化文档中提取结构化表示的代码,然后结合多个候选函数的结果以提高准确性,同时保持较低的计算开销。
-
第三类是工具辅助的基于智能体的标准化,通过使用LLM智能体来协调和执行标准化流程,克服复杂提示设计的挑战。CleanAgent将特定的标准化操作与领域特定的API映射,依赖智能体执行标准化流程,包括生成API调用并迭代执行。AutoDCWorkflow利用LLM智能体组装流程并执行逐步推理,定位相关列、评估数据质量并应用适当操作,同时利用OpenRefine等工具进行执行和反馈。
总体而言,数据标准化方法从简单的提示驱动逐步演进到智能体驱动的自动化流程,既提高了效率,又增强了处理复杂场景的能力。
2.数据错误处理
数据错误处理涉及检测错误和修复错误(如拼写失误、异常值、格式违规)两个阶段。现有方法可分为四类。
-
第一类是基于提示的端到端错误处理,依赖结构化提示描述显式错误检测和修复指令,组织处理步骤为迭代工作流,或结合示例和推理指导,指示LLM直接识别和修复数据错误。Cocoon-Cleaner使用批处理式提示,通过序列化每列的采样值(如每列1000个条目)并按对应主题列分组,允许LLM迭代识别和修复拼写错误和不一致格式等问题,只需最少监督(如五个标记元组)。
-
第二类是面向函数合成的错误处理,利用LLM合成可执行的处理函数,显式编码表语义和数据依赖关系。LLMClean指示LLM从数据集模式、数据和领域本体中推导出一组本体功能依赖(OFD)集合,这些依赖在上下文模型中定义验证规则。每个OFD代表一个具体规则,如邮政编码→城市,随后用于检测错误并通过集成工具引导迭代数据修复。
-
第三类是任务自适应微调的错误处理,针对特定任务微调LLM以学习难以通过提示单独捕获的数据集特定错误模式,利用合成噪声或上下文增强来增强错误检测和修复性能。LLM-TabAD通过构建合成数据集来适应基础LLM(如Llama 2)进行错误检测,其中每个示例是一小批行以及异常行的索引,连续列的值来自窄高斯(正常值)和宽高斯(异常极值)的混合。
-
第四类是混合LLM-ML增强的错误处理,将LLM与机器学习模型集成,在错误处理中平衡准确性和计算效率。ZeroED使用LLM标注特征,随后训练轻量级ML分类器(如MLP)进行端到端错误检测。训练数据集通过零样本流程获得:首先通过聚类选择代表性值,然后由LLM标记,这些标签传播到附近的值。
这些方法展现了从纯LLM推理到混合架构的演进路径,在保证准确性的同时,也在不断优化计算成本和执行效率。
3.数据填补
数据填补旨在利用上下文信息、外部知识或模型推理,为数据集中的缺失值填充合理数值,恢复数据结构完整性与逻辑一致性。现有方法可分为三类。
-
第一类是基于提示的端到端填补,使用结构化提示指导LLM在单步中填充缺失值。LLM-PromptImp通过选择与目标缺失属性最相关的列来细化上下文,相关性使用针对不同数据类型定制的相关性指标(如Pearson相关性、Cramer's V和η相关性)确定。
-
第二类是上下文检索引导的填补,通过动态丰富从外部源检索的补充上下文输入,使LLM能够处理以前未见过的、领域特定的或私有数据集。RetClean在数据湖上构建索引,使用语法和语义检索,选择候选元组池,用学习的排序模型重新排序,然后将脏元组与top-k检索的元组一起呈现给LLM进行填补。
-
第三类是模型优化的自适应填补,通过调整LLM的训练过程或架构来改进填补质量,以更好地捕获混合类型表格数据中的复杂关系。UnIMP用两个轻量级组件增强LLM,捕获数值、分类和文本单元格之间的交互:一个高阶消息传递模块,聚合局部和全局关系信息;一个基于注意力的融合模块,在解码最终填补值之前将这些特征与提示嵌入合并。
数据填补技术的发展体现了从简单提示到上下文检索,再到模型架构优化的完整技术路径,为处理复杂的数据缺失问题提供了多样化的解决方案。
02 数据集成:实体匹配与模式匹配
除了数据清洗,数据集成也是数据准备中的关键环节。在现实场景中,我们经常需要将来自不同来源的数据整合在一起。那么,LLM如何识别和匹配不同数据集中的相同实体和模式呢?
数据集成旨在对齐不同数据集的元素,以便以统一、一致的方式访问和分析它们。研究重点关注实体匹配和模式匹配两个核心子任务。
1、实体匹配
实体匹配旨在决定两条记录是否对应同一个现实世界实体。现有方法可分为三类。
-
第一类是基于提示的端到端匹配,依赖结构化提示指导LLM直接执行实体匹配。MatchGPT通过选择上下文演示(如基于相似度与手动)并自动从手写示例生成文本匹配规则来准备指导。KCMF结合专家设计的伪代码(if-then-else逻辑)和外部领域知识,采用集成投票机制聚合多源输出。
-
第二类是任务自适应微调匹配,使用任务特定监督微调LLM进行实体匹配,通过从更强模型蒸馏推理轨迹或改进训练数据质量来增强匹配适应性和泛化。Jellyfish对小型模型(7B-13B范围)执行参数高效指令微调,使用从更大的混合专家LLM(如Mixtral-8x7B)蒸馏的推理轨迹,以提高推理一致性和任务可转移性。
-
第三类是多模型协作匹配,通过协调多个模型来增强实体匹配,利用它们的互补优势。COMEM提出LLM协作的局部和全局匹配策略,其中中等大小的LLM(3B-11B)通过冒泡排序对top-k候选进行排序以减轻位置偏差,更强的LLM(如GPT-4o)通过建模元组间交互来细化这些候选,确保全局一致和准确的匹配。
实体匹配技术的发展表明,从单一模型到多模型协作,从提示驱动到任务自适应微调,研究者们正在不断探索更高效、更准确的匹配策略。
2、模式匹配
模式匹配旨在识别异构模式之间列或表的语义对应关系(例如,匹配列名,如“雇员编号”和“职员编号”)现有方法可分为五类。
-
第一类是基于提示的端到端匹配,使用结构化提示使LLM能够执行模式匹配而无需显式代码实现。LLMSchemaBench为不同上下文的不同任务设计提示,采用提示模式,如角色规范(如指示LLM充当模式匹配器)、匹配标准定义、Chain-of-Thought推理指令和结构化输出格式。
-
第二类是检索增强的上下文匹配,通过用从外部检索组件获得的上下文增强LLM输入来改进模式匹配。Matchmaker集成预训练检索模型(如ColBERTv2)与LLM,通过在标记级别编码列进行基于向量的语义检索,然后使用LLM对检索的候选进行评分和排序。KG-RAG4SM通过采用多种检索策略扩展这一想法,包括基于向量的、图遍历的和查询驱动的搜索,从知识图中提取相关子图,为匹配提供更丰富的上下文。
-
第三类是模型优化的自适应匹配,通过模态感知微调和专门的模块设计增强匹配有效性。TableLlama在广泛的以表格为中心的任务上应用指令微调,允许模型隐式学习对齐策略和列语义。TableGPT2采用架构增强优化方案,通过合并生成排列不变表示的二维表格编码器,增强跨表格列对齐和候选匹配排序的稳定性和准确性。
-
第四类是多模型协作匹配,通过协调具有互补能力的多个模型改进模式匹配。Magneto采用检索-重排序框架,其中小型预训练语言模型首先为每个输入列生成候选匹配排序,LLM随后通过重排序细化这些候选,以实现更高的匹配准确性和效率。
-
第五类是智能体引导的基于编排的匹配,使用LLM智能体管理和协调整个模式匹配流程。Agent-OM使用两个LLM智能体(检索智能体和匹配智能体)协调匹配过程,通过Chain-of-Thought提示分解任务,调用专门工具(如语法、词汇和语义检索器和匹配器),并依赖混合内存架构(关系+向量数据库)进行存储和检索。
模式匹配方法从基础的提示匹配发展到检索增强、模型优化、多模型协作,最终演进到智能体编排的复杂系统,展现了技术路线的多样性和创新性。
03 数据丰富化:标注与画像
数据清洗和集成解决了数据的质量和一致性问题,但要让数据真正"会说话",还需要为其添加语义标签和元数据。那么,LLM如何为数据添加这些信息,使其更容易被理解和利用呢?
数据丰富化专注于通过添加语义标签和描述性元数据,或发现互补数据集来增强数据集,增加其对下游任务的价值。
研究重点关注数据标注和数据画像两个关键子任务。
1.数据标注
数据标注旨在为原始数据中的元素附加语义或结构标签。现有方法可分为五类:
-
第一类是基于提示的端到端标注,利用精心设计的提示指导LLM执行各种标注任务。CHORUS设计结合正确标注演示、序列化数据样本、元数据、领域知识和输出格式指导的提示。EAGLE采用任务特定提示,选择性标记关键或不确定样本(通过预测分歧识别),结合零样本LLM标注和主动学习,在低数据设置中增强泛化。
-
第二类是RAG辅助的上下文标注,通过检索相关上下文来丰富LLM提示以增强标注。LLMAnno通过检索最相关的训练示例并构建上下文丰富的提示来解决大规模命名实体识别的低效性(如标注10,000份简历)。RACOON从知识图中提取实体相关知识(如标签和三元组),将其转换为简洁的上下文表示,并将其纳入提示以增强语义类型标注准确性。
-
第三类是微调增强的标注,通过在任务特定数据集上微调LLM来改进专门领域的标注。PACTA结合低秩适应和提示增强,将提示分解为可重用模式并在不同上下文中训练,以减少列类型标注中的提示敏感性。
-
第四类是混合LLM-ML标注,将LLM与ML模型结合,通过知识蒸馏和协作编排改进标注准确性和鲁棒性。CanDist采用基于蒸馏的框架,其中LLM使用任务特定提示生成多个候选标注,SLM(如RoBERTa-Base)随后蒸馏和过滤它们。分布细化机制更新SLM的分布,逐渐纠正假阳性并提高对噪声数据的鲁棒性。
-
第五类是工具辅助的基于智能体的标注,使用配备专门工具的LLM智能体处理复杂的标注任务。STA Agent利用基于ReAct的LLM智能体进行语义表格标注,结合预处理(如拼写纠正、缩写扩展)与列主题检测、知识图丰富和上下文感知选择的工具,同时通过Levenshtein距离减少冗余输出。
数据标注方法从简单的提示驱动到RAG增强、微调优化,再到混合架构和智能体系统,形成了从简单到复杂、从单一到集成的完整技术生态。
2.数据画像
数据画像(Data Profiling)涉及系统分析数据集以推导其结构、统计和语义属性,以及识别与相关数据集的关联,从而产生有助于数据理解和质量评估的丰富元数据。现有方法可分为两类:
-
第一类是基于提示的端到端画像,使用精心设计的提示指导LLM对数据集进行画像。AutoDDG指示LLM基于数据集内容和预期用途生成面向用户和搜索优化的描述。LEDD采用任务特定指令的提示进行数据湖画像,包括将聚类总结为分层类别和细化用于语义搜索的自然语言查询。
-
第二类是RAG辅助的上下文画像,将多种检索技术与LLM推理结合,改进画像准确性和一致性,特别是在元数据稀疏或不完整时。LLMDap采用向量搜索收集相关文本证据,包括科学文章、文档和元数据片段,生成语义一致的数据集级画像(如数据集描述、变量定义和结构化元数据)。Pneuma集成混合检索方法,如全文和向量搜索,从数据库或数据湖中识别相关表,使用LLM生成语义列描述并细化和重排序检索结果。
数据画像技术的发展表明,通过结合提示工程和检索增强技术,LLM能够生成更准确、更全面的数据集元数据,为数据理解和发现提供了强有力的支持。
评估体系与数据集
了解了LLM在数据准备中的各种应用方法,我们自然会关心一个问题:如何客观评估这些方法的效果?有哪些标准化的数据集和评估指标可以供研究者使用?
为了支持LLM增强数据准备的系统评估,研究总结了代表性数据集,提供了跨多个维度的详细信息,包括类别、任务、模态、粒度、数据量和评估指标。
数据集按处理单元可分为记录级(如元组、单元格、元组对)、模式级(如属性对、模式元素)和对象级(如表、文档)。
01 典型评估数据集示例
记录级数据集以元组、单元格或记录对为基本处理单元,主要面向单条数据层面的清洗、匹配与补全任务,是数据预处理最基础的评测粒度。典型代表为WDC Product数据集,该数据集汇集电商平台多源异构商品记录对,标注了记录是否对应现实同一商品,常用于实体匹配、错误检测与去重任务的效果评估。
模式级数据集以属性、字段、表结构等模式元素为评测对象,聚焦多源数据的结构对齐与字段映射任务。典型代表为OMOP数据集,包含多个异构医疗数据库的属性集合与标准模式,用于评估跨数据源的模式匹配与属性对齐能力。
对象级数据集以完整数据表、文档等整体数据对象为处理单元,面向表级剖析、大规模集成与数据丰富化等宏观任务。典型代表为AGNews数据集,由分类标注的新闻文档构成,常用于数据增强、自动标注与语义保持性的端到端评估。
02 评估指标
评估指标从多个维度衡量数据准备方法的质量。
-
准备正确性评估包括操作精确度(如准确率、精确率、F1 分数)和操作覆盖率(如召回率、匹配率),主要用于记录级实体匹配、错误修复、模式级属性映射等任务。 -
准备鲁棒性评估包括 ROC 和 AUC 等指标,反映方法在不同数据分布和结构复杂性下的一致性,多用于噪声多、分布差异大的 WDC、BioSQL 等数据集。 -
丰富化和排序质量评估包括检索排序质量(如 P@k、MRR)和丰富化完整性(如 Recall@GT、命中率),主要应用于 AGNews、IMDB 等对象级数据增强与检索任务。 -
语义保持评估包括 ROUGE 和余弦相似度等指标,评估生成输出与参考内容之间的语义一致性,常用于文本增强、数据补全、模式语义匹配等生成类数据准备任务。
未来挑战与研究方向
虽然LLM增强的数据准备方法已经取得了显著进展,展现了广阔的应用前景,但我们也不得不正视一个现实:还有哪些关键问题亟待解决?未来的研究方向在哪里?
尽管LLM增强的数据准备方法取得了显著进展,但仍面临诸多挑战。
在数据清洗方面,需要探索全局感知和语义灵活的清洗方法,整合LLM与外部分析引擎,提供全局统计和约束,实现局部实例和数据集级信号的联合推理。
在数据集成方面,需要开发较少依赖模式描述和提示的技术,直接从数据实例(如值分布和共现模式)推断语义对应关系,即使在模式信息缺失或误导时也能实现鲁棒集成。
在数据丰富化方面,需要开发新颖的交互框架,其中LLM可以解释其推理,就模糊情况征求反馈,并基于人类指导逐步细化丰富化任务,将用户视为系统的核心组件。
总体而言,未来研究需要在可扩展性、可靠性、交互性和评估标准等方面取得突破,才能真正实现LLM增强数据准备方法的广泛应用。
结语
这项综述系统梳理了LLM增强数据准备领域的最新进展,涵盖了数据清洗、数据集成和数据丰富化三大核心任务。
研究分析了LLM如何通过指令驱动自动化、语义感知推理、跨域泛化和知识增强处理等能力重塑传统数据准备工作流。通过统一的分类法,研究组织典型方法,提炼其设计原则,并讨论了现有LLM增强方法的局限性。研究还总结了代表性数据集和指标,以促进这些方法的全面评估,并识别了开放挑战,概述了未来研究方向。
随着数据量的持续增长和数据复杂性的不断提高,LLM增强的数据准备方法有望成为下一代数据管理系统的核心组件。然而,要实现这一愿景,仍需要在可扩展性、可靠性和评估协议等方面取得突破。这项综述为研究人员和实践者提供了宝贵的参考,有助于推动该领域的进一步发展。
论文标题:Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs
论文链接:https://huggingface.co/papers/2601.17058
项目仓库:https://github.com/weAIDB/awesome-data-llm
> 本文由 Intern-S1 等 AI 生成,机智流编辑部校对
-- 完 --