本文来自PRO会员通讯内容,文末关注「机器之心PRO会员」,查看更多专题解读。

引言:在 2025 年里,围绕合成数据的研究取得了进展。一方面,学者们对模型在合成数据自循环训练下的崩溃机理有了更系统的揭示。另一方面,业界逐渐建立起合成数据在生成、预训练、微调、后训练与评估等环节的应用流程。同时,一系列新提出的策略也为避免模型退化提供了可能路径,使合成数据在大模型发展中的作用更加清晰。
目录
合成数据为什么会在迭代训练中逐代污染训练集?模型在早期和晚期崩溃表现出了怎样的差异?不同类型生成模型(LLM、VAE、GMM)崩溃机制有何共性和差异?...
合成数据在预训练、微调、后训练、评估各阶段分别发挥了哪些功能?在什么情况下会反而降低模型性能?...
「Token-Level Editing」、「黄金比例混合」和「递归训练样本控制」等方法各自解决了崩溃问题的哪一环?在实际训练中,如何量化「合成数据带来的信息增益」以保证模型泛化能力?...
01 一年过去,关于合成数据的 「毒性」研究有何新发现?
1、去年 7 月,牛津、剑桥等学者在 Nature 发表的封面论文(Shumailov 等人)指出,使用合成数据训练时,模型会出现「崩溃」(model collapse)现象。[2-1]
2、这种崩溃是一个退化过程,模型生成的文本逐代污染后续训练数据集,新一代模型逐步丧失对真实数据分布的认识,输出也越来越同质化。[2-1]
① 研究表明,在早期崩溃阶段,模型开始丢失分布尾部(低概率事件)的信息。
② 在晚期崩溃阶段,模型将收敛到同原始分布几乎没有任何相似之处。
③ 这一过程的发生,同模型设计、学习过程和所用数据质量有关。
3、经 Shumailov 等人验证,模型崩溃现象多发生于语言模型、变分自编码器(VAE)和高斯混合模型(GMM)等多种生成模型中。[2-1]
4、不过,也有研究认为模型崩溃的风险被夸大了。今年 3 月斯坦福和哈佛大学的研究者指出,大多数现有合成数据训练的崩溃实验基于非现实的假设条件。在符合实际数据治理和训练流程的场景下,常见的崩溃问题可以通过引入真实数据等措施避免。[2-2]
5、他们分析认为,大多数模型崩溃所依赖的假设和真实世界数据混合训练条件有出入,因此在现实应用中保持一定比例的真实数据并采取正常的训练流程,许多所谓的模型崩溃问题可被缓解。[2-2]
02 合成数据全面上场,在训练流程中扮演了哪些角色?
如果说模型崩溃揭示了合成数据使用不当的风险,那么从另一个角度看,合成数据在模型训练中依然发挥着不可替代的作用。为了在风险与效用之间找到平衡,业界目前提出了较为系统化的合成数据生成与应用框架。
表:合成数据在模型训练各阶段中的使用情况[2-3]-[2-13]...
