NIPS 2025 Spotlight | 港大提出TreeSynth方法,一句话生成百万规模数据集

机器之心 2025-10-03 11:36
NIPS 2025 Spotlight | 港大提出TreeSynth方法,一句话生成百万规模数据集图1

本文第一作者王升,陈鹏安与周靖淇均来自香港大学。通讯作者为香港大学计算机科学系吴川教授与孔令鹏教授。其他作者还包括来自香港大学的李沁桐、董经纬、高佳慧,以及香港中文大学的薛博阳、江继越。


想象一下,你接手了一个新项目,需要在没有数据的情况下提升模型表现。“TreeSynth” 就这样起源于作者们最初的构想:“如何通过一句任务描述生成海量数据,完成模型训练?” 同时,大规模 scalibility 对合成数据的多样性提出了新的要求。 相比之下,传统的数据合成方法就像一个缺乏规划的农夫漫无目的地四处撒种,结果发现许多肥沃的土地被遗漏,而某些贫瘠的角落却种满了庄稼。


这正是当前数据合成领域面临的核心挑战:如何从 0 系统性地生成多样化、高质量的训练数据?现有方法往往受限于模型偏见、种子数据局限和低变种 prompt,导致合成数据缺乏多样性,分布不均匀。更为关键的是,随着数据规模的增加,这种问题会变得愈发严重。


NIPS 2025 Spotlight | 港大提出TreeSynth方法,一句话生成百万规模数据集图2


基于这一挑战,香港大学和香港中文大学的研究团队提出了 TreeSynth—— 一种受决策树启发的树引导子空间数据合成方法。它从整个数据空间的根节点出发,通过层层分支将复杂的数据领域逐步细分,直到每个叶节点都代表一个独特且互不重叠的数据子空间,最终让整棵 "树" 枝繁叶茂,确保全面而均衡地覆盖整个知识领域。形象地讲,TreeSynth 通过空间划分将 “均匀地” 数据合成转化为了一个 “填色游戏”。


NIPS 2025 Spotlight | 港大提出TreeSynth方法,一句话生成百万规模数据集图3



从决策树到数据空间:TreeSynth 的核心洞察


TreeSynth 的核心创新源于一个巧妙的类比:将数据合成问题映射到决策树的空间分割机制上。


在传统的机器学习中,决策树具有两个关键特性:互斥性(每个样本只能属于一个叶节点)和穷尽性(所有样本都必须分配到某个叶节点)。TreeSynth 巧妙地将这一机制迁移到数据合成领域:如果我们将整个任务的数据空间视为决策树的根节点,那么通过层层分割,我们可以将其分解为多个互不重叠且完全覆盖原空间的子空间。


这种方法带来了两大显著优势:


1. 多样性保证:不同叶节点的互斥性确保了跨子空间的变化,从而保证样本多样性

2. 全面覆盖:叶节点的穷尽性确保对全面数据的采样,防止样本坍塌


两阶段工作流程:分而治之的智慧


TreeSynth 采用两阶段的工作流程:数据空间分割子空间数据合成


NIPS 2025 Spotlight | 港大提出TreeSynth方法,一句话生成百万规模数据集图4


阶段一:数据空间分割


这个阶段类似于决策树的构建过程,包含两个关键步骤:


1. 标准确定(Criterion Determination):对于任意数据空间,首先利用 LLM 生成多样化的 pivot samples

来近似整个空间。然后,另一个 LLM 分析这些样本,确定一个核心标准,将样本最优地划分为互斥的属性值。

2. 子空间覆盖(Subspace Coverage):由于 pivot samples 数量有限,可能无法完全覆盖原始空间。因此,需要补充潜在的属性值,确保子空间能够穷尽覆盖整个数据空间。


通过递归应用这两个步骤,TreeSynth 构建出一个完整的空间分割树,将整个数据空间分解为众多互斥且互补的原子子空间。


阶段二:子空间数据合成


在每个叶节点(原子子空间)内,TreeSynth 收集从根节点到该叶节点的完整路径描述,然后指导 LLM 在该特定约束下生成样本。最终,通过汇集所有叶节点的数据,获得具有高多样性、均衡分布和全面覆盖的最终数据集。


超越合成:TreeSynth 引导的数据平衡


TreeSynth 的价值不仅在于从零开始的数据合成,还能优化现有数据集。通过为现有数据集构建空间分割树,每个样本都可以被系统性地路由到唯一的叶节点。这样就能清晰地看到数据集在整个空间中的分布模式。如此,对于样本过多的子空间进行随机下采样,而对于样本不足的子空间则利用 TreeSynth 进行数据增强,最终获得更加均衡和全面的数据分布。


案例分析:从抽象到具体


NIPS 2025 Spotlight | 港大提出TreeSynth方法,一句话生成百万规模数据集图5


以 GSM8K 风格的数学问题生成为例,TreeSynth 的工作流程如下:


1. 根节点定义:整个数据空间被定义为 "GSM8K 风格的数学问题"

2. 首层分割:通过分析样本特征,确定 "数学运算类型" 作为第一层分割标准,将空间分为加减法、乘除法、开方、取模等子空间

3. 递归深化:对每个子空间继续分割,比如加减法子空间可能进一步按 "问题复杂度" 分割

4. 叶节点合成:在每个最终的原子子空间内生成具体的数学问题


这种系统性的分割确保了生成的数据集既具有全面的覆盖性,又保持了各个维度上的平衡分布。


实验验证:全方位性能提升


研究团队在数学推理(GSM8K、MATH)、代码生成(MBPP、HumanEval)和心理学(SimpleToM)等多个基准任务上进行了全面评估。


与基线方法的比较


实验对比了人工标注数据和三种代表性的 LLM 数据合成方法:



显著的性能提升


实验结果显示,TreeSynth 在所有基准测试中都取得了一致的性能提升:


NIPS 2025 Spotlight | 港大提出TreeSynth方法,一句话生成百万规模数据集图6



NIPS 2025 Spotlight | 港大提出TreeSynth方法,一句话生成百万规模数据集图7


更令人印象深刻的是,TreeSynth 展现出了优秀的可扩展性。随着数据规模的增加,模型性能呈现线性甚至更好的增长轨迹,这证明了该方法在大规模数据合成场景下的稳健性。


数据多样性的显著改善


NIPS 2025 Spotlight | 港大提出TreeSynth方法,一句话生成百万规模数据集图8


除了下游任务性能,TreeSynth 在数据多样性指标上也显著超越基线方法,在某些测试中多样性提升高达 45%。同时,t-SNE 可视化也直观地展示了 TreeSynth 卓越的数据多样性,生成的数据在嵌入空间中分布更加均匀和分散。这直接验证了树引导分割机制在防止数据重复和空间坍塌方面的有效性。


结语与展望


TreeSynth 为数据合成领域带来了全新的视角。通过将决策树的空间分割智慧迁移到数据生成任务中,它成功地解决了现有方法在多样性和覆盖性方面的不足。实验结果不仅验证了其在多个领域的有效性,更重要的是展现了其在大规模场景下的可扩展性。


这项工作的意义不仅在于提出了一种新的数据合成方法,更在于提供了一个系统性思考数据生成问题的新框架。正如一位园丁需要整体规划种植布局一样,模型的训练也需要系统性地设计数据分布。


未来值得探索的方向:



TreeSynth 开启了从 0 合成数据领域的新篇章,为构建更加多样化、全面覆盖的训练数据集提供了强有力的工具。



NIPS 2025 Spotlight | 港大提出TreeSynth方法,一句话生成百万规模数据集图9


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
IP
more
苹果M5 iPad Pro上手,这设计把我看傻了
28nm试产 + 40nm风险生产!晶合集成赴港IPO:全球第九、大陆第三!
曾经的iPhone比你想象的更“厉害”,现在的iPhone比你以为的更“拉垮”
NIPS 2025 Spotlight | 港大提出TreeSynth方法,一句话生成百万规模数据集
刘强东又将收获一个IPO,京东工业第四次更新招股书
珠海半导体公司,开启IPO
苹果官网突然宣布:iPhone11ProMax即将被淘汰!
iPhone17系列带动快充产品升级!快充芯片新品一览!
苹果M5 iPad Pro泄露,好猛!
概伦电子21.74亿并购锐成芯微与纳能微,打造“EDA+IP”双引擎
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号