
如果有一天,大模型不再依赖人类语言训练,会发生什么?
过去几年,大模型能力的飞跃几乎都建立在一个前提之上:海量文本数据。互联网、书籍、代码、论文,几乎所有人类留下的语言痕迹,都被当作训练数据。但随着高质量文本逐渐逼近枯竭,研究者开始提出一个更激进的问题:
语言,真的必须是智能的起点吗?
最新的一项研究给出了一个令人意外的答案:也许不需要。他们假设让语言模型在学习语言之前,先在完全非语言的合成数据上进行训练。
论文使用了一种完全不同的数据来源:在神经细胞自动机(Neural Cellular Automata, NCA)生成的数据上对 Transformer 进行预预训练(pre-pre-training)—— 这些数据完全是合成的,不包含任何语言内容。
结果显示,这种方法能够将语言建模性能提升最多 6%,将训练收敛速度加快 40%,并增强模型在下游任务中的推理能力。
这种方式的效果甚至超过了在自然文本上进行预预训练(pre-pre-training)的模型。


论文标题:Training Language Models via Neural Cellular Automata
论文地址:https://arxiv.org/pdf/2603.10055
博客:https://hanseungwook.github.io/blog/nca-pre-pre-training/
自然语言,真的是通向智能的唯一道路吗?
本文的核心假设是:语言之所以适合用于预训练,关键并不在于它的语义,而在于它所具备的结构。如果这一点成立,那么那些同样具有丰富结构、但并非语言形式的数据,理论上也可能被用来训练智能系统。
在得出这一假设之后,本文提出利用 NCA 生成合成的、非语言数据,用于对大语言模型进行预预训练(pre-pre-training),即先在合成数据上训练,再在自然语言上继续训练。
值得一提的是,预预训练是本文提出的一种训练范式,模型先学习 NCA 序列,然后再在语料库上预训练,最后微调。

NCA 数据具有丰富的时空结构,其统计特性在某些方面与自然语言相似,同时又可控且易于大规模低成本生成。
另外,NCA 是对康威生命游戏(Conway’s Game of Life)(Gardner,1970)等系统的一种推广:它通过用神经网络替代固定的动力学规则,来定义系统的演化过程,并能够在空间局部规则的基础上生成多样化的数据分布。
这种机制能够产生任意规模的长程时空模式(见图 1),并呈现出重尾(heavy-tailed)、齐夫定律的 token 分布,这一统计特性与自然数据十分相似。

在这种框架下,每一个随机采样得到的神经网络都会对应一套独特的状态转移规则,从而在网格上产生丰富多样的时空动态演化。
当这些系统在较长时间尺度上不断展开运行时,便会涌现出一系列复杂行为:从快速收敛到固定吸引子状态的简单模式,到随着时间逐渐演化形成的复杂结构,呈现出极为丰富的动态形态谱系。

这些 NCA 的演化轨迹会被离散化为序列(通过 2×2 的图块 patch 进行分块,类似视觉 Transformer 的处理方式),随后输入到一个标准 Transformer 模型中,并通过下一 token 预测进行训练。
关键之处在于:由于每一条序列都对应着一条独特的潜在演化规则(latent rule),模型要想正确预测接下来会发生什么,就必须在上下文中推断出这条规则。
而这种在上下文中推断规则的能力,正是语言模型中许多核心推理能力得以产生的基础。
出人意料的结果
在相同的 token 预算(每种设置均为 1.64 亿 tokens) 下,使用 NCA 进行预预训练(pre-pre-training) 的模型优于以下几种方案:
从零开始训练;
使用自然语言数据(C4)进行预预训练;
使用其他合成数据(如 Dyck)进行预预训练。
这种优势在网页文本、数学以及代码任务上都得到很好的体现。
更重要的是,这种提升不仅仅体现在收敛速度更快,还体现在最终困惑度(perplexity)更低,也就是说模型在最终性能上同样更强。


这些在语言建模上的性能提升,也能够迁移到真实的推理基准测试中:

更令人惊讶的是,作者发现:在相同规模的数据条件下,这种非语言的 NCA 数据表现反而优于自然语言数据。
因此,作者进一步进行了测试:如果给 C4 大约 10 倍的数据会发生什么?
在新的实验中,他们将 C4 的预预训练(pre-pre-training)规模扩大到 16 亿 tokens,而 NCA 仍然保持在 1.64 亿 tokens。
即便在这种数据规模明显占优的情况下,NCA 训练的模型依然表现更好:
收敛速度快 1.4 倍;
最终困惑度(perplexity)降低约 5%。

1.64 亿 tokens 的自动机数据,击败了 16 亿 tokens 的自然语言。
作者认为,这种差异反映了不同数据源在不同规模下所教会模型的能力差异。
在 16 亿 tokens 的规模下,这仍然远低于计算最优规模(compute-optimal scale),C4 数据主要让模型学到的是浅层、局部的统计模式。
而每一条 NCA 序列都会迫使模型:在上下文中推断出一个潜在规则(即 in-context learning),并在后续预测中持续一致地应用这一规则。
换句话说,相比于自然语言中大量重复的语言模式,NCA 数据在每个 token 上提供了更多样的函数结构。
这种每个 token 所携带的高多样性规则学习信号,似乎更高效地帮助模型构建能够迁移到语言任务中的通用表示能力。
是什么驱动了这种迁移?
首先,作者发现注意力是核心载体。重新初始化实验表明,注意力层承载了最具可迁移性的计算原语。而 MLP 层更多编码的是领域特定的知识,只有在源任务与目标任务相匹配时,这些知识才具有可迁移性。
其次是复杂度需要匹配。最优的 NCA 复杂度会随着应用领域而变化:代码任务更受益于较简单的动态规则,而数学和网页文本任务则更偏好更复杂的动态结构。这为针对特定领域进行定制化训练提供了一种新的调节手段。
接着是结构,而非语义。NCA 数据完全不包含任何语言内容,却依然能够训练模型去跟踪长程依赖关系并推断潜在规则,而这些能力正是语言理解与推理所需要的核心能力。
最后是效率优于规模。更多的合成数据并不一定带来更好的效果。相比单纯增加数据量,校准数据生成机制的复杂度更为关键,这使得在更少计算资源下实现更高效的训练成为可能。
更纯粹的训练信号
在 token 规模较小的情况下,自然语言预训练主要让模型学到的是浅层的统计模式。模型往往依赖语义捷径(semantic shortcuts)和词语共现先验(co-occurrence priors)来完成预测,而不是从结构本身学习推理能力。
相比之下,NCA 序列中完全不存在这样的语义捷径。
每一条 NCA 演化轨迹都由一条隐藏的状态转移规则生成,这条规则来自一个随机采样的神经网络,模型必须仅通过上下文信息来推断它。由于没有任何语义内容可以依赖,每一个 token 都在迫使模型进行上下文规则推断:观察序列 → 假设潜在规则 → 在后续预测中持续应用该规则。
这一过程实际上复现了语言模型的一项核心能力:上下文学习。
此外,NCA 的规则来自可计算函数的一个通用类别,其中一些甚至可以实现图灵完备系统。因此,这一规则分布的空间过于庞大,无法通过记忆来覆盖。模型不得不学习一种通用的规则推断机制,而不是简单记住某些特定规则。
实验结果也支持这一点:最具可迁移性的结构主要存在于注意力层,而不是 MLP 层。已有研究表明,上下文学习能力的出现与归纳头(induction heads)的形成密切相关,这是一种注意力电路,可以从序列前部复制并应用模式到后续位置。
而 NCA 的预预训练过程恰恰只奖励这种行为,因此很可能在语言训练开始之前,就更早且更稳固地促成这些注意力电路的形成。
超越「一刀切」的训练方式
这项研究为语言模型训练打开了一条全新的控制维度。过去,人们通常将训练数据分布视为既定条件;而现在,可以通过调节合成数据的结构,使其更好地匹配特定目标领域。
例如:对于代码任务,可以使用更简单的 NCA 规则;而在基因序列建模等场景中,则可以设计具有更丰富长程动态结构的规则。
这一方向的长期愿景是:基础模型先通过完全合成的数据获得推理能力,再通过一小部分精心筛选的自然语言语料学习语义。
这样一来,我们或许能够构建出一种新的模型体系,能够进行推理,却不会在一开始就继承人类文本中的各种偏见。
因此,问题已经不再是:合成预训练是否可行,而是:它究竟能够走多远。
参考链接:https://hanseungwook.github.io/blog/nca-pre-pre-training/
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com