不用任何人类语言训练，大模型反而更强了？

机器之心编辑部

如果有一天，大模型不再依赖人类语言训练，会发生什么？

过去几年，大模型能力的飞跃几乎都建立在一个前提之上：海量文本数据。互联网、书籍、代码、论文，几乎所有人类留下的语言痕迹，都被当作训练数据。但随着高质量文本逐渐逼近枯竭，研究者开始提出一个更激进的问题：

语言，真的必须是智能的起点吗？

最新的一项研究给出了一个令人意外的答案：也许不需要。他们假设让语言模型在学习语言之前，先在完全非语言的合成数据上进行训练。

论文使用了一种完全不同的数据来源：在神经细胞自动机（Neural Cellular Automata, NCA）生成的数据上对 Transformer 进行预预训练（pre-pre-training）—— 这些数据完全是合成的，不包含任何语言内容。

结果显示，这种方法能够将语言建模性能提升最多 6%，将训练收敛速度加快 40%，并增强模型在下游任务中的推理能力。

这种方式的效果甚至超过了在自然文本上进行预预训练（pre-pre-training）的模型。

论文标题：Training Language Models via Neural Cellular Automata
论文地址：https://arxiv.org/pdf/2603.10055
博客：https://hanseungwook.github.io/blog/nca-pre-pre-training/

自然语言，真的是通向智能的唯一道路吗？

本文的核心假设是：语言之所以适合用于预训练，关键并不在于它的语义，而在于它所具备的结构。如果这一点成立，那么那些同样具有丰富结构、但并非语言形式的数据，理论上也可能被用来训练智能系统。

在得出这一假设之后，本文提出利用 NCA 生成合成的、非语言数据，用于对大语言模型进行预预训练（pre-pre-training），即先在合成数据上训练，再在自然语言上继续训练。

值得一提的是，预预训练是本文提出的一种训练范式，模型先学习 NCA 序列，然后再在语料库上预训练，最后微调。

NCA 数据具有丰富的时空结构，其统计特性在某些方面与自然语言相似，同时又可控且易于大规模低成本生成。

另外，NCA 是对康威生命游戏（Conway’s Game of Life）（Gardner，1970）等系统的一种推广：它通过用神经网络替代固定的动力学规则，来定义系统的演化过程，并能够在空间局部规则的基础上生成多样化的数据分布。

这种机制能够产生任意规模的长程时空模式（见图 1），并呈现出重尾（heavy-tailed）、齐夫定律的 token 分布，这一统计特性与自然数据十分相似。

在这种框架下，每一个随机采样得到的神经网络都会对应一套独特的状态转移规则，从而在网格上产生丰富多样的时空动态演化。

当这些系统在较长时间尺度上不断展开运行时，便会涌现出一系列复杂行为：从快速收敛到固定吸引子状态的简单模式，到随着时间逐渐演化形成的复杂结构，呈现出极为丰富的动态形态谱系。

这些 NCA 的演化轨迹会被离散化为序列（通过 2×2 的图块 patch 进行分块，类似视觉 Transformer 的处理方式），随后输入到一个标准 Transformer 模型中，并通过下一 token 预测进行训练。

关键之处在于：由于每一条序列都对应着一条独特的潜在演化规则（latent rule），模型要想正确预测接下来会发生什么，就必须在上下文中推断出这条规则。

而这种在上下文中推断规则的能力，正是语言模型中许多核心推理能力得以产生的基础。

出人意料的结果

在相同的 token 预算（每种设置均为 1.64 亿 tokens）下，使用 NCA 进行预预训练（pre-pre-training）的模型优于以下几种方案：

从零开始训练；
使用自然语言数据（C4）进行预预训练；
使用其他合成数据（如 Dyck）进行预预训练。

这种优势在网页文本、数学以及代码任务上都得到很好的体现。

更重要的是，这种提升不仅仅体现在收敛速度更快，还体现在最终困惑度（perplexity）更低，也就是说模型在最终性能上同样更强。

这些在语言建模上的性能提升，也能够迁移到真实的推理基准测试中：

更令人惊讶的是，作者发现：在相同规模的数据条件下，这种非语言的 NCA 数据表现反而优于自然语言数据。

因此，作者进一步进行了测试：如果给 C4 大约 10 倍的数据会发生什么？

在新的实验中，他们将 C4 的预预训练（pre-pre-training）规模扩大到 16 亿 tokens，而 NCA 仍然保持在 1.64 亿 tokens。

即便在这种数据规模明显占优的情况下，NCA 训练的模型依然表现更好：

收敛速度快 1.4 倍；
最终困惑度（perplexity）降低约 5%。

1.64 亿 tokens 的自动机数据，击败了 16 亿 tokens 的自然语言。

作者认为，这种差异反映了不同数据源在不同规模下所教会模型的能力差异。

在 16 亿 tokens 的规模下，这仍然远低于计算最优规模（compute-optimal scale），C4 数据主要让模型学到的是浅层、局部的统计模式。

而每一条 NCA 序列都会迫使模型：在上下文中推断出一个潜在规则（即 in-context learning），并在后续预测中持续一致地应用这一规则。

换句话说，相比于自然语言中大量重复的语言模式，NCA 数据在每个 token 上提供了更多样的函数结构。

这种每个 token 所携带的高多样性规则学习信号，似乎更高效地帮助模型构建能够迁移到语言任务中的通用表示能力。

是什么驱动了这种迁移？

首先，作者发现注意力是核心载体。重新初始化实验表明，注意力层承载了最具可迁移性的计算原语。而 MLP 层更多编码的是领域特定的知识，只有在源任务与目标任务相匹配时，这些知识才具有可迁移性。

其次是复杂度需要匹配。最优的 NCA 复杂度会随着应用领域而变化：代码任务更受益于较简单的动态规则，而数学和网页文本任务则更偏好更复杂的动态结构。这为针对特定领域进行定制化训练提供了一种新的调节手段。

接着是结构，而非语义。NCA 数据完全不包含任何语言内容，却依然能够训练模型去跟踪长程依赖关系并推断潜在规则，而这些能力正是语言理解与推理所需要的核心能力。

最后是效率优于规模。更多的合成数据并不一定带来更好的效果。相比单纯增加数据量，校准数据生成机制的复杂度更为关键，这使得在更少计算资源下实现更高效的训练成为可能。

更纯粹的训练信号

在 token 规模较小的情况下，自然语言预训练主要让模型学到的是浅层的统计模式。模型往往依赖语义捷径（semantic shortcuts）和词语共现先验（co-occurrence priors）来完成预测，而不是从结构本身学习推理能力。

相比之下，NCA 序列中完全不存在这样的语义捷径。

每一条 NCA 演化轨迹都由一条隐藏的状态转移规则生成，这条规则来自一个随机采样的神经网络，模型必须仅通过上下文信息来推断它。由于没有任何语义内容可以依赖，每一个 token 都在迫使模型进行上下文规则推断：观察序列 → 假设潜在规则 → 在后续预测中持续应用该规则。

这一过程实际上复现了语言模型的一项核心能力：上下文学习。

此外，NCA 的规则来自可计算函数的一个通用类别，其中一些甚至可以实现图灵完备系统。因此，这一规则分布的空间过于庞大，无法通过记忆来覆盖。模型不得不学习一种通用的规则推断机制，而不是简单记住某些特定规则。

实验结果也支持这一点：最具可迁移性的结构主要存在于注意力层，而不是 MLP 层。已有研究表明，上下文学习能力的出现与归纳头（induction heads）的形成密切相关，这是一种注意力电路，可以从序列前部复制并应用模式到后续位置。

而 NCA 的预预训练过程恰恰只奖励这种行为，因此很可能在语言训练开始之前，就更早且更稳固地促成这些注意力电路的形成。

超越「一刀切」的训练方式

这项研究为语言模型训练打开了一条全新的控制维度。过去，人们通常将训练数据分布视为既定条件；而现在，可以通过调节合成数据的结构，使其更好地匹配特定目标领域。

例如：对于代码任务，可以使用更简单的 NCA 规则；而在基因序列建模等场景中，则可以设计具有更丰富长程动态结构的规则。

这一方向的长期愿景是：基础模型先通过完全合成的数据获得推理能力，再通过一小部分精心筛选的自然语言语料学习语义。

这样一来，我们或许能够构建出一种新的模型体系，能够进行推理，却不会在一开始就继承人类文本中的各种偏见。

因此，问题已经不再是：合成预训练是否可行，而是：它究竟能够走多远。

参考链接：https://hanseungwook.github.io/blog/nca-pre-pre-training/

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com