谷歌Jeff Dean重磅论文：弹性大规模分布式预训练终于可行了

编辑｜Panda

弹性 AI 预训练已经推进到了下一个前沿！没有意外：来自谷歌。

据介绍，他们提出的 Decoupled DiLoCo 是一种革命性的分布式训练技术，能够利用全球各地的异构硬件进行训练，并且即使当硬件发生故障时，系统也不会停止运行！

这项重磅研究成果引发了广泛关注，论文 Leads 作者之一的 Arthur Douillard 在 X 上的分享推文获得了超 260 万次浏览！

值得注意的是，著名研究者、Google DeepMind 和 Google Research 首席科学家 Jeff Dean 也是作者之一。他也发布了多条推文介绍这项成果。

推文中，他还回忆了自己 14 年前的一篇一作论文《Large Scale Distributed Deep Networks》。在这篇 NeurIPS 2012 论文中，他们就已经证明大规模训练和异步技术可以用于训练非常庞大的神经网络，并以容错的方式将训练任务分散到数千台机器上。

而现在，Decoupled DiLoCo 有望将这个理念真正变成切实可行的大规模工程实践。

论文标题：Decoupled DiLoCo for Resilient Distributed Pre-training
论文地址：https://arxiv.org/pdf/2604.21428v1

背景：规模越大，故障越频繁

要理解这项工作的意义，先要理解现代 AI 训练的一个根本困境。

今天训练大语言模型，普遍采用一种叫做 SPMD（单程序多数据）的并行方式。简单来说，就像一个工厂里所有工人必须同步操作一条流水线 —— 每个人都在做自己那一步，但所有人必须同时完成，才能推进到下一步。任何一个工位出了问题，整条流水线就得停下来等。

这在小规模下没什么问题。但当集群规模扩展到数十万乃至数百万块芯片时，概率就开始作怪了。

论文里有一个直接的计算：假设每块芯片平均一年才会出一次故障，听起来已经很可靠了。但如果集群里有 240 万块芯片，整个集群的平均故障间隔就缩短到不足一分钟。在这个规模下，硬件故障可不能再被视为意外了，而是训练过程中的日常。

现有的应对方式，是所谓的「弹性训练」：检测到某台机器宕机后，重新调整集群配置，用剩余的健康机器继续跑。但这个重配置过程本身就要耗费大量时间，导致整个集群在等待期间无法做有效计算。

论文的模拟数据显示，在 240 万块芯片的规模下，即使有弹性机制，实际有效计算时间（即「Goodput」，有效吞吐率）也只有 40%—— 也就是说，有 60% 的时间，集群处于某种形式的等待或重配置状态，白白浪费算力。

打破「步调一致」的枷锁

Decoupled DiLoCo 的核心思路，是彻底放弃让所有机器保持同步这个前提。

这套框架把整个训练集群拆分成若干个独立的「学习器」（Learner）。每个学习器各自用自己分到的数据独立训练，不需要等待其他学习器。当某个学习器出了故障，其余的学习器完全感知不到，继续自己的训练节奏。这就好比把一个大型联合考场拆成了若干个独立考场，一个考场里出了火情疏散，不影响其他考场里的学生继续答题。

那各个学习器之间怎么协同，让最终训练出的是同一个模型？

这里引入了一个轻量级的「同步器」（Syncer）。同步器运行在相对稳定的 CPU 资源上，负责周期性地收集各个学习器的参数更新，做一次合并，再把合并后的结果推送回去。

关键在于：同步器不需要等所有学习器都准备好才开始合并。只要有足够数量（论文称为「最小法定数」，即 Minimum Quorum）的学习器汇报了自己的进度，同步器就可以开始工作，出故障的那个学习器直接跳过，等它恢复后再补上。

此外，由于不同学习器的计算速度可能不同（尤其是混用了新旧两代芯片时），一个跑得快的学习器在同步间隔里处理的数据会比慢的多。为了避免快的学习器在合并时「一票顶多票」，同步器引入了基于处理 token 数量的动态权重机制，让合并结果更公平地反映每个学习器的实际贡献。

还有一个细节叫「自适应宽限窗口」（Adaptive Grace Window）：同步器在达到最小法定数后，不会立刻合并，而是会多等一点点时间，争取让更多学习器赶上这一轮同步，从而提高每次合并的质量。这个等待时间被精心控制在不影响整体训练速度的范围之内。

另一个技术细节是「平衡张量分片」（Balanced Tensor Fragmentation）。模型参数不再一整块传输，而是被切成若干大小相近的碎片，每一步只传输其中一片，均匀分摊通信压力，避免带宽使用忽高忽低的「脉冲式」传输。

实验结果：故障率极高时，性能几乎不掉

论文用大量实验验证了这套方案的实际效果。

在 Goodput（有效吞吐率）方面，模拟 240 万块芯片、平均每年每块故障一次的场景（此时整个集群故障间隔不足一分钟），Decoupled DiLoCo 使用 8 个学习器时，Goodput 维持在 88%。而同等条件下，传统弹性数据并行方案的 Goodput 只有 58%。

在模型质量方面，论文对比了 5B 参数稠密模型在 1 万亿 token 上的训练结果。无论是文本基准（ARC、BoolQ、HellaSwag 等）还是视觉基准（DocVQA、TextVQA 等），Decoupled DiLoCo 的下游评测成绩与传统数据并行训练几乎没有差距。也就是说，大幅提升了容错能力，但并没有以牺牲模型质量为代价。

论文还验证了这套方案在混合旧式芯片（TPUv5e 与 TPUv5p）场景下的表现。即便最慢的学习器比最快的慢了接近 20%，通过最小法定数加自适应宽限窗口的组合，系统依然实现了与完全同步训练相当的模型质量，同时计算利用率维持在 100%。

带宽消耗方面，数字尤为惊人。为了达到 90% 的计算利用率，传统数据并行方案在 1 秒计算步长、2 个数据中心的场景下需要约 104 Gbits/s 的带宽；Decoupled DiLoCo 只需要 1.7 Gbits/s，采用 int4 压缩后进一步降至 0.43 Gbits/s。带宽需求减少了约两个数量级。

更大的想象空间：「捡漏」算力

低带宽需求带来了一个意想不到的附加价值：可以随时「捡漏」那些临时可用的算力资源。

传统数据并行训练要加入新机器，需要先把当前的完整模型参数传过去，这个过程可能占用整个集群的大量时间，训练效率会在加入新机器的瞬间大幅下降。

Decoupled DiLoCo 不同，新学习器加入时，可以先从邻近学习器异步拉取一份当前的模型状态，在这期间其他学习器完全不受影响，继续正常训练。

论文做了一个实验：在训练过程中，动态加入额外的临时学习器（模拟白天可用算力增加的场景）。结果显示，加入越多临时算力，训练完成时间越短，模型质量不受影响。而同等设置下的数据并行基准，额外算力需要翻倍以上才能开始体现效益。

这意味着，分布在不同地区、不同时区、不同代际硬件上的零散算力，也可以被纳入同一次训练任务，哪怕它们之间的网络带宽只有普通数据中心内部的几十分之一。

一个旧设想，终于等到了工程条件

Jeff Dean 在回忆 2012 年那篇论文时说，当年他们就已经在想：如果能容忍一定程度的不一致性，是不是可以让训练更有弹性？只是受限于当时的规模和工程条件，这个想法没能完全落地。