AI的下一道护城河：数据飞轮，不是GPU

构建合成数据+传感器的闭环系统，旨在突破收益递减的瓶颈

作者：DAVE FRIEDMAN

日期：2025年8月9日

所有人都曾期待 GPT-5 能带来指数级的提升，但它的感觉更像是一场线性的演进。

这并非说模型毫无改进，但它给人的感觉确实是线性的——这恰恰反映了 AI 发展的现阶段。

OpenAI 并没有忘记如何推动前沿，而是我们正一头撞上当前 AI 规模化进程中的两大障碍：

这两股力量正在交汇碰撞。这就是为什么即使是最前沿的模型，也让人感觉是稳定、线性的进步，而非指数级的飞跃。

如果行业期待下一个“啊哈”的到来，就必须改变模型所吞食的数据类型，而不再仅仅是数据量。

这正是合成数据和真实世界传感器数据发挥作用的地方。

单独来看，两者各有前景；而将它们结合，则可能为下一次阶跃式飞跃奠定基石。

瓶颈：规模法则与数据枯竭

规模法则的底层数学逻辑已是共识：模型性能会随着更多的算力、参数和数据而可预测地提升。

但这种关系并非线性。你必须以指数级的投入来喂养这只巨兽，才能换取越来越小的收益。

过去，业界恰恰是这么做的：将规模空前的计算集群投入到问题中，用几乎整个互联网的数据进行训练，并沿着这条曲线向上攀升。

但算力的增长速度已达到摩尔定律的三倍，无论从成本还是电力需求来看，这都已经变得不可持续。

与此同时，互联网上干净、高质量、多样化的文本供应是有限的，我们已然在竭泽而渔。

这让我们陷入了一个悖论：

因此，如果我们继续沿用旧的范式，那么每一代 GPT 的发布，给人的感觉将更像是一次可预见的升级周期，而不是一场革命。

当真实数据耗尽时，合成数据便成了最顺理成章的破局之法。这并不新鲜。

AlphaZero 就完全是在合成的自我对弈游戏中进行训练的。但对于大语言模型来说，合成数据一直是次要的补充，而非主要驱动力。

这种情况正在改变。值得关注的新方法包括：

自生成语料库
利用现有的大模型生产新的训练数据，经过质量筛选后，再反哺给模型进行微调。这能创造出现实世界中不存在的数据分布，让模型得以演练罕见的边缘案例或多步推理。
合成模拟环境
想象一个程序化生成的世界，智能体可在其中探索、解题并生成带标签的经验。这在机器人研究中已是常态，未来也可能成为大语言模型进行推理和规划的主要训练流水线。
迭代优化循环
模型生成答案，然后自我批判（或由另一模型批判），接着产出改进后的答案。这是在以一种模仿人类学习的方式，自举式地提升质量。

这里的风险在于合成漂移，即合成数据中的错误和偏见会随着时间的推移而不断累积。

这就是为什么单靠合成数据无法解决问题。你需要有东西能将它牢牢锚定在现实之中。

此时，就该轮到真实世界的传感器数据登场了。

物理世界每秒都在产生海量新颖、非结构化的数据，其体量远超互联网有史以来的总和：

与从网络上抓取的静态文本不同，这些数据流是连续的、高维度的，并且植根于物理现实。

传感器数据有两个关键优势：

它的问题在于：数据杂乱、体量巨大，且往往与特定领域深度绑定。你不能指望将原始的激光雷达扫描数据或蛋白质折叠轨迹直接灌给一个大语言模型，就能见证奇迹。

合成数据可以无限生成，但有偏离现实、陷入幻想的风险。传感器数据植根于现实且无穷无尽，但往往狭窄而充满噪声。

而将两者结合，就能创造出一个绝佳的良性循环：

以真实数据校准合成数据
利用传感器采集的鲜活数据，持续校准合成数据的生成过程，使其紧贴现实。
用合成数据实现组合覆盖
将真实世界的数据点作为种子，生成海量的变体，用于测试传感器永远无法自然捕捉到的边缘案例、未见场景和反事实情景。
借反馈循环促进技能习得
在模拟环境中训练的模型，可以部署到配备传感器的系统中（机器人、AR/VR 智能体、实验室自动化）去收集新数据，这些数据再被反馈回训练流程。

这并非空想，在一些垂直领域，它已是正在发生的现实：