大神思考：Andrej Karpathy 生成无限合成数据的绝佳思路

Andrej Karpathy 的核心观点，是采用一种大语言模型优先（LLM first）的思路，去重构我们现有的教科书和课程。

这样一来，模型就不再只是被动地读取 PDF，而是能够像学生一样主动地学习、练习，并得到批改和评分。

想象一下，我们拿来一本普通的 PDF 教科书，然后彻底改造它。改造的目标，是让大语言模型能够真正地去研读、演练，并获得反馈，而无需人类的介入。

这种大语言模型优先的教科书，把教育内容变成了一个具备完整结构、工具和事实基础的训练循环。这才是让模型从死记硬背，走向真正理解的关键一步。

通过这种方式，我们还能进行合成数据扩展。针对每一个具体问题，都可以创建一个无限问题生成器。

资讯配图

比如，对于“上午 9 点整，时针和分针的夹角是多少？”这个问题，我们可以将其拓展到任意时间，并用代码来计算答案，甚至生成各种不同表述方式的合成问题。

为人类，还是为大语言模型？

为人类设计的内容，充满了视觉元素，比如多变的字体、侧边栏、脚注、交叉引用和散布各处的图表。

而大语言模型优先的内容，则剔除了所有这些干扰，只保留了模型能够有效吸收的结构化信息。我们保留了知识的精髓，但将其存储在纯净的文本、清晰的引用和机器可以验证的答案之中。

一本为大语言模型准备的教科书

书中所有的文字内容，都被整合进一个 markdown 文档，章节标题形成了清晰的层级结构。

加粗和斜体被用来强调重点，这些格式信息同样可以被模型学习。表格和列表则保留为纯文本格式。

所有图表都存为独立的图片文件，并附有简短的文字说明，清晰描述图表内容，而不是罗列像素信息。

书里所有的交叉引用，都变成了直接的跳转链接，比如“参见定义 X”。这样模型就能精准定位和检索信息，无需猜测上图究竟在哪一页。

解题示例：监督微调的燃料

所有带解题过程的示例，都被转化为成对的监督微调（SFT）数据。输入是问题和必要的上下文，输出则是用自然语言写出的完整解题步骤。

我们教给模型的不是冰冷的符号，而是每一步背后的思考过程。这为模型学习特定主题的推理模式提供了坚实的基础。

练习题：强化学习的乐园

那些没有提供解题过程的练习题和标准答案，共同构成了一个强化学习（RL）环境。

奖励机制非常直接：如果模型给出的最终答案与标准答案一致，或者通过了程序的自动检验，就给它加分，反之则减分。

对于需要主观判断的开放性问题，可以引入一个轻量级的大语言模型评判员。它会依据标准答案，从结构、单位和逻辑等维度给模型的回答打出一个具体的分数。

这样，模型就能在不断的练习、反馈和迭代中提升自己。

合成数据生成器：确保教学的严谨性

每一个问题模板，都配套一个程序化生成器。这个小脚本能创造出无数个新的问题实例，并用代码计算出精准答案。

以时钟夹角问题为例，生成器随机选取一个时间，用代码算出角度，然后将问题和答案一同储存。数据集中不包含任何现成的数学公式。

模型会接触到成百上千个受控的、细节各异的变体，而且每个变体都有代码确保其答案的绝对正确。

这种方法极大地扩展了覆盖面，使我们能够系统性地测试各种边界情况、陷阱问题和混合概念，远超人类手动编写的几个零散示例。

RAG 与 MCP：让知识在运行时触手可及

所有的文字说明和图表，都被索引起来，用于检索增强生成（RAG）。在训练和评估时，模型可以随时根据需要，精准地调取某个定义或定理。

我们还可以通过模型上下文协议（MCP），将整个知识库开放出来。这样，外部工具就能按需调用特定章节、图表或答案检查器，让课程从一个静态文件，变成了一套动态的、可交互的工具。

大语言模型如何上课？

首先，模型通过检索增强生成来阅读清理过的教科书，确保它的回答总能引经据典。

接着，它通过监督微调来学习那些解题示例，掌握解题的步骤和语言表达范式。

然后，它在练习题集上进行强化学习，通过奖励机制来提高最终答案的准确性。

最后，模型会参加一场独立的结业考试，由只认评分标准和答案的严格考官进行评判。

为何这远胜于简单的 PDF 转换？

传统的 PDF 转文本流程，仅仅停留在“把 PDF 内容抽出来，然后扔进预训练数据里”这一步。

这种方式主要训练的是模型预测下一个词的能力，而不是去验证一个计算结果的对错，更不会引导它去引用确切的定义，或者遵循规范的解题步骤。

模型虽然也能学到一些知识，但在具体技能上获得的信号却非常微弱。因为它缺少事实检验的环节，没有清晰的引用链接，也没有结构化的输入输出数据对。

而 Karpathy 的这套方法，则完全超越了简单的文本提取，它构建了一套完整的、结构化的监督体系。

文字内容变成了带有稳定索引的纯净 markdown，让检索系统可以按需精准调用。

解题示例变成了成对的监督数据，教会模型解题的范式。

练习题变成了一个带自动评分员的强化学习环境，提供即时反馈。

程序化生成器则能创造出海量、多样且答案经过代码验证的新问题，使得训练的广度和深度都变得可控。

这套流程的简明构想

你从一本教科书开始。

最终，你导出了一套 markdown 格式的知识库，一套图片集，一套用于监督微调的已解题集，一套用于强化学习的未解题集，以及一个包含代码检查器的生成器库。

你将所有内容进行索引以支持检索增强生成，并通过 MCP 将其开放。

至此，你就拥有了一门大语言模型可以真正学习的完整课程。

决定成败的关键实践细节

保持引用链接的稳定性，确保解题示例中的引用每次都能指向同一个定义，绝不含糊。
明确单位和可接受的答案格式，避免评分员将正确答案误判为错误。
剔除内容上高度重复的样本，确保模型学习到的是普适的规律，而不是数据中的偶然噪声。
记录好每个生成器的种子和检查器的版本，保证所有实验结果都可复现。
像对待真正的软件一样测试你的评分员，因为奖励机制，就是你和模型之间最重要的约定。

参考资料：https://x.com/karpathy/status/1961128638725923119

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！