大神思考:Andrej Karpathy 生成无限合成数据的绝佳思路

智能情报所 2025-08-29 17:05

Andrej Karpathy 的核心观点,是采用一种大语言模型优先(LLM first)的思路,去重构我们现有的教科书和课程。

这样一来,模型就不再只是被动地读取 PDF,而是能够像学生一样主动地学习、练习,并得到批改和评分。

想象一下,我们拿来一本普通的 PDF 教科书,然后彻底改造它。改造的目标,是让大语言模型能够真正地去研读、演练,并获得反馈,而无需人类的介入

这种大语言模型优先的教科书,把教育内容变成了一个具备完整结构、工具和事实基础的训练循环。这才是让模型从死记硬背,走向真正理解的关键一步。

通过这种方式,我们还能进行合成数据扩展。针对每一个具体问题,都可以创建一个无限问题生成器。

资讯配图

比如,对于“上午 9 点整,时针和分针的夹角是多少?”这个问题,我们可以将其拓展到任意时间,并用代码来计算答案,甚至生成各种不同表述方式的合成问题。

为人类,还是为大语言模型?

为人类设计的内容,充满了视觉元素,比如多变的字体、侧边栏、脚注、交叉引用和散布各处的图表。

而大语言模型优先的内容,则剔除了所有这些干扰,只保留了模型能够有效吸收的结构化信息。我们保留了知识的精髓,但将其存储在纯净的文本、清晰的引用和机器可以验证的答案之中

一本为大语言模型准备的教科书

书中所有的文字内容,都被整合进一个 markdown 文档,章节标题形成了清晰的层级结构。

加粗和斜体被用来强调重点,这些格式信息同样可以被模型学习。表格和列表则保留为纯文本格式。

所有图表都存为独立的图片文件,并附有简短的文字说明,清晰描述图表内容,而不是罗列像素信息。

书里所有的交叉引用,都变成了直接的跳转链接,比如“参见定义 X”。这样模型就能精准定位和检索信息,无需猜测上图究竟在哪一页。

解题示例:监督微调的燃料

所有带解题过程的示例,都被转化为成对的监督微调(SFT)数据。输入是问题和必要的上下文,输出则是用自然语言写出的完整解题步骤。

我们教给模型的不是冰冷的符号,而是每一步背后的思考过程。这为模型学习特定主题的推理模式提供了坚实的基础。

练习题:强化学习的乐园

那些没有提供解题过程的练习题和标准答案,共同构成了一个强化学习(RL)环境。

奖励机制非常直接:如果模型给出的最终答案与标准答案一致,或者通过了程序的自动检验,就给它加分,反之则减分。

对于需要主观判断的开放性问题,可以引入一个轻量级的大语言模型评判员。它会依据标准答案,从结构、单位和逻辑等维度给模型的回答打出一个具体的分数。

这样,模型就能在不断的练习、反馈和迭代中提升自己。

合成数据生成器:确保教学的严谨性

每一个问题模板,都配套一个程序化生成器。这个小脚本能创造出无数个新的问题实例,并用代码计算出精准答案。

以时钟夹角问题为例,生成器随机选取一个时间,用代码算出角度,然后将问题和答案一同储存。数据集中不包含任何现成的数学公式。

模型会接触到成百上千个受控的、细节各异的变体,而且每个变体都有代码确保其答案的绝对正确。

这种方法极大地扩展了覆盖面,使我们能够系统性地测试各种边界情况、陷阱问题和混合概念,远超人类手动编写的几个零散示例。

RAG 与 MCP:让知识在运行时触手可及

所有的文字说明和图表,都被索引起来,用于检索增强生成(RAG)。在训练和评估时,模型可以随时根据需要,精准地调取某个定义或定理。

我们还可以通过模型上下文协议(MCP),将整个知识库开放出来。这样,外部工具就能按需调用特定章节、图表或答案检查器,让课程从一个静态文件,变成了一套动态的、可交互的工具。

大语言模型如何上课?

首先,模型通过检索增强生成来阅读清理过的教科书,确保它的回答总能引经据典。

接着,它通过监督微调来学习那些解题示例,掌握解题的步骤和语言表达范式。

然后,它在练习题集上进行强化学习,通过奖励机制来提高最终答案的准确性。

最后,模型会参加一场独立的结业考试,由只认评分标准和答案的严格考官进行评判。

资讯配图

为何这远胜于简单的 PDF 转换?

传统的 PDF 转文本流程,仅仅停留在“把 PDF 内容抽出来,然后扔进预训练数据里”这一步。

这种方式主要训练的是模型预测下一个词的能力,而不是去验证一个计算结果的对错,更不会引导它去引用确切的定义,或者遵循规范的解题步骤。

模型虽然也能学到一些知识,但在具体技能上获得的信号却非常微弱。因为它缺少事实检验的环节,没有清晰的引用链接,也没有结构化的输入输出数据对。

而 Karpathy 的这套方法,则完全超越了简单的文本提取,它构建了一套完整的、结构化的监督体系。

文字内容变成了带有稳定索引的纯净 markdown,让检索系统可以按需精准调用。

解题示例变成了成对的监督数据,教会模型解题的范式。

练习题变成了一个带自动评分员的强化学习环境,提供即时反馈。

程序化生成器则能创造出海量、多样且答案经过代码验证的新问题,使得训练的广度和深度都变得可控。

这套流程的简明构想

你从一本教科书开始。

最终,你导出了一套 markdown 格式的知识库,一套图片集,一套用于监督微调的已解题集,一套用于强化学习的未解题集,以及一个包含代码检查器的生成器库。

你将所有内容进行索引以支持检索增强生成,并通过 MCP 将其开放。

至此,你就拥有了一门大语言模型可以真正学习的完整课程。

决定成败的关键实践细节

  • 保持引用链接的稳定性,确保解题示例中的引用每次都能指向同一个定义,绝不含糊。

  • 明确单位和可接受的答案格式,避免评分员将正确答案误判为错误。

  • 剔除内容上高度重复的样本,确保模型学习到的是普适的规律,而不是数据中的偶然噪声。

  • 记录好每个生成器的种子和检查器的版本,保证所有实验结果都可复现。

  • 像对待真正的软件一样测试你的评分员,因为奖励机制,就是你和模型之间最重要的约定。

参考资料:https://x.com/karpathy/status/1961128638725923119


一键三连点赞」「转发」「小心心

欢迎在评论区留下你的想法!


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AR
more
大咖云集!ARTS 2025 | 第三届自主机器人技术研讨会早鸟报名中
6折入手Dream Car?!没有冰箱彩电大沙发,帅气烧油跑车你心动没?
【投融资】4个月估值翻倍,Anthropic冲刺1500亿美元估值,7月份ARR达40亿美元
上周 Arxiv 强化学习 RL 方向论文:Cold-RL等
Karpathy氛围编程最新指南!三层AI编程结构:顺境Cursor,逆境Claude,绝境GPT-5 Pro
从需求分析到代码生成,LLM都能干点啥?一文读懂291个软工Benchmark!
接线效率提升70%——魏德米勒麒麟系列Smart Crimper剥压机
知名材料设计专家ChrisLefteri,劳尔、PeclersParis、WGSN等演讲 2025世界CMF大会解码最新趋势
熔体过滤滤芯报废快、效果差?柯拉尔破解2大堵芯难题|ChinaReplas2025展商风采
碳化硅AR波导新突破:3.8克超轻、可量产、无彩虹伪影
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号