Karpathy「疯狂之作」:100美元、4小时,就能训练你自己的「小型GPT」

新智元 2025-10-14 10:16

Karpathy「疯狂之作」:100美元、4小时,就能训练你自己的「小型GPT」图1



  新智元报道  

编辑:定慧
【新智元导读】AI传奇人物、前特斯拉AI总监Karpathy重磅推出全新开源项目「nanochat」,以不到8000行代码复现ChatGPT全流程,只需一台GPU、约4小时、成本仅百美元。该项目在GitHub上线不到12小时即获4.2k星标!

AI传奇人物、前特斯拉AI总监Karpathy宣布发布全新项目nanochat!

一个极简但完整的「从零构建ChatGPT」训练框架。

Karpathy「疯狂之作」:100美元、4小时,就能训练你自己的「小型GPT」图2

Karpathy说这是他写过的最疯狂的项目之一!

相当于每个人都可以自己拥有一个专属的ChatGPT。

Karpathy「疯狂之作」:100美元、4小时,就能训练你自己的「小型GPT」图3

项目刚放出还不到12个小时,GitHub星标就破4.2kStar!(还在持续疯涨中)

Karpathy「疯狂之作」:100美元、4小时,就能训练你自己的「小型GPT」图4

GitHub项目:https://github.com/karpathy/nanochat

全是社区自来水流量,这就是Karpathy在AI领域的号召力!

Karpathy「疯狂之作」:100美元、4小时,就能训练你自己的「小型GPT」图5

与早期的nanoGPT不同,nanochat不仅涵盖预训练,还囊括了从数据准备、预训练、中期训练(对话、多项选择题、工具使用)、SFT、RL微调到推理部署的全流程

整个系统仅约8000行干净代码,启动一台GPU机器、运行一条脚本,4小时后你就能在网页界面与自己训练的「小ChatGPT」对话。

Karpathy将其称为LLM101n的「压轴之作」,同时也可能成为未来研究基线和开源社区的实验平台。

让我来仔细看看如何仅仅用8000行来「克隆」ChatGPT:

项目全程花费低至约100美元(约在一台8XH100节点上训练4小时)

可以训练、克隆一个可以对话的小型ChatGPT,它能创作故事/诗歌、回答简单问题

只需要训练约12小时即可超过GPT-2的核心指标

随着进一步扩展到约1000美元(约41.6小时训练),模型会迅速变得更连贯,能解决简单的数学/代码问题并做多项选择题

训练24小时的模型(其FLOPs大致相当于GPT-3Small125M,约为GPT-3的1/1000)在MMLU上能进入40分段,在ARC-Easy上进入70分段,在GSM8K上进入20分段等。

总结一下就是:

这个项目体现出他的核心理念:

「降低 LLM 研究与复现门槛,让每个人都能亲手训练自己的模型。」

这种民主化路线,与他在nanoGPT时期倡导的「从零实现Transformer」如出一辙。

Karpathy「疯狂之作」:100美元、4小时,就能训练你自己的「小型GPT」图6

项目地址:https://github.com/karpathy/nanoGPT

Karpathy说他的目标是把完整的「强基线」栈整合到一个连贯、极简、可读、可修改、可最大化派生的仓库中。

nanochat将成为LLM101n(仍在开发中)的压轴项目。

Karpathy认为nanochat也有可能发展成一个研究工具或基准,就像之前的nanoGPT一样。

nanoGPT教你造大脑,nanochat教你造ChatGPT。

如果说nanoGPT是「Transformer源码教学项目」。

那么,nanochat则是「LLM生态系统微缩版」、OpenAI同款、你的专属AI。

二者关系可理解为「从神经网络基础到产品级对话系统」的两步闭环。

Vibe CodingnanoGPT,再到如今的nanochat,Karpathy不愧是「AI教育者」的最佳代言人。

这一「疯狂之作」并非狂想,而是Karpathy对AI开放、可学习、可复现理想的又一次践行。

Karpathy「疯狂之作」:100美元、4小时,就能训练你自己的「小型GPT」图7
小型ChatGPT效果展示

Karpathy在WebUI部署了nanochat项目。

他还给出了「与价格为100美元、运行4小时的」nanochat的示例对话。

很……有趣!

Karpathy「疯狂之作」:100美元、4小时,就能训练你自己的「小型GPT」图8

下面这张图展示的是Karpathy在nanochat「$100速度跑」实验(即只用一台GPU、约4小时训练出的ChatGPT 小模型)中生成的「成绩单」部分内容,说明模型规模、训练耗时、以及在各类标准评测上的性能。

这些数字展示了nanochat的「极简」精神:完整实现了 ChatGPT 的训练、微调与推理,却仍保持在8000行代码以内。

Karpathy「疯狂之作」:100美元、4小时,就能训练你自己的「小型GPT」图9
参考资料:
https://x.com/karpathy/status/1977755427569111362
https://github.com/karpathy/nanochat


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AR
more
PPO,GRPO,DPO,ARPO算法及其 40+变种|HF Papers 论文盘点
研报 | AI存储需求激发HDD替代效应,NAND Flash供应商加速转进大容量Nearline SSD
【Open Car】很硬
2025上半年XR市场:AR逆势狂飙50%,产业链企业协同突围
将科研脏活累活真·丢给AI!上海AI Lab推出深度科研智能体FlowSearch
【Open Car】哇还有实体店
高通收购Arduino
比亚迪高管确认:已规划在国内推出SHARK皮卡!
【Open Car】双十一要开始了~~~
Future Tech | 破解出海密码!FT携手STARTUPX邀你同行,抢占东南亚AI新高地
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号