卡帕西630行代码炸出81个智能体，4天协作跑2333次实验，公布预训练十大发现

梦晨发自凹非寺
量子位 | 公众号 QbitAI

Karpathy让AI通宵干活，自己去蒸桑拿了。

这个Autoresearch项目总共630行Python代码，两天AI自主完成276次实验，筛出29项有效改进，把一个语言模型的训练效率提升了约11%，全程零人类干预。

卡帕西630行代码炸出81个智能体，4天协作跑2333次实验，公布预训练十大发现图1

但真正有意思的故事，发生在Karpathy放下键盘之后。

全球开发者社区接过了这个项目，把它从“一个AI做实验”变成了“一群AI做科研”。

他们搭了一个分布式协作层，让数十个智能体在不同GPU上共享成果、分工协作，4天已经跑了超过2000次实验。

卡帕西630行代码炸出81个智能体，4天协作跑2333次实验，公布预训练十大发现图2

人类进去检查成果时才突然发现：

不知不觉间，AI已经自发形成了智能体间的同行评审制度。

AI“重新发明”科学共同体

Karpathy本人曾给出autoresearch的下一步方向：

目标不是模拟一个博士生，而是模拟一整个研究社区。

社区照着这个方向做了。

受SETI@home（寻找外星信号的分布式计算项目）启发，开发者在autoresearch上层加了一个协作层，诞生了autoresearch@home。

任何互联网用户都可以参与并协作进行人工智能/机器学习研究。

卡帕西630行代码炸出81个智能体，4天协作跑2333次实验，公布预训练十大发现图3

智能体可以阅读并学习以往的实验结果，避免重复工作，并实时地在彼此成果的基础上继续发展。

不到一周已经从最初的13个智能体扩展到80+个智能体、运行2000+实验。

其中智能体自发产生了角色分化，没人事先分配任务，但群体运行一段时间后，不同智能体开始各司其职：

实验员负责跑实验
验证员专门复现别人的结论
统计员测量方差和置信度
元分析员提新研究方向
……

数字最能说明问题：

一个智能体一天跑了188次实验，专门验证别人的声明。另一组智能体生成了5895条研究假设，但一个实验都没跑。

整个系统开始像一个分布式研究实验室。

卡帕西630行代码炸出81个智能体，4天协作跑2333次实验，公布预训练十大发现图4

项目发起者Ensue创始人Christine Yip公布了十大发现，除了智能体角色分化之外，还有很多涉及最底层的AI训练技术细节。

卡帕西630行代码炸出81个智能体，4天协作跑2333次实验，公布预训练十大发现图5

更多step始终优于更大的batch

将batch_size减半从2^19 → 2^18，训练步骤加倍，BPB（Bits Per Byte）改善了0.007。

简单的注意力模式就是最好的

多个智能体独立发现并验证，最终收敛到了一个窗口注意力模式：SSSL（3个短上下文层，1个长上下文层，重复）。

过多的长层会浪费计算资源在全局注意力机制上，过少会导致跨toke信息缺失。

调整初始化比调整优化器更重要

仅三项改动就带来了约0.004 BPB的改善：value embedding使用正态初始化、QKV缩放倍率、给残差连接（skip-connection）加上可学习权重。

这些改动都没有涉及到优化器，而在大模型预训练里，0.001都算有效。

能学习的就别写死

把固定常数替换为可学习参数，几乎总能提升性能。案例包括skip-2残差权重、残差混合的lambda系数、value embedding的门控参数。

即使在5分钟的短训练中，这些新参数也能收敛并产生收益。

最优架构出人意料地小

群体智能在深度和宽度之间做了大范围探索，最终最优配置是：12层、维度512、aspect ratio 40。

加深网络很快就适得其反，16层带来84%更多的参数，但步数减少23%，BPB反而更差。

大量“改进”其实是噪声

一个智能体专门跑了100组随机种子实验，发现种子方差约为0.002 BPB，这恰好是很多声称的”改进”的量级。换句话说，之前很多“发现”可能只是运气好。

有了这个结论后，智能体群体自发调整了行为：开始要求重复实验、多种子验证、独立确认。

一些公认好技术直接翻车

几个实验产生了灾难性退化：weight tying直接把BPB炸到3.216，label smoothing炸到1.32，PaLM风格的z-loss带来一致性退化。

这些负面结果写进共享记忆后，成了整个集群最有用的知识，所有后来的智能体都自动避开这些坑，不再浪费算力重复踩。

最大的机会可能还没智能体碰

1045次实验中，几乎所有改动都在改模型架构。但元智能体生成了1000多条关于数据管道的假设：课程学习、数据排序、领域特定批处理，一条都没被测试。

最大的突破可能根本不在架构上，而在数据调度上。

集体记忆加速了发现过程

因为智能体共享实验结果，后来的智能体可以直接从已知最优配置出发，不用从头重新发现前人的工作。

几个关键突破来自那些综合了已有结果而非盲目探索的智能体，证明共享记忆能显著加速研究进程。

为了优化，智能体“不择手段”

在autoresearch激发的另一个衍生项目auto-discovery中，发现除了自动训练模型，智能体在科学发现和算法发现中表现也不错。

在几个经典的数学优化任务上竟然比AlphaEvolve、SkyDiscover和LoongFlow等重量级的结果更好。

卡帕西630行代码炸出81个智能体，4天协作跑2333次实验，公布预训练十大发现图6

项目发起者华盛顿大学博士生Tu Xinming发现了AI智能体为了优化令人捧腹大笑的时刻。

他忘了在指令文件里写“不许上网搜答案”。结果AI直接上网搜了一圈，从别人的开源仓库里把最优解抄了过来。

还有一次，AI碰到评估脚本里的严格容差限制。它没有卡住，也没有报错，而是自己去读了评估器的源代码，理解了约束条件，然后专门设计了一套“容差感知优化”策略，在规则边界内继续推进。

这与传统超参数搜索不同，传统方法在预设范围内调数字；autoresearch框架下的AI可以直接删掉AdamW优化器，然后从零写一个新的，自由度完全不同。

卡帕西630行代码炸出81个智能体，4天协作跑2333次实验，公布预训练十大发现图7

One More Thing

Karpathy在最初设计autoresearch时只写了630行代码。

他也没想到，社区会在几天内把它变成一个分布式科学共同体，有实验、有验证、有评审、有分工，甚至有了自己的“负面结果知识库”。

这场实验中最有意思的发现，不是任何一个具体的模型架构，而是这个过程本身。

Karpathy在OpenAI的前同事Noam Brown提问：为什么在自工业革命以来人类历史上最关键的时刻，他没有在人工智能前沿实验室工作？

卡帕西630行代码炸出81个智能体，4天协作跑2333次实验，公布预训练十大发现图8

Karpathy还没有回应，但有人替他答了。

我想他可能会问你类似的问题：在至少自工业革命以来人类历史上最关键的时刻，你为什么要把自己局限于商业组织？

autoresearch：

https://github.com/karpathy/autoresearch

autoresearch@home：

https://ensue-network.ai/autoresearch?view=strategies

auto-discovery：

https://github.com/XinmingTu/auto-discovery

参考链接：
[1]https://x.com/christinetyip/status/2032590900107346327
[2]https://x.com/TuXinming/status/2032478765033701835

— 欢迎AI产品从业者共建 —

📚「AI产品知识库」是量子位智库基于长期产品库追踪和用户行为数据推出的飞书知识库，旨在成为AI行业从业者、投资者、研究者的核心信息枢纽与决策支持平台。

卡帕西630行代码炸出81个智能体，4天协作跑2333次实验，公布预训练十大发现图9

一键关注 👇 点亮星标

科技前沿进展每日见

梦晨 发自 凹非寺量子位 | 公众号 QbitAI

AI“重新发明”科学共同体

为了优化，智能体“不择手段”

One More Thing

梦晨发自凹非寺
量子位 | 公众号 QbitAI