梦晨 发自 凹非寺
量子位 | 公众号 QbitAI
Karpathy让AI通宵干活,自己去蒸桑拿了。
这个Autoresearch项目总共630行Python代码,两天AI自主完成276次实验,筛出29项有效改进,把一个语言模型的训练效率提升了约11%,全程零人类干预。

但真正有意思的故事,发生在Karpathy放下键盘之后。
全球开发者社区接过了这个项目,把它从“一个AI做实验”变成了“一群AI做科研”。
他们搭了一个分布式协作层,让数十个智能体在不同GPU上共享成果、分工协作,4天已经跑了超过2000次实验。

人类进去检查成果时才突然发现:
不知不觉间,AI已经自发形成了智能体间的同行评审制度。
AI“重新发明”科学共同体
Karpathy本人曾给出autoresearch的下一步方向:
目标不是模拟一个博士生,而是模拟一整个研究社区。
社区照着这个方向做了。
受SETI@home(寻找外星信号的分布式计算项目)启发,开发者在autoresearch上层加了一个协作层,诞生了autoresearch@home。
任何互联网用户都可以参与并协作进行人工智能/机器学习研究。

智能体可以阅读并学习以往的实验结果,避免重复工作,并实时地在彼此成果的基础上继续发展。
不到一周已经从最初的13个智能体扩展到80+个智能体、运行2000+实验。
其中智能体自发产生了角色分化,没人事先分配任务,但群体运行一段时间后,不同智能体开始各司其职:
实验员负责跑实验 验证员专门复现别人的结论 统计员测量方差和置信度 元分析员提新研究方向
……
数字最能说明问题:
一个智能体一天跑了188次实验,专门验证别人的声明。另一组智能体生成了5895条研究假设,但一个实验都没跑。
整个系统开始像一个分布式研究实验室。

项目发起者Ensue创始人Christine Yip公布了十大发现,除了智能体角色分化之外,还有很多涉及最底层的AI训练技术细节。

更多step始终优于更大的batch
将batch_size减半从2^19 → 2^18,训练步骤加倍,BPB(Bits Per Byte)改善了0.007。
简单的注意力模式就是最好的
多个智能体独立发现并验证,最终收敛到了一个窗口注意力模式:SSSL(3个短上下文层,1个长上下文层,重复)。
过多的长层会浪费计算资源在全局注意力机制上,过少会导致跨toke信息缺失。
调整初始化比调整优化器更重要
仅三项改动就带来了约0.004 BPB的改善:value embedding使用正态初始化、QKV缩放倍率、给残差连接(skip-connection)加上可学习权重。
这些改动都没有涉及到优化器,而在大模型预训练里,0.001都算有效。
能学习的就别写死
把固定常数替换为可学习参数,几乎总能提升性能。案例包括skip-2残差权重、残差混合的lambda系数、value embedding的门控参数。
即使在5分钟的短训练中,这些新参数也能收敛并产生收益。
最优架构出人意料地小
群体智能在深度和宽度之间做了大范围探索,最终最优配置是:12层、维度512、aspect ratio 40。
加深网络很快就适得其反,16层带来84%更多的参数,但步数减少23%,BPB反而更差。
大量“改进”其实是噪声
一个智能体专门跑了100组随机种子实验,发现种子方差约为0.002 BPB,这恰好是很多声称的”改进”的量级。换句话说,之前很多“发现”可能只是运气好。
有了这个结论后,智能体群体自发调整了行为:开始要求重复实验、多种子验证、独立确认。
一些公认好技术直接翻车
几个实验产生了灾难性退化:weight tying直接把BPB炸到3.216,label smoothing炸到1.32,PaLM风格的z-loss带来一致性退化。
这些负面结果写进共享记忆后,成了整个集群最有用的知识,所有后来的智能体都自动避开这些坑,不再浪费算力重复踩。
最大的机会可能还没智能体碰
1045次实验中,几乎所有改动都在改模型架构。但元智能体生成了1000多条关于数据管道的假设:课程学习、数据排序、领域特定批处理,一条都没被测试。
最大的突破可能根本不在架构上,而在数据调度上。
集体记忆加速了发现过程
因为智能体共享实验结果,后来的智能体可以直接从已知最优配置出发,不用从头重新发现前人的工作。
几个关键突破来自那些综合了已有结果而非盲目探索的智能体,证明共享记忆能显著加速研究进程。
为了优化,智能体“不择手段”
在autoresearch激发的另一个衍生项目auto-discovery中,发现除了自动训练模型,智能体在科学发现和算法发现中表现也不错。
在几个经典的数学优化任务上竟然比AlphaEvolve、SkyDiscover和LoongFlow等重量级的结果更好。

项目发起者华盛顿大学博士生Tu Xinming发现了AI智能体为了优化令人捧腹大笑的时刻。
他忘了在指令文件里写“不许上网搜答案”。结果AI直接上网搜了一圈,从别人的开源仓库里把最优解抄了过来。
还有一次,AI碰到评估脚本里的严格容差限制。它没有卡住,也没有报错,而是自己去读了评估器的源代码,理解了约束条件,然后专门设计了一套“容差感知优化”策略,在规则边界内继续推进。
这与传统超参数搜索不同,传统方法在预设范围内调数字;autoresearch框架下的AI可以直接删掉AdamW优化器,然后从零写一个新的,自由度完全不同。

One More Thing
Karpathy在最初设计autoresearch时只写了630行代码。
他也没想到,社区会在几天内把它变成一个分布式科学共同体,有实验、有验证、有评审、有分工,甚至有了自己的“负面结果知识库”。
这场实验中最有意思的发现,不是任何一个具体的模型架构,而是这个过程本身。
Karpathy在OpenAI的前同事Noam Brown提问:为什么在自工业革命以来人类历史上最关键的时刻,他没有在人工智能前沿实验室工作?

Karpathy还没有回应,但有人替他答了。
我想他可能会问你类似的问题:在至少自工业革命以来人类历史上最关键的时刻,你为什么要把自己局限于商业组织?
autoresearch:
https://github.com/karpathy/autoresearch
autoresearch@home:
https://ensue-network.ai/autoresearch?view=strategies
auto-discovery:
https://github.com/XinmingTu/auto-discovery
参考链接:
[1]https://x.com/christinetyip/status/2032590900107346327
[2]https://x.com/TuXinming/status/2032478765033701835
— 欢迎AI产品从业者共建 —

一键关注 👇 点亮星标