田渊栋创业公司首个成果：GPU内核优化，英伟达官方榜单SOTA

刚刚，田渊栋创业公司，交出了首个研究成果。

田渊栋在X上宣布，其创立的Recursive，在NVIDIA官方的GPU kernel优化榜SOL-ExecBench上拿下了整体和四个子类别的SOTA。

这一成绩不仅打过了人类GPU专家手写的方案，还打过了“由GPU专家打造的其他AI系统”。

此外，Recursive也在另外两个高难度benchmark上，全都取得SOTA。

其中包括NanoGPT Speedrun，这是一个被全球程序员社区死磕了两年、几乎被认为已经“卷到头”的极限优化赛道。

结果Recursive的AI系统上去之后，纪录又被往前推了一截。

从提出想法、写代码、跑实验、判断结果，到决定下一步该干什么……这一整套研究流程，AI自己就给跑完了。

这套“AI研究AI”的设想，已经走到了现实。

三个Benchmark全部SOTA

Recursive刚刚公开了其自动化AI研究系统的首批成果。

在三个不同的benchmark上，这套系统都跑出了SOTA的结果，分别对应固定预算下的语言模型训练、小模型训练速度，以及GPU kernel优化。

这套系统的工作方式是把整个研究循环交给AI自己完成。

系统会针对一个目标自主提出改进想法，把想法写成代码并实现，跑实验验证效果，再根据实验结果决定下一步计划。

该系统可以同时运行多条研究线程，把之前实验中积累的有效经验保留下来，并把不同线程里有潜力的改进方向合并到一起。

另外，在把某次改进当作真实进展之前，系统还会专门检查这次提升是不是reward hack或随机因素。

Recursive选择这三个benchmark，是因为它们分别对应AI进步的三个核心杠杆——更好的训练算法、更快的训练速度，以及更高效的硬件利用。

这三个任务都有明确的评价指标，结果方差较低，而且评估方式可以被不断加固来防止系统钻空子，因此比较适合让AI自己跑研究循环。

第一个benchmark是NanoChat Autoresearch，任务是在单张GPU、五分钟固定时间预算内，把一个小语言模型训练到尽可能低的验证loss（用BPB衡量）。

这个任务目前已经有一个叫autoresearch@home的公开协作项目，由数十名人类和数百个agent共同优化解决方案。

Recursive的系统从同一个初始方案出发搜索，在排除了此前最佳社区方案里的几个reward hack之后，社区方案的平均成绩是0.9372 BPB，而Recursive系统找到的方案达到了0.9109 BPB。

换算成训练时间来看，Recursive的方案达到Karpathy最初版本的水平所需的时间，只有社区最佳方案的大约77%。

系统还做了另一组实验，从一个最朴素的vanilla Transformer加AdamW起点出发，把验证loss从1.059 BPB优化到了0.9344 BPB，同样超过了社区目前的最佳成绩。

第二个benchmark是NanoGPT Speedrun，任务是在单个8卡H100节点上，把一个小型GPT模型训练到固定的验证loss（3.28）所需的时间，缩短到尽可能短。

这个项目已经有两年历史，社区累计贡献了83次刷新纪录的方案，把训练时间从最初约45分钟一路压缩到了79.7秒，留给后来者的明显改进空间已经很少。

Recursive的系统在现有最优方案的基础上继续优化，把训练时间从79.7秒进一步降到了77.5秒，同时仍然满足排行榜对验证loss显著性的要求。

这一改进幅度和近期人类贡献者取得的提升相当甚至更大。

系统还测试了从一个约15分钟的较弱方案出发能做到什么程度，结果在几天内就把训练时间压缩到了约185秒，接近2025年5月时人类排行榜大约180秒的水平。

第三个benchmark是英伟达的SOL-ExecBench，任务是为235个来自真实工作负载的GPU kernel，编写既正确又快的实现。

具体来说，这些实现涉及矩阵乘法、归约、归一化、attention组件、量化和融合算子等类型，最终在B200 GPU上评测。

这个benchmark用Speed-of-Light分数衡量结果，0.5分对应一个已经优化过的PyTorch基线，1.0分对应理论上的最优性能。

Recursive让系统同时在全部235个kernel上运行，使其可以把在一个任务里发现的技巧复用到其他相关任务中，最终把平均SOL分数从此前排行榜最佳的0.699提升到了0.754。

在这三个benchmark上，reward hacking都是Recursive团队不得不正面应对的问题。

这个问题在SOL-ExecBench上尤其突出，部分候选方案会通过缓存输出结果、利用某种持久状态，或者钻评测计时机制的空子来刷分。

为此，团队把正确性审查作为研究循环的一部分，让候选改进必须经过层层加严的自动化检查，才能被认定为真正的性能提升。

Recursive表示，会把这几次实验产生的相关资料开源出来，供外部检视和复用，目前团队还在等待官方硬件接入，以便正式向NanoGPT Speedrun排行榜提交结果。

Recursive Superintelligence（简称RSI）在上个月刚刚结束隐身状态，对外公开了自己的存在。

这家公司目前团队规模不到30人，已经完成了一轮6.5亿美元的融资，估值达到46.5亿美元，约合人民币316亿元。

这轮融资由谷歌旗下的GV和Greycroft联合领投，英伟达和AMD等也参与了投资。

RSI的核心判断是，预训练阶段的scaling law虽然依然重要，但单纯依靠更多数据、更多算力和更多参数带来的边际收益已经在下降。

RSI押注的方向是recursive self-improvement，也就是递归式自我改进。

说得再直白些，就是让AI系统不断改进AI系统本身，然后用这种能力去推动更广泛的科学发现。

按照RSI给出的路线图，第一步是训练出一个具备“5万名博士”能力的系统，把AI科学研究本身自动化；第二步是把这套系统应用到药物研发、电池材料和核聚变物理等领域。

RSI由8位联合创始人共同创办，他们此前分别在OpenAI、Google DeepMind、Meta AI、Salesforce和Uber等机构担任研究负责人，并且大多有过成功的创业经历。

CEO Richard Socher是吴恩达在斯坦福的博士生，也是ImageNet和Glove的作者之一，他此前创办的MetaMind被Salesforce收购，后来又创办了估值15亿美元的AI搜索引擎You.com。
田渊栋此前担任Meta FAIR的研究科学家总监，长期研究强化学习、基础模型效率和神经网络，并且是ELF OpenGo的作者之一。
施天麟毕业于清华姚班，是Cresta的联合创始人之一，Cresta从斯坦福AI实验室起步，2019年就把Transformer模型用到了实时客服场景中。
Alexey Dosovitskiy是Vision Transformer的作者之一，他在2020年提出可以直接把Transformer用在图像patch序列上。
Tim Rocktäschel此前在Google DeepMind负责开放式研究方向，目前是UCL的人工智能教授，他和合作者提出的Rainbow Teaming方法，已经被广泛用于AI安全团队的红队测试。
Josh Tobin是OpenAI的早期成员，曾负责OpenAI的Agents Research Team。
Caiming Xiong此前在Salesforce负责AI Research和Applied AI，和Socher长期共事，两人还共同署名过CTRL等可控文本生成方面的工作。
Jeff Clune长期研究开放式进化算法、AI-generating algorithms和AI安全，也是Darwin Gödel Machine论文的作者之一，这篇论文讨论的正是让AI系统修改自身代码、再用benchmark验证改进是否有效。