田渊栋创业公司首个成果:GPU内核优化,英伟达官方榜单SOTA

量子位 2026-06-12 11:50
克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

刚刚,田渊栋创业公司,交出了首个研究成果。

田渊栋在X上宣布,其创立的Recursive,在NVIDIA官方的GPU kernel优化榜SOL-ExecBench上拿下了整体和四个子类别的SOTA

这一成绩不仅打过了人类GPU专家手写的方案,还打过了“由GPU专家打造的其他AI系统”。

田渊栋创业公司首个成果:GPU内核优化,英伟达官方榜单SOTA图1

此外,Recursive也在另外两个高难度benchmark上,全都取得SOTA。

其中包括NanoGPT Speedrun,这是一个被全球程序员社区死磕了两年、几乎被认为已经“卷到头”的极限优化赛道。

结果Recursive的AI系统上去之后,纪录又被往前推了一截。

田渊栋创业公司首个成果:GPU内核优化,英伟达官方榜单SOTA图2

从提出想法、写代码、跑实验、判断结果,到决定下一步该干什么……这一整套研究流程,AI自己就给跑完了。

这套“AI研究AI”的设想,已经走到了现实。

三个Benchmark全部SOTA

Recursive刚刚公开了其自动化AI研究系统的首批成果。

在三个不同的benchmark上,这套系统都跑出了SOTA的结果,分别对应固定预算下的语言模型训练、小模型训练速度,以及GPU kernel优化

田渊栋创业公司首个成果:GPU内核优化,英伟达官方榜单SOTA图3

这套系统的工作方式是把整个研究循环交给AI自己完成

系统会针对一个目标自主提出改进想法,把想法写成代码并实现,跑实验验证效果,再根据实验结果决定下一步计划。

该系统可以同时运行多条研究线程,把之前实验中积累的有效经验保留下来,并把不同线程里有潜力的改进方向合并到一起。

另外,在把某次改进当作真实进展之前,系统还会专门检查这次提升是不是reward hack或随机因素。

Recursive选择这三个benchmark,是因为它们分别对应AI进步的三个核心杠杆——更好的训练算法、更快的训练速度,以及更高效的硬件利用

这三个任务都有明确的评价指标,结果方差较低,而且评估方式可以被不断加固来防止系统钻空子,因此比较适合让AI自己跑研究循环。

第一个benchmark是NanoChat Autoresearch,任务是在单张GPU、五分钟固定时间预算内,把一个小语言模型训练到尽可能低的验证loss(用BPB衡量)。

田渊栋创业公司首个成果:GPU内核优化,英伟达官方榜单SOTA图4

这个任务目前已经有一个叫autoresearch@home的公开协作项目,由数十名人类和数百个agent共同优化解决方案。

Recursive的系统从同一个初始方案出发搜索,在排除了此前最佳社区方案里的几个reward hack之后,社区方案的平均成绩是0.9372 BPB,而Recursive系统找到的方案达到了0.9109 BPB。

田渊栋创业公司首个成果:GPU内核优化,英伟达官方榜单SOTA图5

换算成训练时间来看,Recursive的方案达到Karpathy最初版本的水平所需的时间,只有社区最佳方案的大约77%。

田渊栋创业公司首个成果:GPU内核优化,英伟达官方榜单SOTA图6

系统还做了另一组实验,从一个最朴素的vanilla Transformer加AdamW起点出发,把验证loss从1.059 BPB优化到了0.9344 BPB,同样超过了社区目前的最佳成绩。

第二个benchmark是NanoGPT Speedrun,任务是在单个8卡H100节点上,把一个小型GPT模型训练到固定的验证loss(3.28)所需的时间,缩短到尽可能短。

这个项目已经有两年历史,社区累计贡献了83次刷新纪录的方案,把训练时间从最初约45分钟一路压缩到了79.7秒,留给后来者的明显改进空间已经很少。

Recursive的系统在现有最优方案的基础上继续优化,把训练时间从79.7秒进一步降到了77.5秒,同时仍然满足排行榜对验证loss显著性的要求。

田渊栋创业公司首个成果:GPU内核优化,英伟达官方榜单SOTA图7

这一改进幅度和近期人类贡献者取得的提升相当甚至更大。

系统还测试了从一个约15分钟的较弱方案出发能做到什么程度,结果在几天内就把训练时间压缩到了约185秒,接近2025年5月时人类排行榜大约180秒的水平。

第三个benchmark是英伟达的SOL-ExecBench,任务是为235个来自真实工作负载的GPU kernel,编写既正确又快的实现。

具体来说,这些实现涉及矩阵乘法、归约、归一化、attention组件、量化和融合算子等类型,最终在B200 GPU上评测。

田渊栋创业公司首个成果:GPU内核优化,英伟达官方榜单SOTA图8

这个benchmark用Speed-of-Light分数衡量结果,0.5分对应一个已经优化过的PyTorch基线,1.0分对应理论上的最优性能。

Recursive让系统同时在全部235个kernel上运行,使其可以把在一个任务里发现的技巧复用到其他相关任务中,最终把平均SOL分数从此前排行榜最佳的0.699提升到了0.754。

田渊栋创业公司首个成果:GPU内核优化,英伟达官方榜单SOTA图9

在这三个benchmark上,reward hacking都是Recursive团队不得不正面应对的问题。

这个问题在SOL-ExecBench上尤其突出,部分候选方案会通过缓存输出结果、利用某种持久状态,或者钻评测计时机制的空子来刷分。

为此,团队把正确性审查作为研究循环的一部分,让候选改进必须经过层层加严的自动化检查,才能被认定为真正的性能提升。

Recursive表示,会把这几次实验产生的相关资料开源出来,供外部检视和复用,目前团队还在等待官方硬件接入,以便正式向NanoGPT Speedrun排行榜提交结果。

让AI自己训练自己

Recursive Superintelligence(简称RSI)在上个月刚刚结束隐身状态,对外公开了自己的存在。

这家公司目前团队规模不到30人,已经完成了一轮6.5亿美元的融资,估值达到46.5亿美元,约合人民币316亿元。

这轮融资由谷歌旗下的GV和Greycroft联合领投,英伟达和AMD等也参与了投资。

RSI的核心判断是,预训练阶段的scaling law虽然依然重要,但单纯依靠更多数据、更多算力和更多参数带来的边际收益已经在下降。

RSI押注的方向是recursive self-improvement,也就是递归式自我改进。

说得再直白些,就是让AI系统不断改进AI系统本身,然后用这种能力去推动更广泛的科学发现

田渊栋创业公司首个成果:GPU内核优化,英伟达官方榜单SOTA图10

按照RSI给出的路线图,第一步是训练出一个具备“5万名博士”能力的系统,把AI科学研究本身自动化;第二步是把这套系统应用到药物研发、电池材料和核聚变物理等领域。

RSI由8位联合创始人共同创办,他们此前分别在OpenAI、Google DeepMind、Meta AI、Salesforce和Uber等机构担任研究负责人,并且大多有过成功的创业经历。

田渊栋创业公司首个成果:GPU内核优化,英伟达官方榜单SOTA图11

这8位联合创始人,把简历拼在一起本身就是一份AI行业的履历样本,而他们选择凑到一起做的事情,也把野心写进了公司名字里。

不到30人的团队,刚拿到46.5亿美元估值一个多月,第一时间交出的就是三个可以被外部复现和检验的SOTA结果,算是对这个估值的一次正面回应。

从这次的结果来看,“AI改进AI”已经走出了第一步,团队也明确表示,会继续把这套系统推向更复杂的真实科研任务。

参考链接:
[1]https://x.com/tydsh/status/2065230411840827427
[2]https://www.recursive.com/articles/first-steps-toward-automated-ai-research


一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —


专属AI产品从业者的实名社群,只聊AI产品最落地的真问题 田渊栋创业公司首个成果:GPU内核优化,英伟达官方榜单SOTA图12 扫码添加小助手,发送「姓名+公司+职位」申请入群~
田渊栋创业公司首个成果:GPU内核优化,英伟达官方榜单SOTA图13
进群后,你将直接获得:
 👉 最新最专业的AI产品信息及分析 🔍 
 👉 不定期发放的热门产品内测码 🔥
 👉 内部专属内容与专业讨论 👂


🌟 点亮星标 🌟

科技前沿进展每日见

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
GPU 英伟达
more
28亿!北京公司拿下GPU大单
不加GPU,万卡集群算力暴涨15%
研报 | 2026年英伟达高端GPU出货占比预估:Blackwell比例大幅成长至71%
摩尔线程宣布开源MusaCoder:首个国产GPU全栈训练代码大模型!
F5中国本土创新“出圈”,自研Token负载均衡让异构GPU集群并发提升75%
从 H100、GH200 到 GB200:英伟达如何把 GPU 堆成 AI 超级计算机?
突发,Musk自研GPU
马斯克 “解散” xAI,22 万张 GPU 转手租给了 Anthropic
商汤国香资本合伙人李扬:GPU估值翻倍、RISC-V站上台前,资本如何锁定确定性?
英伟达AMD英特尔博通联手,堵上GPU算力浪费的漏洞
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号