
新智元报道
新智元报道

【新智元导读】奥特曼赢麻了!Transformer八子之一、Gemini技术联合负责人Noam Shazeer正式加盟OpenAI,任新的「架构负责人」,去造下一个超级智能。
Transformer核心奠基人之一,入职OpenAI了!

今天,Noam Shazeer亲自官宣:他将加入OpenAI,担任「架构研究负责人」。

这位用一篇《Attention Is All You Need》改写了整个AI世界的传奇人物,在回到谷歌不到2年后,再一次选择转身离开。
随着官宣落地,OpenAI成员已在X上齐刷刷列队,欢迎大佬的到来!


要理解今天这条消息的分量,得先搞清楚Noam Shazeer是谁。
一句话,他是「现代AI的地基」的浇筑者之一。

2017年,那篇标题狂得有点嚣张的论文《Attention Is All You Need》横空出世,提出了Transformer架构。
今天每一个大模型,GPT、Gemini、Claude,底层全部脱胎于这篇15页的论文。
八位作者,被业界封为「Transformer八子」,Shazeer便是其中之一。

而Shazeer,不只是挂名作者。
多头注意力(multi-head attention)是他亲手设计的,残差结构是他搭的,第一个跑赢SOTA的可用实现,是他一行一行敲出来的。
然而,属于Noam Shazeer的「封神榜」,远不止这一篇划时代的论文——
2016年,稀疏门控的混合专家(MoE),现代LLM省算力的命门技术;
2018年,Mesh-TensorFlow,第一个能在超算上训练巨型Transformer的实用系统;
2019年,T5;
还有谷歌对话系统LaMDA的核心贡献者。
毫不夸张地说,现代大模型赖以生存的几大底层技术,几乎全都在他的名下。

难怪有知名播客主持人,直接给出最高评价,「他是这场AI革命背后,那个最该『负责』的男人。」

而这段开挂的履历,还要从更早讲起。Shazeer是个不折不扣的天才少年。
1994年国际数学奥林匹克金牌,满分,随后进入杜克大学攻读数学与计算机。
2000年,他加入了当时才两岁的谷歌,第一份大活儿是改进搜索引擎的拼写纠错;
后来写下PHIL算法,成了谷歌AdSense系统的内核。

这一干,就是9年。
2021年,Shazeer正式离开谷歌,与Daniel De Freitas创办了Character.AI。

2024年8月,谷歌做了一件震动全行业的事:
为了把Shazeer请回来,谷歌以27亿美元授权了他的创业公司Character.AI的技术。
这笔钱名义上买的是技术,业内都心知肚明——谷歌真正想买的,是那个人。

Shazeer持有Character.AI三到四成股份,仅这一笔,他个人就套现了约7.5亿到10亿美元。
回来之后,他和Jeff Dean、Oriol Vinyals一起,成了谷歌Gemini的技术掌舵人。
坊间传闻,正是他回来后揪出了Gemini训练里一个深藏的bug,让模型训练效率暴涨。
最终,把Gemini 3推上各大榜单第一,逼得奥特曼在OpenAI内部拉响「红色警报」。
换句话说,谷歌这两年的翻身仗,他是头号功臣之一。
所以今天他走,谷歌的痛,不只是少了一个VP那么简单。


谷歌这边军心未稳,OpenAI那边已经把欢迎词写好了。
几乎在同一时间,OpenAI首席研究官Mark Chen发推接人,Noam Shazeer将任新架构负责人。
他在Transformer、MoE和高效解码上的工作,塑造了现代AI。
他对AGI极度笃信,而且对『让一切走向正确』想得非常透彻。

注意那个职位,架构研究负责人,这五个字信息量极大!
OpenAI找他,不是去优化某个产品,而是去搞架构、去想「Transformer之后是什么」。
让那个发明了Transformer的人,去发明下一个Transformer。
这步棋的野心,写在脸上。


而真正让人脊背发凉的是另一个细节——
八位Transformer作者,早已各奔东西:Aidan Gomez去做了Cohere,Llion Jones创办Sakana,Vaswani和Parmar去了Adept……
唯独有一个人,五年前就低调走进了OpenAI,那就是Lukasz Kaiser。

他没创业,一头扎进推理模型,主导了o1、o3的核心研发。
现在Shazeer再进去,OpenAI一口气攒齐了两个Transformer原作者。
一个定义了过去,一个在啃未来。
如今两人将在同一面旗下,去搭下一代AI的骨架。这种阵容,放眼全行业,独此一家。

或许人们会问,为什么是OpenAI?
Mark Chen那句「极度的AGI信徒」,才是答案的关键。
Shazeer对超级智能的信仰,近乎赤裸——
他公开谈论过,「百万个自动化研究员」在数据中心里日夜运转,谈论过「世界GDP暴涨100倍」。

当被问到大模型为什么能work,他给过一个堪称玄学的回答:
我最好的猜测,是神的恩典,没人真正理解到底发生了什么。
而真正值得细想的是:多头注意力,那个跑在今天每一个、正向超级智能狂奔的模型底层的机制,正是出自他之手。
Transformer只是第一步,从AGI到ASI那条路上的地基,是他一遍遍重新发明出来的。
如今,这个把地基铺向ASI的人,站到了OpenAI这一边。
27亿,能买回一个人,却买不回他赌的那个未来。
参考资料:
https://x.com/NoamShazeer/status/2067400851438932297?s=20
编辑:桃子


