

【导读】刚刚,AI界传奇Jeff Dean深度访谈重磅放出!作为谷歌大脑奠基人、TensorFlow与TPU背后的关键推手,他亲述了这场神经网络革命的非凡历程。
刚刚,「现代互联网架构之父」Jeff Dean的最新对谈流出。
这位AI领域的传奇,是Google Brain的奠基者,也是推动神经网络走向规模化的关键人物。
从让神经网络「看懂猫」的重大突破,到TensorFlow与TPU的诞生,他的故事几乎是一部AI发展史。
在最新一期「登月播客」(The Moonshot podcast)深度访谈中,Jeff Dean回顾了个人成长经历、Google Brain的早期故事,以及他对AI未来的思考。

节目中,他揭秘了他本人所知的一些细节和趣事:
· 小时候,Jeff Dean打印了400页源码自学。
· 90年代,他提出「数据并行/模型并行」概念时,还没这些术语。
· Google Brain的最初灵感,竟然是在谷歌的微型茶水间与吴恩达的一次闲聊中诞生。
· 「平均猫」图像的诞生,被Jeff比作「在大脑里找到了触发祖母记忆的神经元」。
· 他把AI模型比作「苏格拉底式伙伴」,能陪伴推理、辩论,而不是单向工具。
· 对未来的隐喻:「一亿老师,一个学生」,人类不断教AI模型,所有人都能受益。

Jeff是工程超级英雄口中的「工程超级英雄」,很少有人像Jeff Dean这样的单个工程师,赢得人们如此多的仰慕。

主持人的第一个问题是:Jeff Dean是如何成为工程师的?
Jeff Dean认为他有一个不同寻常的童年。因为经常搬家,在12年里他换了11所学校。
在很小的时候,他喜欢用乐高积木搭建东西,每次搬家总要带上他的乐高套装。
当九岁的时候,他住在夏威夷。
Jeff的父亲是一名医生,但他总是对计算机如何用于改善公共卫生感兴趣。当时如果想用计算机,他只能去健康部门地下室的机房,把需求交给所谓的「主机大神」,然后等他们帮你实现,速度非常慢。

在杂志上,Jeff的爸爸看到一则广告,买下了DIY计算机套件。那是一台Intel 8080的早期机型(大概比Apple II还要早一两年)。

最初,这台电脑就是一个闪烁灯和开关的盒子,后来他们给它加了键盘,可以一次输入多个比特。再后来,他们安装了一个BASIC解释器。Jeff Dean买了一本《101个BASIC语言小游戏》的书,可以把程序一行一行敲进去,然后玩,还能自己修改。
这就是他第一次接触编程。
后来,Jeff一家搬到明尼苏达州。全州的中学和高中都能接入同一个计算机系统,上面有聊天室,还有交互式冒险游戏。
这就像「互联网的前身」,比互联网普及早了15~20年。
当时,Jeff大概13、14岁,他在玩儿的一款多人在线的游戏源码开源了。
Jeff偷偷用了一台激光打印机,把400页源代码全都打印了出来,想把这款多人主机游戏移植到UCSD Pascal系统上。
这个过程让他学到了很多关于并发编程的知识。
这是Jeff Dean第一次编写出并不简单的软件。
大概是91年,人工智能第一次抓住了Jeff Dean想象力。
具体而言,是使用lisp代码进行遗传编程。
而在明尼苏达大学本科的最后一年,Jeff Dean第一次真正接触了人工智能。
当时,他上了一门并行与分布式编程课,其中讲到神经网络,因为它们本质上非常适合并行计算。

那是1990年,当时神经网络刚好有一波热潮。它们能解决一些传统方法搞不定的小问题。
当时「三层神经网络」就算是「深度」了,而现在有上百层。
他尝试用并行的方法来训练更大的神经网络,把32个处理器连在一起。但后来发现,需要的算力是100万倍,32个远远不够。

论文链接:https://drive.google.com/file/d/1I1fs4sczbCaACzA9XwxR3DiuXVtqmejL/view
虽然实验规模有限,但这就是他和神经网络的第一次深度接触,让他觉得这条路很对。
即便到了90年代末,神经网络在AI领域已经完全「过时」了。之后,很多人放弃了「神经网络」研究。
但Jeff Dean并没有完全放弃。当时整个AI领域都转移了关注点,他就去尝试别的事情了。
毕业后,他加入了Digital Equipment Corporation在Palo Alto的研究实验室。

数字设备公司Digital Equipment Corporation,简称DEC,商标迪吉多Digital,是成立于1957年的一家美国电脑公司,发明了PDP系列迷你计算机、Alpha微处理器,后于1998年被康柏电脑收购
后来,他加入谷歌,多次在不同领域「从头再来」:
搜索与信息检索系统、大规模存储系统(Bigtable、Spanner)、机器学习医疗应用,最后才进入Google Brain。

在职业生涯里,Jeff Dean最特别的一点是:一次又一次地「从零开始」。
这种做法激励了很多工程师,证明了「影响力」不等于「手下的人数」,而是推动事情发生的能力。
就像把雪球推到山坡上,让它滚得足够快、足够大,然后再去找下一个雪球。Jeff Dean喜欢这种方式。

然后在Spanner项目逐渐稳定后,他开始寻找下一个挑战,遇到了吴恩达。

在谷歌的茶水间偶然碰面,吴恩达告诉Jeff Dean:「在语音和视觉上,斯坦福的学生用神经网络得到了很有前景的结果。」
Jeff一听就来了兴趣,说:「我喜欢神经网络,我们来训练超大规模的吧。」
这就是Google Brain的开端,他们想看看是否能够真正扩大神经网络,因为使用GPU训练神经网络,已经取得良好的结果。
Jeff Dean决定建立分布式神经网络训练系统,从而训练非常大的网络。最后,谷歌使用了2000台计算机,16000个核心,然后说看看到底能训练什么。
渐渐地,越来越多的人开始参与这个项目。
谷歌在视觉任务训练了大型无监督模型,为语音训练了大量的监督模型,与搜索和广告等谷歌部门合作做了很多事情。

最终,有了数百个团队使用基于早期框架的神经网络。
纽约时报报道了这一成就,刊登了那只猫的照片,有点像谷歌大脑的「啊哈时刻」。

因为他们使用的是无监督算法。
他们把特定神经元真正兴奋的东西平均起来,创造最有吸引力的输入模式。这就是创造这只猫形象的经过,称之为「平均猫」。
在Imagenet数据集,谷歌微调了这个无监督模型,在Imagenet 20000个类别上获得了60%的相对错误率降低(relative error rate reduction)。
同时,他们使用监督训练模型,在800台机器上训练五天,基本上降低了语音系统30%的错误率。这一改进相当于过去20年的语音研究的全部进展。
因此,谷歌决定用神经网络进行早期声学建模。这也是谷歌定制机器学习硬件TPU的起源。
注意力机制三部曲
之后不久,谷歌大脑团队取得了更大的突破,就是注意力机制(attention)。
Jeff Dean认为有三个突破。
第一个是在理解语言方面,词或短语的分布式表示(distributed representation)。
这样不像用字符「New York City」来表示纽约市,取而代之的是高维空间中的向量。
纽约市倾向于出现的固有含义和上下文,所以可能会有一个一千维的向量来表示它,另一个一千维的向量来表示番茄(Tomato)。
而实现的算法非常简单,叫做word2vec(词向量),基本上可以基于试图预测附近的词是什么来训练这些向量。

论文链接:https://arxiv.org/abs/1301.3781
接下来,Oriol Vinyals, Ilya Sutskever和Quoc Le开发了一个叫做序列到序列(sequence to sequence)的模型,它使用LSTM(长短期记忆网络)。

论文链接:https://arxiv.org/abs/1409.3215
LSTM有点像是一个以向量作为状态的东西,然后它处理一堆词或标记(tokens),每次它稍微更新它的状态。所以它可以沿着一个序列扫描,并在一个基于向量的表示中记住它看到的所有东西。
它是系统运行基础上的短期记忆。
结果证明这是建模机器翻译的一个非常好的方法。
最后,才是注意力机制,由Noam Shazeer等八人在Transformer中提出的注意力机制。

这个机制的想法是,与其试图在每个单词处更新单个向量,不如记住所有的向量。

所以,注意力机制是这篇非常开创性的论文的名字,他们在其中开发了这种基于transformer的注意力机制,这个机制在序列长度上是n平方的,但产生了惊人的结果。

一直以来,LLM神经网络运作机制很难被人理解,成为一个无法破译的「黑箱」。
而如今,随着参数规模越来越庞大,人们无法像理解代码一样去理解LLM。
研究人员更像是在做「神经科学」研究:观察数字大脑的运作方式,然后试着推理背后的机制。

人类理解模型的想法,未来会怎么发展?
Jeff Dean对此表示,研究这一领域的人,把它称之为「可解释性」。所谓可解释性,就是能不能搞清楚LLM到底在做什么,以及它为什么会这么做?
这确实有点像「神经科学」,但相较于研究人类神经元,LLM毕竟是数字化产物,相对来说探测比较容易。
很多时候,人们会尝试做一些直观的可视化,比如展示一个70层模型里,第17层在某个输入下的情况。
这当然有用,但它还是一种比较静态的视角。
他认为,可解释性未来可能的发展一个方向——如果人类想知道LLM为何做了某种决定,直接问它,然后模型会给出回答。
主持人表示,自己也不喜欢AGI术语,若是不提及这一概念,在某个时候,计算机会比人类取得更快的突破。
未来,我们需要更多的技术突破,还是只需要几年的时间和几十倍的算力?
Jeff Dean表示,自己避开AGI不谈的原因,是因为许多人对它的定义完全不同,并且问题的难度相差数万亿倍。
就比如,LLM在大多数任务上,要比普通人的表现更强。
要知道,当前在非物理任务上,它们已经达到了这个水平,因为大多数人并不擅长,自己以前从未做过的随机任务。在某些任务中,LLM还未达到人类专家的水平。
不过,他坚定地表示,「在某些特定领域,LLM自我突破已经触及门槛」。

前提是,它能够形成一个完全自动化闭环——自动生成想法、进行测试、获取反馈以验证想法的有效性,并且能庞大的解决方案空间中进行探索。
Jeff Dean还特别提到,强化学习算法和大规模计算搜索,已证明在这种环境中极其有效。
在众多科学、工程等领域,自动化搜索与计算能力必将加速发展进程。
这对于未来5年、10年,甚至15-20年内,人类能力的提升至关重要。
当问及未来五年个人规划时,Jeff Dean称,自己会多花些时间去思考,打造出更加强大、更具成本效益的模型,最终部署后服务数十亿人。
众所周知,谷歌DeepMind目前最强大的模型——Gemini 2.5 Pro,在计算成本上非常高昂,他希望建造一个更优的系统。
Jeff Dean透露,自己正在酝酿一些新的想法,可能会成功,也可能不会成功,但朝着某个方向努力总会有奇妙之处。
☟☟☟
☞人工智能产业链联盟筹备组征集公告☜
☝
精选报告推荐:
11份清华大学的DeepSeek教程,全都给你打包好了,直接领取:
【清华第四版】DeepSeek+DeepResearch让科研像聊天一样简单?
【清华第七版】文科生零基础AI编程:快速提升想象力和实操能力
【清华第十一版】2025AI赋能教育:高考志愿填报工具使用指南
10份北京大学的DeepSeek教程
【北京大学第五版】Deepseek应用场景中需要关注的十个安全问题和防范措施
【北京大学第九版】AI+Agent与Agentic+AI的原理和应用洞察与未来展望
【北京大学第十版】DeepSeek在教育和学术领域的应用场景与案例(上中下合集)
8份浙江大学的DeepSeek专题系列教程
浙江大学DeepSeek专题系列一--吴飞:DeepSeek-回望AI三大主义与加强通识教育
浙江大学DeepSeek专题系列二--陈文智:Chatting or Acting-DeepSeek的突破边界与浙大先生的未来图景
浙江大学DeepSeek专题系列三--孙凌云:DeepSeek:智能时代的全面到来和人机协作的新常态
浙江大学DeepSeek专题系列四--王则可:DeepSeek模型优势:算力、成本角度解读
浙江大学DeepSeek专题系列五--陈静远:语言解码双生花:人类经验与AI算法的镜像之旅
浙江大学DeepSeek专题系列六--吴超:走向数字社会:从Deepseek到群体智慧
浙江大学DeepSeek专题系列七--朱朝阳:DeepSeek之火,可以燎原
浙江大学DeepSeek专题系列八--陈建海:DeepSeek的本地化部署与AI通识教育之未来
4份51CTO的《DeepSeek入门宝典》
51CTO:《DeepSeek入门宝典》:第1册-技术解析篇
51CTO:《DeepSeek入门宝典》:第2册-开发实战篇
51CTO:《DeepSeek入门宝典》:第3册-行业应用篇
51CTO:《DeepSeek入门宝典》:第4册-个人使用篇
5份厦门大学的DeepSeek教程
【厦门大学第一版】DeepSeek大模型概念、技术与应用实践
【厦门大学第五版】DeepSeek等大模型工具使用手册-实战篇
10份浙江大学的DeepSeek公开课第二季专题系列教程
【精选报告】浙江大学公开课第二季:《DeepSeek技术溯源及前沿探索》(附PDF下载)
【精选报告】浙江大学公开课第二季:2025从大模型、智能体到复杂AI应用系统的构建——以产业大脑为例(附PDF下载)
【精选报告】浙江大学公开课第二季:智能金融——AI驱动的金融变革(附PDF下载)
【精选报告】浙江大学公开课第二季:人工智能重塑科学与工程研究(附PDF下载)
【精选报告】浙江大学公开课第二季:生成式人工智能赋能智慧司法及相关思考(附PDF下载)
【精选报告】浙江大学公开课第二季:AI大模型如何破局传统医疗(附PDF下载)
【精选报告】浙江大学公开课第二季:2025年大模型:从单词接龙到行业落地报告(附PDF下载)
【精选报告】浙江大学公开课第二季:2025大小模型端云协同赋能人机交互报告(附PDF下载)
【精选报告】浙江大学公开课第二季:DeepSeek时代:让AI更懂中国文化的美与善(附PDF下载)
【精选报告】浙江大学公开课第二季:智能音乐生成:理解·反馈·融合(附PDF下载)
6份浙江大学的DeepSeek公开课第三季专题系列教程
【精选报告】浙江大学公开课第三季:走进海洋人工智能的未来(附PDF下载)
【精选报告】浙江大学公开课第三季:当艺术遇见AI:科艺融合的新探索(附PDF下载)
【精选报告】浙江大学公开课第三季:AI+BME,迈向智慧医疗健康——浙大的探索与实践(附PDF下载)
【精选报告】浙江大学公开课第三季:心理学与人工智能(附PDF下载)
【AI加油站】第八部:《模式识别(第四版)-模式识别与机器学习》(附下载)
人工智能产业链联盟高端社区

一次性说清楚DeepSeek,史上最全(建议收藏)
DeepSeek一分钟做一份PPT
用DeepSeek写爆款文章?自媒体人必看指南
【5分钟解锁DeepSeek王炸攻略】顶级AI玩法,解锁办公+创作新境界!
【中国风动漫】《雾山五行》大火,却很少人知道它的前身《岁城璃心》一个拿着十米大刀的男主夭折!

免责声明:部分文章和信息来源于互联网,不代表本订阅号赞同其观点和对其真实性负责。如转载内容涉及版权等问题,请立即与小编联系(微信号:913572853),我们将迅速采取适当的措施。本订阅号原创内容,转载需授权,并注明作者和出处。如需投稿请与小助理联系(微信号:AI480908961)
编辑:Zero


