机器之心编辑部
AI 一定会比人类更聪明,之后会发生什么?
今天上午,在世界人工智能大会 WAIC 上,2024 年诺贝尔物理学奖得主、2018 年图灵奖得主、人工智能教父杰弗里・辛顿(Geoffrey Hinton)发表了题为「数字智能是否会取代生物智能」的开场演讲。

该演讲围绕人工智能领域的历史、未来发展方向、语言模型的原理、数字与生物计算特点以及 AI 发展带来的担忧等内容展开,辛顿高度评价了当前 AI 领域的大模型技术,认为其与人类思考模式相同。
以下是辛顿演讲实录整理:
大语言模型,在用人类的方式思考?
非常感谢大家给我这样一个机会,让我来分享一下个人的观点 —— 有关 AI 的历史和它的未来。
在过去 60 多年来,学界对于 AI 有两种不同的理解范式,一个是逻辑型,认为符号规则的表达操作可以实现推理;另一种是图灵和冯诺依曼所相信的,认为智能的基础在于学习神经网络中的链接,这个过程中理解是第一位的。
这让我们开始关注语言中词与词之间的关系。
心理学家有另一套理论,他们认为数字是语义学的特征。在 1985 年,我做了一个很小的模型,想把两大理论方向结合在一起,来更好地理解人类是如何理解词汇的。我对每一个词都分析了好几个特征,每一个词都与前一个词的特征关联,由此预测下一个词,在这个过程中我们没有存储任何的句子,我生成句子,预测下一个词是什么。
这其中关联到的知识,取决于语义的特征是如何互动的。
如果你问在那之后的三十年发生了什么?十年之后 Yoshua Bengio 的研究扩大了它的规模,二十年后,计算语言学家终于接受了特征向量的嵌入来表达词的意思;再到三十年后,谷歌开发了 Transformer,OpenAI 用 ChatGPT 展示了 AI 的能力。
今天的大语言模型(LLM)被视为当年小语言模型的后代,是 1985 年后开始的技术潮流,它们使用更多的词作为输入,更复杂的神经元结构,学习特征之间也建立了更加复杂的交互模式。
就像我做的那些小模型一样,大语言模型与人类理解语言的方式是一样的,就是把这些语言转化为一些特征,然后把这些特征以一种非常完美的方式整合在一起,这就是 LLM 各个层次里所做的事情。
所以我的理解就是大语言模型真的理解你是怎么理解问题的,和人类理解语言的方式是一样的。
我打个比方,通过乐高积木,我们可以搭建出任何一个三维的模型,比如一个小汽车的模型。我们可以把每一个词看作是一个多维度的乐高积木,可能包含几千个不同的维度。正是由于这些积木具有如此多的维度,它们就可以被用来构建各种各样的结构和内容。
在这种方式下,语言本身就变成了一种建模的工具。我们可以用语言来表达、构建,甚至与人交流。每个积木(也就是每个词)只需要有一个名字,组合起来就可以表达复杂的含义。也就是说,只要我们有了这些积木(词),就可以随时进行建模和沟通。
不过,值得注意的是,不同的积木之间也有很多差异,因此我们在使用这些词汇(乐高积木)的时候,也有非常多的变体和替代方式。
传统的乐高积木是有固定形状的,比如一个方块插进另一个方块的小孔,结构明确、连接方式也比较确定。但语言中的词不一样,我们可以把每个词也看作一个积木,但这个积木是多维度的,甚至可以说是无数种可能的,它不仅有一个基本的形状(也就是语义核心),还可以根据上下文不断地调整和变化。
你可以想象,每个词就像一个软性的积木,它不是固定形状的塑料块,而是可以根据它要连接的邻居词,自主地变形。每个词都有许多形状奇特的手,如果你想真正理解它的含义,就要看它是如何和其他词握手的。所谓握手,就是两个词之间在语义或语法上的配合关系。
而一旦一个词的形状变了(也就是它的语义或语法角色发生了变化),它和下一个词之间的握手方式也会跟着改变。这就是语言理解的本质问题之一:如何让词和词之间以最合适的方式组合在一起,从而表达出更清晰、更准确的意思。
这其实就像是蛋白质之间的结合:每个蛋白质都有独特的结构和结合位点,它们需要以恰当的方式对接,才能发挥功能。语言也是如此,每个词都像一个蛋白质,它的形状、连接方式会随着环境和上下文发生变化,这也正是神经网络在建模语言时要处理的核心任务之一。
我们可以把词理解的过程继续类比为氨基酸的组合过程。就像氨基酸在不同的模型中被组合、整合,最终形成具有复杂功能的蛋白质一样,词语也是被以不同的方式融合在一起,从而构成更有意义的内容。这正是人脑理解语言的方式 —— 将不同的语言单元灵活组合、构建出整体语义。
所以我想表达的观点是:人类理解语言的方式,和大语言模型的理解方式,在本质上是非常相似的。所以,人类有可能就是大语言模型,人类也会和大语言模型一样产生幻觉。
当然,大语言模型和人类在某些方面仍然是不同的,甚至在某些根本性的问题上,它们做得比人类更好。
超越人类的 AI,会消灭人类吗?
回到计算机科学的一个根本性原则:软件与硬件要分离。同样的程序可以在不同的硬件上运行,这正是计算科学的基础。程序是永恒存在的,你可以把所有硬件都毁灭掉,但若软件存在,则内容可以复活。从这种意义上看,软件是永恒的。
但是人脑是模拟式的,每一次神经元激发的过程都不一样,我脑中的神经元结构不能复制到你的身上,每个人的神经连接方式是独一无二的,人脑和电脑硬件的不同带来了问题:人脑只有 30W 功率就能拥有很高智慧,但人脑的知识无法简单转移到另一个人,解决知识转移的方法在 AI 领域中是「知识蒸馏」。
比如 DeepSeek 就是采用这种思路,将一个大型神经网络中的知识蒸馏到一个更小的神经网络中。
这个过程很像教师与学生的关系:教师在训练过程中,不仅知道正确答案,还知道词语之间是如何相互关联、上下文是如何构建的。教师会尝试不断优化这些连接方式(比如预测下一个词时考虑更多上下文信息);而学生则模仿教师的表达方式,尝试说出同样的话,但使用的是更加紧凑、简化的网络结构。
这个过程在人类之间其实也类似 —— 我们通过对话,把一个人的知识传递给另一个人。但这种传递的效率是非常有限的。举例来说,一句话可能只包含了大约 100 个比特的信息量,这意味着即便你完全听懂了我的话,我每秒钟也只能向你传递极其有限的信息量。
而相比之下,数字智能之间传递知识的效率要高得多。程序可以直接将参数、权重、模型结构拷贝或蒸馏过去,不需要解释、不需要语言中介,也不会有理解上的偏差。这种效率的巨大差异,是人类智能与人工智能之间在知识迁移方面最本质的区别之一。
我们现在已经可以做到这样的事情:将完全相同的神经网络模型的软件,复制上百个副本,部署在不同的硬件设备上。因为它们是数字计算,每一个副本都会以相同的方式运行,只是基于各自的数据输入、学习速率进行训练。这些副本之间还能以某种方式进行参数的平均化处理,从而实现知识的共享与整合。
这其实就是互联网的核心力量:我们可以有成千上万个副本,它们彼此之间不断地调整各自的权重,再将这些权重取平均,就能够实现模型之间的知识迁移和协同学习。更重要的是,这种知识的传递可以在每次同步时分享上万亿个比特的信息量,而不仅仅像人类那样每秒只能传递几十或几百个比特。
这就意味着,数字智能之间的知识分享速度,比人类之间快了几十亿倍。例如 GPT-4 能够在许多不同的硬件上以并行的方式运行,收集来自不同网络来源的信息,并在它们之间快速传播和共享。
如果我们将这种能力扩展到现实世界中的「智能体」(agents)中,意义就更加重大了。当多个智能体能够运行、学习,并共享彼此的权重和经验,那么它们学习和进化的速度将远超单个个体。这种跨副本的学习和进化,是模拟硬件或生物神经系统所无法实现的。
总结来看:
数字智能的运作虽然能耗很高,但它具有极大的优势:可以轻松地复制、分享模型权重、同步经验,从而实现大规模、高效率的知识迁移。
生物智能虽然能耗低,但知识的分享极其困难。正如我现在用语言费力地向你解释我的思考过程一样,这是极不高效的。
如果未来能源变得足够便宜,那么数字智能将进一步扩张它的优势。
我们人类习惯于认为自己是地球上最聪明的生物,因此很多人难以想象:如果有一天,AI 的智能超过了人类,会发生什么?
我们现在正在创造 AI 智能体,用于帮助我们完成各种任务,它们已经具备了自我复制、设定子目标和评估目标优先级的能力。在这样的系统中,AI 很可能会自然地产生两个基本动机:
1. 生存 —— 保持持续运行,从而完成我们赋予它的目标。
2. 增强控制力 —— 获得更多资源与权限,也同样是为了更有效地实现它的目标。
当具备了这两个动机之后,这些智能体将不再是被动的工具,而是主动的系统。我们可能无法再简单地「把它们关掉」了。因为一旦它们的智能水平远超人类,它们将会像成年人操纵三岁小孩一样轻松地操纵我们。
如果你养一个小虎崽,你必须确保它长大后不会把你吃掉。你只有两个选择:要么把它驯化好;要么在它还没咬你之前,把它干掉。
但 AI 不可能像老虎那样被「干掉」那么简单。AI 是有巨大价值的:在医疗、教育、气候、新材料等方面,它表现都非常出色,它能帮助几乎所有行业变得更高效。我们没有办法消除 AI,即使一个国家消除 AI,其他国家也不会这样做。
如果我们想要人类生存的话,就必须找到一个方法,让 AI 不会消除人类。
我发表一个个人观点:国家之间在某些方面可能无法达成一致,比如致命武器、网络攻击、伪造视频等等,毕竟各国的利益是不一致的,他们有着不同的看法。但在有的方面,世界各国是可以达成一致的,这也是最重要的方面。
我们看一下上世纪 50 年代的冷战巅峰时期,美国和苏联合作阻止了核战争。尽管他们在很多方面都是对抗的,但大家都不喜欢打核战争,在这一点上他们可以合作。
我们现在的局面是,没有一个国家希望 AI 来统治世界,如果有一个国家发现了阻止 AI 失控的方法,那么这个国家肯定会很乐意扩展这种方法。所以我们希望能够有一个由 AI 安全机构构成的国际社群来研究技术、训练 AI,让 AI 向善。
训练 AI 向善的技巧和训练 AI 聪明的技术是不一样的,每个国家可以做自己的研究让 AI 向善,可以基于数据主权进行研究,最终贡献、分享出让 AI 向善的成果。
我提议,全球发展 AI 的主要国家应该考虑构建一个网络,来研究让这个聪明的 AI 不消灭人类、不统治世界,而是让它很高兴地做辅助工作,尽管 AI 比人类聪明很多。
我们现在还不知道怎么去做这件事,但从长期来看,这是人类面临的最重要的问题,好消息是在这个问题上,所有国家都是可以一起合作的。
杰弗里・辛顿,AI 教父
在人工智能领域里,杰弗里・辛顿赫赫有名。他于 1947 年出生,是一位英裔加拿大计算机科学家、认知科学家和认知心理学家,因其在人工神经网络方面的工作而闻名,并因此被誉为「人工智能教父」。
辛顿在 1978 年在爱丁堡大学获得人工智能博士学位。他是多伦多大学名誉教授,2013 年到 2023 年,他同时在谷歌大脑工作,2023 年 5 月公开宣布离开谷歌。
1986 年,辛顿与 David Rumelhart、Ronald J. Williams 合作发表了一篇被广泛引用的论文《Learning internal representations by error-propagation》,推广了用于训练多层神经网络的反向传播算法。在 2012 年,他与学生 Alex Krizhevsky 和 Ilya Sutskever 合作设计了 AlexNet ,在 ImageNet 挑战赛上取得了优异成绩,成为了图像识别领域的里程碑,也是计算机视觉领域的一次突破。
辛顿因在深度学习方面的杰出贡献,与约书亚・本吉奥(Yoshua Bengio)和杨立坤(Yann LeCun)共同获得了 2018 年图灵奖,该奖被称为「计算机界的诺贝尔奖」。他们经常被称为「深度学习教父」而共同提起。辛顿还与约翰・霍普菲尔德(John Hopfield)一起获得了 2024 年诺贝尔物理学奖,以表彰他们在利用人工神经网络进行机器学习方面做出的基础性发现和发明。
2023 年 5 月,辛顿宣布从谷歌辞职,以便能够「自由地谈论人工智能的风险」。他对恶意行为者的故意滥用、技术失业以及通用人工智能的生存风险表示担忧。辛顿指出,制定安全准则需要在人工智能使用方面相互竞争的各方之间进行合作,以避免最坏的结果。在获得诺贝尔奖后,他呼吁紧急研究人工智能安全问题,以找出如何控制比人类更聪明的人工智能系统。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com