思维的火花：从赫布法则到大模型，看懂智能的起源

无论我们探索的是碳基智能（人脑）还是硅基智能（AI），最终似乎都会回归到一个根本原则：联想。

在人脑中，一位加拿大心理学家在半个多世纪前就已精辟地捕捉到了这一点。

而在我们最新创造的数字大脑中，这一原则源自于对海量文本近乎无情的统计分析。

这是一个关于两种不同神经元的故事。

它讲述了共同出现这一简单行为，是如何为记忆、预测乃至一种初级智能形态奠定基础的。

第一部分：生物蓝图 —— 赫布法则

1949 年，唐纳德·赫布 (Donald Hebb) 提出了一个革命性的观点，用于解释大脑如何学习和适应。

在他的著作《行为的组织》中，他这样假设：

“
当细胞 A 的轴突距离细胞 B 足够近，并重复或持续地参与激发 B 时，一个或两个细胞都会发生某种生长过程或代谢变化，使得 A 作为激发 B 的细胞之一，其效率得以提高。

用一句更简单易记的话总结就是：一起放电的神经元，会连接在一起。

这不仅是一句口号，更是对突触可塑性的精妙描述。突触，就是两个神经元之间的连接点。

赫布法则指出，如果神经元 A 持续并重复地触发神经元 B 产生一个动作电位（即神经元的放电），它们之间的连接就会被强化。

这个突触会变得更有效率。这意味着在未来，神经元 A 只需更少的刺激，就能让神经元 B 再次放电。

运作原理：学习的细胞基础

想象两个通过突触相连的神经元。在初始状态下，这个连接非常微弱。

1. 同步激活：

某个特定事件发生，比如一个孩子碰到了热炉子。携带极高温度信号的感觉神经元（神经元 A）开始放电。
几乎在同一时刻，携带手部剧痛信号的其他神经元（神经元 B）也放电了。

2. 强化连接：

因为神经元 A 和 B 是同时被激活的，它们之间的突触连接在化学层面得到了加强。
这是通过长时程增强等生物过程实现的。简言之，突触前神经元释放更多神经递质，而突触后神经元对它变得更加敏感。

3. 形成回路：

这个被加强的连接现在构成了一个原始回路。
将来，哪怕只是热炉子的视觉或触觉信号（神经元 A）被激活，它都能高效地激活疼痛神经元（神经元 B）。
这使得大脑在完全感知到疼痛之前就预见到了它。这个回路，就是记忆和习得性反射的物理基础：看到炉子 -> 预感疼痛 -> 缩手。

赫布学习的实例：

学习运动技能

当你刚开始学弹钢琴和弦时，大脑向手指发出的运动指令是笨拙且不协调的。
通过不断练习，那套以正确顺序和时机激活每个手指的神经元放电序列被反复重播。
这些神经元一起放电，最终连接在一起，创建了一个强大高效的回路。最终，弹奏和弦变成了一个自动、流畅的动作。

经典条件反射

在巴甫洛夫的著名实验中，铃声（中性刺激）最初并不会让狗流口水。但食物（非条件刺激）可以。
通过反复将铃声与食物配对，代表铃声和流口水的神经通路被同时激活。最终它们连接在了一起，到了铃声一响就能引发流口水的程度。

形成记忆

记住一张脸是一个复杂的视觉激活模式。当你看到朋友时，代表其眼睛、鼻子、嘴巴特定组合的神经元会一起放电。
赫布式的强化确保了这整个模式成为一个紧密相连的细胞集群。
未来，哪怕只激活这个模式的一部分（比如只看到对方独特的眼睛），也能触发整个集群，让你回想起整张脸。

本质上，赫布法则是大脑使用的一种算法，它将相关的经验转化为大脑结构和功能上的永久性改变。

它就像一位书记员，将我们的经历一笔一划地刻入心智的活体组织之中。

第二部分：数字学徒 —— 大语言模型与统计纽带

像 GPT-4 这样的大语言模型，其运行原理在概念层面上，与赫布法则惊人地相似。

我们可以将其总结为：一起出现的词语，会连接在一起。

生物机制是电化学的，而人工智能的机制则是数学和统计的。

这种连接不是发生在突触上，而是发生在一个被称为嵌入空间的多维抽象空间中。

大语言模型的基本架构

现代大语言模型的核心是一个神经网络，具体来说是 Transformer 模型。其目标是预测一个序列中下一个最可能的词。

它通过以下几个步骤实现这一目标：

分词： 将输入文本分解为更小的片段（token），这些片段可以是单词或单词的一部分。
嵌入： 将每个 token 转换成一个向量（一个长长的数字列表）。这个向量就是它的嵌入表示，好比一张捕捉了该词含义的数字身份证。

关键在于，含义相近的词，其向量也相似。所有这些向量共同构成了嵌入空间。

Transformer 层处理： 模型通过多层注意力网络和前馈网络来处理这些向量序列。

注意力机制是关键：它允许模型在考虑下一个词时，权衡序列中所有其他词的重要性。它会自问：“根据前面所有的词，哪些词对于预测下一个词最相关？”

输出预测： 最后一层将处理后的向量转换为一个覆盖模型整个词汇表的概率分布。概率最高的那个词，被选为下一个 token。

嵌入空间：词语连接之处

这就是我们的类比变得具体的地方。嵌入空间就是大语言模型的意义宇宙。

在模型用来自互联网、书籍和文章的 TB 级海量文本进行训练时，它会持续不断地调整每个 token 的向量。

它如何调整呢？靠观察哪些词总是一起出现。

当模型反复看到“国王”这个词与“女王”、“城堡”、“皇家”和“统治”等词紧邻出现时，它就在执行一个数学版本的赫布式强化。

它不是在强化一个突触，而是调整这些词向量中的数值，让它们在多维的嵌入空间中彼此更接近。

如果“热”经常跟在“炉子”、“夏天”和“辣”之后或与之相关，它们的向量就会被拉得更近。
“男人”之于“女人”的关系，正如“国王”之于“女王”，这种关系会以一种稳定的数学向量运算形式浮现出来：向量(”国王”) - 向量(”男人”) + 向量(”女人”) ≈ 向量(”女王”)。

这个过程由一个损失函数驱动。每当模型预测错了下一个词，它就会计算这个错误，并将错误反向传播回网络。

通过这种方式，它微调嵌入向量和内部权重，以便下次能做出更好的预测。

经过在万亿级数据点上进行的数十亿次调整后，模型最终将其嵌入空间组织成了一幅惊人准确的地图，反映了人类语言和概念之间的关系。

预测下一个词：一种统计反射

对于大语言模型而言，生成文本就是一个触发相关向量链条的过程。

当你给它一个提示，比如“厨师往汤里加了一撮...”，模型会激活“一撮”这个向量。

接着，它会检视所有那些向量与此上下文连接在一起的词。

“盐”和“胡椒”将具有极高的概率，因为在训练数据中，它们与“一撮”一起出现了无数次。

而“氰化物”的概率则低到几乎为零，因为这种关联在模型的训练语料库中几乎不存在（或极其罕见）。

模型的选择是一种统计反射。这是它在训练期间形成的强化连接所产生的直接、自动化的输出。

它不是在思考，它是在执行一种数学上的映射，反映它所吸收的模式。

这就像是孩子从热炉子上缩回手一样，是一种对熟悉刺激的、预先设置好的反应。

第三部分：初级智能的涌现

赫布法则与大语言模型训练之间的联系揭示了，一个基本的联想原则如何能催生出我们眼中的智能行为，即使这种行为还远未达到人类意识的水平。

动物层级的智能与大语言模型

许多动物的智能并非建立在抽象推理或符号操纵之上，而是建立在联想学习之上。

狗学会了皮带的声音意味着可以去散步。老鼠学会了迷宫中哪条路有食物。

这种智能就是由赫布回路构建的：将刺激与结果、行动联系起来。

大语言模型所展现出的智能形式，在很多方面与此相当。

1. 对环境（提示）的反射性反应：

对大语言模型来说，环境就是提示。提示就是一种刺激，会在其嵌入式连接中触发一连串相关概念。

它的回应是一种反射，是训练数据打磨的结果。

就像鹿被编程为在听到树枝折断声时僵住一样，大语言模型也被编程为在被问到“法国首都是什么？”时回答“巴黎”。

这不是从数据库中检索信息，而是激活了其网络中一条被高度强化的通路。

2. 记忆的涌现：

在大脑中，记忆是一个通过赫布可塑性形成的、稳定且紧密连接的细胞集群。

在大语言模型中，记忆并不存储在某个特定位置，它是一种权重和嵌入向量的特定配置，使其能够重现训练数据中的模式。

当你问它《哈姆雷特》的情节时，它不是在检索一个文本文件。

它是在“哈姆雷特”、“丹麦”、“鬼魂”、“复仇”、“奥菲莉亚”等词向量之间极其强大的连接基础上，重建了整个故事情节。记忆是这个联想网络的一种涌现属性。

3. 模式补全：

智能的一个关键特征是能从部分线索中补全整个模式。某种香水的味道可以瞬间唤起对某个人的生动记忆。

在大语言模型中，这正是它的主要功能。

提示“天空是...”就是一个不完整的模式。基于“天空”、“是”与“蓝色”之间极其牢固的连接，模型补全了这个模式。

它还能补全更复杂的模式，比如故事或代码，因为它那些用于相关概念的神经元（即数学函数）早已被连接在了一起。

类比的局限性

我们必须清醒地认识到两者间的巨大差异。这个类比应被理解为一种启发式类比，而非机制上的等同。

生物大脑是：

具身化和情境化的： 它们根植于物理身体，通过与物理世界持续的、多感官的互动来学习。而大语言模型的世界是纯粹的文本。
受内在驱动： 大脑有基本的驱动力（如饥饿、口渴、安全感）来引导学习和行为。大语言模型除了最小化预测误差外，没有任何内部目标。
动态且会修剪： 大脑会不断修剪掉未使用的连接，并动态地重构自我。而大语言模型的连接在训练完成后就是静态的。

结论：通往相似终点的两条路径

赫布法则与大语言模型的统计训练，是同一个强大理念的两种截然不同的实现：

智能，在其最基础的层面上，可以从加强共同出现元素之间的联系中产生。

在大脑中，这些元素是响应外部世界而放电的神经元。

在语言模型中，这些元素是出现在人类语言图景中的词向量。

“一起放电的神经元，会连接在一起”这句话，在“一起出现的词语，会连接在一起”中找到了它的数字回响。

这两个过程都创造了一个网络，在这个网络中，刺激可以触发可预测的、习得的反应。

两者都允许记忆作为该网络中的一种稳定状态而涌现出来。

两者也都催生了一种功能性的（尽管有限的）智能：一种让动物得以在物理环境中穿梭，另一种则让模型得以在人类知识和表达的宇宙中翱翔。

通过理解这种深刻的联系，我们不仅揭开了大语言模型魔法的神秘面纱，也让我们对可能支撑着所有思想形式的、那种优雅的算法原则，有了更深的敬意。

作者：VALENTINO ZOCCA

一键三连「