“推理模型还处于RNN的阶段”——李建忠对话GPT-5与Transformer发明者Lukasz Kaiser实录

AI科技大本营 2025-10-10 17:49
对话嘉宾 | 李建忠、Lukasz Kaiser
出品 | CSDN(ID:CSDNnews)

今年开年之际,DeepSeek R1 配合前年年末 OpenAI o1 轰炸了整个 AI 圈子,随后强化学习之父 Rich Sutton 荣获图灵奖,又是用一篇论文向大家宣告了强化学习、经验时代这些词汇将成为 2025 的主题,我们可能都难免这么觉得:推理模型的时代已经来了!

但接下来的一个观点却刷新了我的认知:Transformer 核心发明者之一、OpenAI 科学家 Lukasz Kaiser 就直言,目前的推理模型还处在当年 GPT 都没出来的机器学习阶段,未来还需要一个 Transformer 创新级别的推理模型。

而近期,这位定义了大模型核心架构的关键人物,就与奇点智能研究院院长、CSDN 高级副总裁李建忠一道,在 CSDN 的《AI 进化论》栏目中展开了一场关于 “大模型的第一性思考” 的深度对话。

Lukasz Kaiser 是 AI 领域最具影响力的科学家之一,2017 年他与其他七位谷歌同事(后称“Transformer 八子”)共同撰写了那篇开创性的论文《Attention Is All You Need》,历史性地提出了 Transformer 架构,奠定了今天大语言模型的核心基石。后来他加盟 OpenAI ,深度主导了 GPT-5、GPT-4、以及代号为 “o1”和“o3”的推理模型方面的研究工作。作为改变世界的 AI 研究者,他的工作直接定义了我们今天所熟知的大语言模型技术。正因如此,他对于大模型的技术架构、Scaling Law 的边界,以及通往 AGI 的新范式——推理模型,有着旁人无法企及的深刻理解。

面对这样一位技术前沿的引领者,李建忠带着对模型架构、Agent、Scaling Law 及未来范式的深度洞察与思考,提出了尖锐而富有洞见的问题。两人的交流既是技术细节的剖析,也是对未来发展方向的大胆推演。

“推理模型还处于RNN的阶段”——李建忠对话GPT-5与Transformer发明者Lukasz Kaiser实录图1

以下是这场对谈的十个最重要的话题:

在 AI 发展的这个关键时刻,相信这场对话中对前沿问题的深度思辨,将为我们理解 AI 的下一个发展阶段提供重要的参考和启示。


“推理模型还处于RNN的阶段”——李建忠对话GPT-5与Transformer发明者Lukasz Kaiser实录图2

对话一 | 语言对于智能到底意味着什么?

李建忠:我想首先谈谈语言和视觉在 AI 中扮演的角色。业界有一些观点,以杨立昆(Yann LeCun)等人为代表,认为靠语言模型通往 AGI 是一条死路。其理由是,语言是对物理世界的一种低带宽、有损的描述。AI 必须从视觉等高带宽的数据中学习。但是如果我们回顾 AI 的发展历史,在大语言模型出现之前,神经网络在视觉领域已经有了大量应用,但那时 AI 的智能水平相当低。直到 ChatGPT 这样的大语言模型横空出世,AI 的智能才真正开始腾飞。你如何看语言和视觉在构建智能过程中的作用?

Lukasz Kaiser:我认为,从时间的维度去理解语言是非常有用的。有一个著名的说法,虽然我从未核实过其真实性:有一种在大海里游弋的动物(海鞘),它拥有大脑。但当它在某块岩石上定居后,就再也不会移动了。此时,它做的第一件事就是吃掉自己的大脑,因为大脑对一个不再行动的生物来说已经失去了作用。这个故事说明,如果你不采取行动,智能其实没什么用。

我们过去所说的视觉模型大多是静态的,例如回答“这张图片里有猫吗?”这类问题。那时根本没有真正的视频模型。因此我相信,在时间维度中的存在——这可能意味着采取行动,即便只是解释随时间发生的变化——对智能来说都至关重要。语言显然具备时间维度,它总是在生成下一个词,再下一个词,不断延续。

我们现在称之为的语言模型,在开发 Transformer 时,被称为序列模型(sequence models)。处理什么序列并不重要,即使现在,它也可以处理“蛋白质序列”或“音频序列”。因此,时间序列是表达智能的一个重要组成部分。

李建忠:我个人倾向于认为,语言经过了人类的编码和压缩,它在智能的表征上要比视觉更高效一些,而即便有时间序列的视频,对智能的表征也往往要低于语言。尤瓦尔·赫拉利在他的著作《人类简史》中提出,人类和动物最大的区别在于我们能用语言描述这个世界上不存在的事物。著名哲学家维特根斯坦也有一句名言:“语言的边界,就是世界的边界。”我之前曾表达过一个观点,回看过去十年,AI 领域的里程碑发展得益于我们终于认识到语言在智能中的核心作用,ChatGPT 的成功源于此,Transformer 的成功也源于此。

Lukasz Kaiser:我也相信语言是赋予智能一种特殊力量的关键。虽然许多没有语言的动物也拥有一定程度的智能,智能也可以在没有语言的情况下发展。另外从技术上讲,训练语言实在非常方便。我们在互联网上有海量的语言数据,用语言进行训练远比用视频便宜。这些优势有一些是实践层面。未来,要获得更卓越的智能模型,我们还要继续基于视频和音频进行训练。这在技术上会与纯语言模型有所不同,但另一方面,序列处理和注意力机制在处理这类数据时同样适用。

李建忠:一些人认为当前的大语言模型只是“鹦鹉学舌”,他们认为模型并没有真正理解它们所学习和生成的文本。但如果我们仔细观察大模型的学习机制,它们与人类的学习过程非常相似。例如,Anthropic 在三月份的一篇论文中展示了,当模型在语言上进行训练时,它会在内部形成“抽象概念”。论文谈到一个模型如何学习多种不同语言中的词时,例如“苹果”,它在神经网络内部创建了一个独立的、不与任何一种语言绑定的“苹果的抽象概念”。而在训练过程中,模型从未被明确地灌输过一个“苹果的抽象概念”。这似乎与人类在学习语言时,在大脑中构建一个复杂的抽象概念体系的过程非常相似。

Lukasz Kaiser:我们现在可以从实践上证明,语言模型确实会形成概念,尤其是现在模型都在并行地用多种语言进行训练,这一点很容易观察到。你可以给模型一个数学问题,然后用五种不同的语言重新表述它。尽管模型是逐个 token 生成答案的,不同语言的 token 会截然不同,没有任何共同之处,但答案基本上是相同的。如果模型在英语中犯了一个错误,它在中文里也会犯同样的错误。如果模型采用某种解题方式,那么另一个语言的答案基本上就是前一个答案的翻译。

这清晰地表明,在网络的激活状态中的某个地方,模型正在一个非常抽象的空间里解决问题、思考概念,然后在上层网络中用某种语言把它表达出来。从这个意义上说,模型中显然存在独立于语言的抽象概念,并且已经有人对此进行了研究。你甚至可以看到对应特定主题或行为的概念。

但我们也要记住,至少对于那些没有经过大量多模态数据训练的模型来说,它们可能没有与我们人类概念相似的、对应某些物理实体的概念。比如我们所相信的“痛苦”(pain)或“爱”(love)等概念。模型知道这些词,它可以给你讲述优美的故事,但这与我们植根于物理世界真实感受的概念有所不同。

所以,模型确实有概念,但我们也应该理解,至少其中一些概念可能和我们人类的概念不同。虽然从模型使用的词语来看,它们是相似的,因为这些词来自我们的语言和互联网,但这并不意味着它们的内涵完全相同。在很多领域,比如数学,这种差异可能无关紧要。因为数学对我们来说也是非常抽象的,我们主要通过符号和图片来学习,模型也一样。但在那些与身体和物理世界紧密相关的事情上,情况有些不同。我们可能会被模型的言辞所迷惑,因为它使用了和我们一样的词语,但其内涵并不完全一样。


“推理模型还处于RNN的阶段”——李建忠对话GPT-5与Transformer发明者Lukasz Kaiser实录图3

对话二 | 多模态与世界模型的挑战

李建忠:现在多模态发展得非常快,业界有一种趋势是追求一个“统一模型、统一模态”——使用一个通用的架构,来处理所有模态和任务。但不同的模态似乎适配不同的模型,例如,语言适用自回归模型,而视觉则适用扩散模型。我注意到你们“Transformer 八子“在 2017 年 6 月发表《Attention Is All You Need》的同月,你们其中七位作者也发表过一篇论文《One Model to Learn Them All》。八年后的今天,你如何看待“统一模态”和“统一模型”之间的关系?这里最大的挑战是什么?

Lukasz Kaiser:从实践层面来看,像 GPT-4 这样的现代大语言模型已经是多模态模型了。它们能接收图像和音频输入,也能生成图像和音频。从某种意义上说,我本可以说我们已经解决了这个问题。但我也承认,模态之间的迁移水平还不尽如人意。

当模型足够大,数据足够多时,它们能设法完成多模态任务。你可以在 ChatGPT 中启用语音模式,它会和你对话,在需要的时候,也会把语音转录成文字,进行思考并回答,甚至还能唱歌。所以从实践角度看,这个问题已经取得了巨大的进展。

但我承认,当你仔细观察视频时,会发现一些不完全令人满意的地方。当前语言模型处理多模态的方式通常是通过 VQ-VAE。图像或音频的每个部分,都会通过一个编码器得到一个特殊的代码。这个编码器通常是预训练好并且固定的,有时也可能和大语言模型一起训练,但其训练量通常不大,并且有一个固定的频率。对于音频,可能是每几秒对应一个符号;对于图像,则是每多少像素对应一个符号。这个方法算是有效,我们成功地让它运作起来了。但它给人的感觉不那么令人满意,因为我们的眼睛不像是一个具有固定分辨率的传感器。当然,从某种意义上说它有,但我可以四处移动眼睛来动态获取信息。

所以,我认为我们可以将多模态更深入地融合到模型中。这需要我们目前使用的 VQ-VAE 代码变得更具可训练性,并且能与语言进行更多的交互。这方面有很棒的研究正在进行中,随着人们越来越习惯于模型处理多模态任务,将会推动将这些研究深入整合到大语言模型中。

李建忠:我不清楚为什么很多视觉派的研究者经常否定语言的重要性。确实如你所说,与语言进行交互对于多模态非常重要。离开语言,视觉似乎只是一些像素信号。要对视觉中的每一个对象赋予语义含义,语言功不可没。我个人认为有些视觉派如果继续否定语言在智能中的价值,可能会再次跌入 2022 年 ChatGPT 发布之前的错误路线。那时候也是视觉派大行其道的时候,但是识别能力在智能中是一个非常低阶的能力,真要的认知和理解,似乎离不开语言。

下面让我们来谈谈世界模型。包括杨立昆(Yann LeCun)、李飞飞在内的一部分学者认为,靠大语言模型无法实现通用人工智能(AGI),因为他们相信世界模型才是 AGI 的核心,他们认为 AI 必须首先通过观察世界来学习物理世界的规则,然后才能真正进行推理。但是,我非常怀疑 AI 仅通过观察世界就能理解物理世界的所有法则吗?

Lukasz Kaiser:我相信现代大语言模型在某种程度上就是世界模型。问题在于,它们是足够好的世界模型吗?要回答这个问题,我们需要问自己,它们应该描述世界的哪些方面?

我认为,如果谈到文本和数学等方面,它们是令人惊叹的模型。如果你问“下一个词是什么?”,它们几乎是无与伦比的绝佳的语言模型,可以准确地告诉你,在互联网上人们通常在这句话之后会说什么。但它们作为物理模型的表现,就不如它们作为语言模型那么出色了。这背后有几个原因。

首先,正如我们所说,它们没有在足够多的视频数据上进行训练。其次,我们电脑中常用的视频数据格式,与我们体验世界的方式非常不同,因为我们还会采取行动、移动我们的眼睛。我们的体验绝不像纯粹的图像在眼前播放,或许在婴儿早期是这样,但很快就消失了。所以,无论是数据的数量还是质量都还不够好。而且,就像我之前说的,我认为目前的架构也还不足以胜任这一点,尽管大语言模型的多模态能力一直在稳步提升,而且我认为会持续提升。

所以我认为,通过架构和损失函数的改进,加上更好、更多的数据,将有助于弥合人们所认为的“世界模型”与“语言模型”之间的差距。另外,像 Sora、Genie 和 Veo 这样的模型表明,如果你从视频中学习,即使使用当前的方法,也可以非常接近一个世界模型。或许还没有完全达到,而且在数据效率上,学习过程肯定还不如人类,但我们正在弥合差距方面取得重大进展。

李建忠:我个人的感觉是,真正的世界模型需要融合语言模型和其他模态,以及基于语言的推理。单纯靠观察世界无法形成智能,就像在 16-17 世纪科学革命之前,人们通过观察世界可能得到的是“地球是宇宙的中心”这样错误的概念。而现在每一个受到过教育的孩子都知道,在银河系太阳是中心。这显然不是通过简单观察世界就能得出来的,而是通过源于文字的训练得到的。


“推理模型还处于RNN的阶段”——李建忠对话GPT-5与Transformer发明者Lukasz Kaiser实录图4

对话三 | AI 编程:自然语言是终极目标,还是新的“巴别塔”?

李建忠:让我们来聊聊编程。AI 编程似乎已经成为大语言模型的一个杀手级应用。当你们创造 Transformer 架构时,有没有想过它不仅能处理人类语言,还能如此出色地处理编程语言?

Lukasz Kaiser:当然,Transformer 的共同发明人 Ilia Polosukhin,甚至在《Attention Is All You Need》论文发表前就离开了谷歌,创办了一家致力于自动化编程的公司。我差点成了那家公司的联合创始人,但我当时认为时机还有点太早。后来,这家公司成功地转型到了加密货币领域,但它未来可能会再重回自动化编程领域。所以,这确实是在我们设想之内的。相比于预见到这么快就出现像 ChatGPT 这样的产品,我们当时可能更相信自动化编程的可行性,因为感觉它比处理任意的对话要更容易。但事实证明,它们本质上是同一件事。

李建忠:关于 AI 编程的未来,当前主要有两种观点。第一种是“AI 原生”(AI Native)模式,认为未来高级编程语言会变得像汇编语言一样——仍然存在,但隐藏在幕后。所有的软件开发都将通过自然语言完成,通过像氛围编程(Vibe Coding)这样的方式。第二种观点是“AI 副驾驶”(AI Copilot)模式,认为自然语言的模糊性与冯·诺依曼机器所要求的精确性之间存在根本冲突。因此,程序员仍然需要使用高级语言来表达他们的核心思想,自然语言只是作为一种补充。你如何看待这两种观点?

Lukasz Kaiser:如果你展望几年后的未来,我认为语言模型将能够覆盖大量的编程工作。我肯定更愿意直接和我的 Codex Agent 或类似的东西对话,然后说:“你运行这个了吗?它看起来怎么样?”

但另一方面,在某个时刻,这个 Agent 需要向你解释为什么某个东西运行缓慢,因为它需要说明计算机网络是如何工作的。为了解释这类事物和概念,数学家用数学来解释,程序员用更高级的语言。我们可能会使用一些混合的方式,比如数学和算法,而物理学家可能会画图或用其他方式来解释。我认为学习数学和编程都是非常有用的。如果你试图用纯自然语言来解释数学,不带任何符号,那实际上会困难得多。符号有助于人们解释和理解正在发生的事情。我认为这在某种程度上也适用于编程语言,它们是比纯自然语言更好的沟通工具。

当然,如果你不懂这些,我相信模型会很好地用自然语言为你解释。但如果你想成为一名专业的程序员,即使在未来,你最好还是了解这些概念并熟练掌握它们,因为这会让你与模型的沟通更快、更高效。

李建忠:非常同意。 我个人的观点是未来可能一部分复杂的、系统级的软件仍然需要专业程序员使用Copilot模式来编写。但更多的应用软件、偏终端用户交互型的,大众用户使用自然语言编程即可完成。

谈谈计算机编程语言,有一种观点认为今天的编程语言是为人类编写而创造的。在未来,我们是否会看到新一代的高级编程语言,专门为 AI 生成代码而设计?

Lukasz Kaiser:我不太确定,未来很难预测。我认为我们已经有了从非常高级到非常贴近机器的编程语言。编程的重点不一定在于特定的语言,而更多地在于沟通你希望机器做什么,以及这个过程中机器或机器网络如何被编排。所以,要做好编程,关键在于良好的沟通和抽象。我不认为我们一定需要新的编程语言,我们可以使用现有的编程语言,只是要用得非常好。而这正是 AI 有望帮助我们的地方,因为很多现有的系统显然可以做得更好。

李建忠:新的编程语言的需求来自于新的计算机架构,而并不来自于 AI 编程的需求。如果有新的计算硬件架构,当前编程语言不能满足,那么就会有新的编程语言被创造出来。


“推理模型还处于RNN的阶段”——李建忠对话GPT-5与Transformer发明者Lukasz Kaiser实录图5

对话四  |  Agent 的泛化困境:是方法问题,还是根本限制?

李建忠:现在许多主流模型都内置了“智能体”的训练,以提升在特定任务上的表现,成为所谓“智能体模型 Agentic Model”。但这种 Agent 的训练似乎很难泛化到新的、未见过的任务上。这就引出了一个关键问题:这种泛化问题之所以出现,是因为我们还没找到正确的训练方法,就像那种让语言模型变得如此泛化的方法一样?还是说这是一种更根本的局限?Agent 领域会走向一个为不同任务专门打造的“垂直模型”时代吗?或者,大多数 Agent 任务会继续由模型之外的框架来处理?

Lukasz Kaiser:我总是很难理解什么是“智能体模型”(Agentic Model)。这个词被频繁使用,但据我理解,这个词背后并没有一个坚实的技术实体。对我来说,人们所说的智能体模型,是指那些在其推理过程中能够调用各种外部工具的推理模型,例如:代码解释器、网络搜索工具,或者文档检索工具等。它们都是用强化学习来训练的,和我们现在训练模型的方式一样,而且这套方法效果很好。

我认为问题出在,当人们希望这些模型去使用它们未经训练的其他工具、其他模型、或事物时,有时它们能泛化一点,但有时效果并不好。在任何情况下,如果你让这些模型互相调用,你可以要求它们这样做,而且现在的模型足够聪明,总能得出点什么结果。

但这个过程中没有学习信号。比如,网络搜索的学习信号来自强化学习训练,在训练中你给模型设定任务,比如“你需要在网上找到 Lukasz Kaiser 在某年到某年间写了哪些论文”,并且你有一种方法来检查答案是否正确。模型会反复尝试,最终学会如何正确完成任务。而人们现在所说的“Agent 系统”,通常只是被定义出来,但没有学习过程,所以效果并不好。

我相信强化学习可以被泛化到更大的系统,但这在当前有些困难。因为至少以我们目前的方式,要进行强化学习,你需要在训练期间让模型接触到所有这些东西,这意味着你需要有一个可以训练和更新的网络索引,还需要一个 Python 解释器。所以,如果你想支持多智能体系统,你可能需要整个世界的模拟环境来训练它,而这通常是你没有的。

需要做更多的工作来让这些系统变得可训练。另一方面,即使没有太多训练,它们也可能非常有用,因为模型本身非常聪明,可以零样本(zero-shot)完成很多事情。但除非你能将整个系统一起训练,否则它不会变得真正出色,而这在目前确实还不太好实现。


“推理模型还处于RNN的阶段”——李建忠对话GPT-5与Transformer发明者Lukasz Kaiser实录图6

对话五  |  算力与算法:Scaling Law 是信仰还是路径依赖?

李建忠:下一个问题是关于扩展法则(Scaling Law)的。业界有一种强烈的信念,认为 Scaling Law 是通往更强 AI 的答案,这包括在预训练、强化学习,测试时三个阶段的扩展。这导致整个业界对算力的“蒙眼狂奔”。强化学习之父Rich Sutton在《苦涩的教训》中谈到,过去 70 年 AI 领域最大教训是,通用可扩展的算力是 AI 发展的关键驱动力。但这是否会让我们陷入一种“算力崇拜”,一种路径依赖,使我们忽略算法和架构上可能取得的突破?我知道你正在研究小规模数据上的推理。我们是否有机会在 Transformer 之外发明一种新的架构,开创一个全新的范式,而不是依赖更多的 GPU ?

Lukasz Kaiser:我其实认为,来自预训练的 Scaling Law 和来自强化学习的 Scaling Law 不完全是一回事。因为它们的曲线看起来一样,所以人们倾向于把它们放在一起,但我认为它们实际上相当不同,我更愿意将它们分开来看。

预训练的 Scaling Law 当然已经带我们走了很远,我认为它还会带我们走得更远。但是,你愿意扩展到什么程度,存在一个经济上的限制。我们可以建造更大的模型,人们希望进行推理,但也不想为每个 token 支付一千美元。所以,这在实践和经济上有一个极限,我们离这个极限并不远。现在,我们还学到了一点,就是可以将一些大模型蒸馏成更小的模型。所以我确实相信预训练的 Scaling Law 会一直持续下去,但它在实践层面可能已经达到了经济上的极限。

在推理模型出现之前,那时我刚加入 OpenAI ,我们曾有一篇关于解决 GSM-8K(一个六年级水平的数学数据集)的论文。当时我们必须用上最大的模型,才能在那个数据集上达到 60% 左右的准确率。我们为那个数学数据建立了一个 Scaling Law,结果显示我们可能需要超过 1000 万亿个参数才能解决这个数据集,这基本上是一个不可能达到的数字。所以,预训练的 Scaling Law 虽然有效,但它带给我们的速度在实践中并不可行。后来事实证明,如果你使用强化学习推理,现在可以用非常小的模型解决整个数据集和更难的问题。所以,预训练的 Scaling Law 很棒,但它也无法带我们到达我们想去的地方。

现在来看推理模型,它们并不增加参数数量,我们有的是一个固定的模型。而在预训练的扩展中,我们需要更多的参数,这意味着也需要更多的数据,数据的质量、来源等都要考虑。而现在有了强化学习、有了推理模型,它们就像循环模型,只需要让它们运行更长时间,它们就会变得更好。这是一个非常神奇的法则。如果我们能永远这样做下去,那可能会很棒。但它有另一种限制,因为所有东西都在上下文中,需要注意力机制,这是一个模型架构问题。Transformer 最初是为翻译设计的,那时上下文里可能只有 100 个词,现在我们有时能有一百万个,但它从未被设计成无限运行。所以需要一些新的想法来解决这类问题。

另一个问题是强化学习。至少以目前的方式,你在最后只有一个信号。你花了大量时间思考、思考、再思考,但然后得到一个反馈:“答对了”或“答错了”,或者可能得到一个浮点数。你花费所有这些时间就得到一个奖励。如果这个思考时间是几小时,你也许会投资。但如果是几周、几个月或几年,你实际上无法训练这样的模型,因为你不能等一周才让模型得到一个奖励。即使你并行做很多次,也还是不足以训练。

所以,推理的 Scaling Law 与预训练的 Scaling Law 有着非常不同的限制。因此,这也呼唤着新的研究和不同的架构。甚至很难说是架构,因为它不一定是传统意义上的模型架构。我认为在那种情况下,Transformer 可能仍然可以工作得很好。在强化学习中,我们曾经有过价值函数。我们目前用于语言模型的强化学习,实际上是 RL 中最简单的算法之一。也许我们需要一种更好的信用分配方式,也许需要重新审视整个强化学习的文献,看看哪些适用于长序列推理 Rollout。这是一个不同的限制。如果我们改变了强化学习或架构中的某些部分,可能很难说清楚它还是老的推理模型,还是一个新范式。推理模型某种意义上可以说仍然是 Transformer,所以可能下一个范式仍然是强化学习,只是方式不同而已。 要弄清楚到底该怎么做才能让一切奏效,仍然非常困难。


“推理模型还处于RNN的阶段”——李建忠对话GPT-5与Transformer发明者Lukasz Kaiser实录图7

对话六  |  具身智能的挑战:是数据问题? 还是比特和原子的根本性差异?

李建忠:我们来聊聊具身智能。大模型在比特世界的成功,让人们对物理世界寄予了厚望。但具身智能的进展,比如人形机器人,一直缓慢且充满争议,尤其是在泛化方面。对此主要有两种观点。第一种观点认为,核心问题在于数据匮乏。我们只是还没找到一种方法,能像收集互联网数据那样,大规模地收集物理世界的数据。第二种观点认为,问题在于比特和原子之间的根本差异。例如,比特可以被大量复制和生成,而原子不能。因此,具身智能的 Scaling Law 将与我们熟知的、基于 Transformer 的 Scaling Law 有着根本的不同,它可能需要一个全新的、与 Transformer 非常不同的架构。你如何看待这两种不同的观点?

Lukasz Kaiser:我相信我们会发现,具身智能将比我们想象的更接近于当前的 LLM。物理世界的数据确实比互联网上的少得多,但我们在提高模型的数据效率方面取得了长足的进步。实际上,推理模型就是一个很好的例子,我们现在用比预训练时少得多的样本来教它们数学。大概几十万个任务就足以让它在许多非常困难的任务上从基本 0% 的准确率提升到 100%。这在物理学和许多其他领域也是类似的。

但这些模型确实依赖于一个预先训练好的模型。所以对于物理任务,我们可能需要一些在多模态方面表现更好的模型,尤其是在视频方面。我相信像 Sora 或 Veo 这样能生成或理解视频的模型,是未来能在物理世界中行动的模型的绝佳前驱,它们就像是预训练部分。

要真正教会机器人操作,我们需要像 RL(强化学习) 那样的推理部分,它需要从一个在大量视频上训练过的、非常好的多模态模型开始。我们现在还没有这样的模型,虽然这个领域正在变得越来越好,但还没有达到足以在复杂环境中操控真实机器人的门槛。所以,我们需要好的基础模型。在此之上,可能只需要少量数据,我们需要以一种非常好的方式加入 RL 训练,比如允许模型在采取行动前进行一些推理。当然,这也有现实的障碍。例如,我们目前的推理模型,如果你想让它在机器人的每一个动作前都进行推理,那速度就太慢了,无法在现实世界中有效行动。

所以,它可能需要某种层级式架构来至少能够输出动作。架构需要一些调整,就像多模态一样。但我确实认为,在某个地方会有一个核心的 Transformer 在运行。我相信沿着这样的路径,我们将能得到相当不错的机器人模型和具身智能。

当然,我不认为这是实现具身智能最高效的方式。如果你观察人类,我们的行动方式似乎并非如此,我们以及动物在这方面非常擅长。所以我确实相信,之后会有一代新模型,在数据和计算上都将高效得多,它会在架构和学习过程中带来更多的改变。但通常来说,只要你有了一个至少能跑起来的架构,开发下一个版本就会容易得多。所以我认为,第一个版本可能实际上是建立在我们现有成果之上的,但会做一些调整以适应实际应用。


“推理模型还处于RNN的阶段”——李建忠对话GPT-5与Transformer发明者Lukasz Kaiser实录图8

对话七  |  强化学习:是超级优化器,还是科学发现的引擎?

李建忠:我们来谈谈强化学习。在去年 OpenAI 的 O1和开源的 DeepSeek R1 等模型出现后,我们正看到一个向新范式的巨大转变:由强化学习驱动的推理范式。人们对此寄予厚望,认为 RL 可以扩展人类知识的边界。但在多大程度上,这种探索是真正的“开放式创新”?又在多大程度上,它只是在人类定义的环境和奖励函数内的“闭环优化”?你认为这种由 RL 驱动的推理方法,能够带来真正全新的科学发现吗?目前最大的挑战是什么?

Lukasz Kaiser:我几乎把推理模型看作一种新的架构,即使它们底层是 Transformer。它们有这种“思维链”,也就是推理过程,你可以把它看作一个潜变量。模型在说话前会先思考。如果你把整个系统看作一个模型,那么你就无法很好地带着梯度来训练离散的潜变量。你可以试试,而且之前也有人这么试过,但结果证明这条路走不太通。你可以用强化学习的方式来做,这经过大量尝试,在某种程度上证明至少是可行的。

这里有两个问题。一个是,这种 RL 训练的效果如何,它有什么局限性?例如,你必须从一个已经用梯度下降预训练过的模型开始,而不能从随机权重开始,至少我们还不知道是否可以这样做。所以与梯度下降相比,它肯定有一些局限性。但它有一个巨大的优势,就是数据效率高得多。它可以从有限的、少得多的一组数据中学习,比如仅仅 1000 道数学练习题。

我相信因为 RL 非常抽象,你只得到一个奖励,你对这个奖励没有任何约束。如果你能很好地优化它,那么你就应该能够学习。你可以拿一篇关于数学或物理学特定主题的研究论文,把它变成 RL 的学习任务——如果它确实是数据高效的,我们看到它确实是——那么模型就可以从中学习,并突然之间在这个特定的研究课题上变得知识渊博。模型可以开始提出一些想法,甚至连从事这项研究的专业人员都会觉得有趣和新颖。我相信我们会看到这一点。

但是,这种用于语言模型的强化学习范式,OpenAI o1 的预览版是一年前才发布的,DeepSeek R1 更晚。即使你看那些可能几年前开始的研究,也就是大约三年的时间。而在更广泛的社区中,它基本上是从一年前才开始的。我们还处于这个范式的非常早期阶段,我相信还有很多东西需要尝试、发现和改进,才能让它更高效,走得更远。另一方面,我当然相信这些模型已经展现出很棒的东西。无论是公司、学术界、还是很多研究人员,我希望能一起将该范式推向一个更高的境地。


“推理模型还处于RNN的阶段”——李建忠对话GPT-5与Transformer发明者Lukasz Kaiser实录图9

对话八  |  AI 的组织跃迁:如何实现大规模 Agent 协作?

李建忠:去年,OpenAI 提出了一个五级的 AGI 等级划分,其中更高的等级是由“创新”和“组织”来定义的。我们刚刚谈到了创新。当谈到“组织”时,普遍的理解是一个由相互协作的 Agent 组成的网络。但目前 Agent 协作的方法似乎只能覆盖非常有限的场景。要实现真正的、大规模的组织——比如成千上万的人在一个公司里协作——似乎还非常遥远。你认为实现这一目标最大的挑战是什么?

Lukasz Kaiser:我认为最大的挑战在于开发下一代的推理模型。做一个类比,我觉得推理模型正处于我刚开始从事机器学习时 RNN 所处的阶段,而我们可能需要一个 Transformer 创新级别的推理模型。目前,推理过程是这样的:模型逐个 token 进行推理,以一种非常顺序的方式生成结果,然后得到一个奖励,就结束了。

谈及“组织”,人们很多时候讨论的是多智能体系统,很明显期望它应该是并行的。我们确实需要更多的并行性。我们不能等一个模型思考一个星期,然后得到一个奖励。那根本不现实,应该有很多事情并行发生。强化学习的价值函数已经使用了很长时间了,但大语言模型中的 RL 在当前大多数情况下,并没有使用价值函数。也许它们需要回归,也许需要一些不同的东西——如果是 Yann LeCun,他大概会说是能量模型(Energy Model)。

我认为我们需要为并行过程提供更多的信号。如果 1000 个并行 Agent 只有一个奖励,你怎么知道哪个做得好,哪个做得不好?我的判断是在训练中我们需要更多的信号,并结合一种架构来融入这种并行的过程。用抽象的方式谈论事情很容易,但我们真正需要的是针对其中每个部分进行非常具体的研究,这样才能在下一代推理模型中,在这方面给我们带来更多能力。


“推理模型还处于RNN的阶段”——李建忠对话GPT-5与Transformer发明者Lukasz Kaiser实录图10

对话九  |  AI 记忆的瓶颈:模型离真正的“原生记忆”还有多远?

李建忠:我们来谈谈记忆。当今大模型的“记忆”受限于上下文窗口,这感觉更像是“工作记忆”而不是“长期的原生记忆”。许多公司已经推出了自己的长期记忆解决方案,但大多数都是在 Transformer 架构之外的外挂扩展。许多人认为,记忆是模型能力的一个关键瓶颈。你如何看待 Transformer 架构在记忆方面的限制?我们是否需要一个全新的原生记忆机制,比如像人类的海马体那样,来实现真正的、内生的长期记忆?

Lukasz Kaiser:正如我前面所说,我几乎把推理模型看作一种新的架构。它们绝对可以做的一件事,就是在这种思维链过程中使用工具,而其中一个工具就可以是“访问我的记忆”。如果模型是用 RL 训练的,并且这个过程是用一个允许它这样做的工具来训练,它就会学得很好。

目前,模型被训练成可以访问互联网,我认为这有所不同。它应该能够区分互联网记忆和自己的记忆。但是,如果你比较模型回答问题的能力,比如“动物园几点开门?”或者“这个库最新版本的代码是什么?”以前,模型只会胡编乱造一些东西,因为它们记住了某个旧版本的信息。现在它们很清楚地知道需要去网上搜索,获取真实答案,然后把它带入模型。我相信通过这种工具的方式来解决记忆问题,对于大多数的情况已经足够好了。

但未来的某个架构可能会做得更好,也许不需要把它当作一个工具来解决。我们拭目以待。但就目前而言,我认为我们有一个可行的解决方案,而且它运行得相当不错。

李建忠:如果类比人类来讲,我们既有外部的记忆、比如图书馆;也有根植于我们大脑中的原生记忆。而且有些原生记忆会逐步内化成我们知识、或者说大脑神经网络权重的一部分。从人类大脑来看,内生记忆是我们智能不可或缺的一部分。如果像金鱼一样只有 7 秒的记忆,人类的智能可能不会像今天一样发达,甚至人类的爱恨情仇都与此有关。真正强大的智能体,内生记忆可能是非常重要的一环。


“推理模型还处于RNN的阶段”——李建忠对话GPT-5与Transformer发明者Lukasz Kaiser实录图11

对话十  |  大模型如何摆脱瞬时学习,而像人类一样持续学习?

李建忠:我们来谈谈瞬时学习(transient learning)和持续学习(continuous learning)。强化学习之父理 Rich Sutton 曾谈到,当前的大模型过于关注所谓的“瞬时学习”,而忽略了持续学习,而人类总是在持续学习。甚至我们现在正在进行的这场对话,同时也在改变我们大脑中的神经网络权重。但对于今天的大模型来说,一旦它们训练完成,它们的权重就固定了。用户的交互不会更新神经网络权重本身。你认为未来大模型有可能支持持续学习吗?

Lukasz Kaiser:我认为这方面其实已经发生了一些小步的进展,那就是利用上下文(in-context)作为持续学习的记忆。模型会越来越多地尝试,将从与我们的对话记忆中收集到的信息,尽可能多地放入上下文中,Transformer 在上下文学习方面做得很好。所以这是可行的,但效率不高,因为上下文学习看上去不是最高效的学习方式。

当前记忆工具正在出现,现在的 ChatGPT 也有一个记忆工具,模型可以在推理中访问记忆。我觉得,这些都是很好的解决方案,会逐渐普及。但对我来说,作为一名研究者,将所有的记忆都视为 token 感觉有点不尽如人意,感觉上它们应该成为连续的向量,或者是模型权重在某个地方的变化。我认为类似这样的东西会出现。

它们可能不会马上出现,而且不得不面对“使用 token”这种方案作为基线的挑战,而这个基线比我们几年前想象的要强大得多。但即便如此,我确实认为,随着时间的推移,那些能够修改权重的方法会变得更重要。例如,像 LoRA 模块,我们有非常经济的方式来修改语言模型的权重。我们很难让每个用户都拥有一个模型,原因是今天的模型太庞大了,而且需要为它们提供服务,这根本不现实。但现在我们知道可以做一些很小的适配器(adapters),这实际上是可行的。每个人都可以微调自己的模型,它们效果很好。

因此,实质性修改权重已经变得更加可行。我只是认为我们还没有很好的算法知道如何做好这件事。这是一个研究问题,也可能涉及到如何将它与存储在 token 中的记忆相结合。此外,从用户的角度来看,能够看到记忆里有什么(你看不见向量里有什么),这种可解释性有多重要?我不知道,也许不重要,也许你唯一需要的就是能够删除它。这其中会有很多实践和研究上的考量,但可以肯定的是,上下文学习已经为持续学习做了很多贡献。但我确实感觉,或者至少作为一名研究者,我希望我们未来能有一种更优雅的方式来实现持续学习。

李建忠:最后一个问题。你将在我们 10 月 16-17 日举行的全球机器学习技术大会(ML-Summit)上发表题为“下一代推理模型的挑战与研究”的主题演讲。我们都对此非常期待。你能否给我们稍微剧透一下你将分享的内容?

Lukasz Kaiser:就像我们刚才谈到的,我确实相信推理模型是一个新的范式,一种新的架构,它数据效率更高,能够从科学领域非常少的样本中学习。它可以产生非常令人兴奋的想法和见解。我确实认为,要真正实现这一成果,我们需要下一代的推理架构,一些更并行的东西。当然,研究中仍然存在很多挑战。

我不会假装我们都做完了。我们面对的是一个非常引人注目的未来,那就是模型从事真正的科学研究,在各种领域帮助科学家,包括:医学、生物学、化学、数学、物理学等。它们可以帮助发现新方法,或者验证现有方法,或者指出需要改进的地方。我认为这个未来,即将到来,并不像几年前那么遥远。能够致力于此并推动其发展,无疑是令人兴奋的。现在是机器学习一个极其激动人心的时刻,仍然需要新的想法,但我们可以在一个不那么遥远的未来,看到它对科学产生的真正影响,这将是非常积极的。

李建忠:我们都非常期待你精彩的主题演讲。Lukasz,非常感谢你今天的时间。我们进行了一次非常棒的对话,非常感谢你与我们分享了这么多关于 AI 的深刻见解和想法。期待全球机器学习技术大会上您的精彩演讲。






2025 全球机器学习技术大会将于 10 月 16–17 日在北京威斯汀酒店举行。今年的大会,除了迎来 OpenAI 资深研究科学家  Lukasz Kaiser 的重磅回归,还将汇聚来自学术界与产业界的 50 多位嘉宾:既有顶会论文作者和资深科研学者,也有在一线推动落地的技术实践者。他们将围绕智能体工程与实践、AI 编程、多模态大模型、具身智能、开源框架等热点话题,带来真切的思考与第一手经验。

官网:https://ml-summit.org/

我们希望,这不仅是一场知识与技术的交流,更是一段同行者之间的深度对话。无论你是科研探索者,还是产业实践者,都能在这里捕捉到前沿趋势、获取启发,甚至找到属于自己的“下一步”。

大会全日程速览:

“推理模型还处于RNN的阶段”——李建忠对话GPT-5与Transformer发明者Lukasz Kaiser实录图12“推理模型还处于RNN的阶段”——李建忠对话GPT-5与Transformer发明者Lukasz Kaiser实录图13“推理模型还处于RNN的阶段”——李建忠对话GPT-5与Transformer发明者Lukasz Kaiser实录图14“推理模型还处于RNN的阶段”——李建忠对话GPT-5与Transformer发明者Lukasz Kaiser实录图15

“推理模型还处于RNN的阶段”——李建忠对话GPT-5与Transformer发明者Lukasz Kaiser实录图16
扫码下方二维码
领取今年 4 月全球机器学习技术大会 PPT 资料
预约 10 月全球机器学习技术大会 PPT 资料
“推理模型还处于RNN的阶段”——李建忠对话GPT-5与Transformer发明者Lukasz Kaiser实录图17
官方网站:www.ml-summit.org
购票热线:400-821-5876
购票咨询:service@boolan.com
企业合作:partner@boolan.com
演讲申请:hemiao@csdn.net
媒体联系:media@boolan.com

↓↓ 点击「阅读原文」,了解「2025 全球机器学习技术大会」更多信息!

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
more
承认自己开源不行?转型“美国DeepSeek”后,两个谷歌研究员的AI初创公司融到20亿美元,估值暴涨15倍!
《时代》公布 2025 年度最佳发明:OpenAI 零入选,国产霸榜
太强了!科研的5大AI模型
iPhone 17全系256GB版本采用慢速盘!仅iPhone Air全容量满血
【机器人】特斯拉“擎天柱”最新视频:大秀中国功夫,与真人对打,能逐招反击!马斯克:AI驱动,非遥控操作
反无人机多源融合的探测、识别、干扰与AI决策
黄仁勋:中美AI竞赛的5个关键点
AI技术在空调产品节能控制的研究与应用
TechWeb早报:“AI版抖音” Sora蹿红,库克热门接班人选浮现
GPT-5王者归来?奥特曼称AI已跨科学门槛,三大学科正迎来实质性突破
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号