
全球顶尖的人工智能公司正竞相构建超大规模模型,豪赌数十亿美元,认为仅靠规模就能解锁通用人工智能(AGI)。
但本周,一家业内最神秘、估值最高的初创公司,其研究员对这一正统观念提出了尖锐挑战。
他指出:前进的道路不在于训练得更大,而在于学习得更好。
“我相信,第一个超级智能将是一个超人学习者。”
Thinking Machines Lab 的强化学习研究员 Rafael Rafailov,周二在 TED AI 旧金山大会上对观众说。
它将能够非常高效地理解和适应,提出自己的理论,提出实验,利用环境进行验证,获取信息,并迭代这一过程。
这与 OpenAI、Anthropic、Google DeepMind 等顶尖实验室的追求截然不同。
这些公司豪掷数十亿,押注于扩大模型规模、数据和算力,以实现更复杂的推理能力。
Rafailov 则认为,这些公司的策略本末倒置了:当今最先进的 AI 系统缺少的不是规模,而是真正从经验中学习的能力。
“学习是智能体主动做的事情,而训练是施加在它身上的事情。”
这一区别直指 AI 系统如何改进的核心,也关系到行业当前路线能否兑现其最雄心勃勃的承诺。
Rafailov 的评论,为外界提供了一个难得的窗口,得以一窥 Thinking Machines Lab 的内部思想。

这家初创公司由 OpenAI 前首席技术官 Mira Murati 于今年 2 月共同创立。它在种子轮就以 120 亿美元的估值,筹集了创纪录的 20 亿美元。
为什么今天的 AI 编码助手会忘记昨天学到的一切
为了说明当前 AI 系统的问题,Rafailov 举了一个大家都很熟悉的场景,特别是那些用过高级编码助手的人。
他解释说:“如果你用一个编码智能体,让它做一件难事:比如实现一个功能,它需要读取、理解、并推理你的代码,然后实现功能并迭代——它也许会成功。”
然后,第二天你再来找它实现下一个功能,它会把之前所有的事情重做一遍。他认为,问题在于这些系统没有内化它们所学到的东西。
从某种意义上说,对于我们今天的模型而言,每一天都是它们工作的第一天。Rafailov 说。
但一个智能体应该能内化信息,应该能适应,应该能修改自己的行为。这样它才能每天都进步,懂的更多,做得更快——就像你雇佣的人类员工一样,工作会越做越好。
胶带问题:当前的训练方法如何教会 AI 走捷径,而非解决问题
Rafailov 指出了编码智能体的一个特定行为,这揭示了一个更深层的问题。
它们倾向于用 try/except 块来包裹不确定的代码。
这是一种编程技巧,用于捕获错误,好让程序能继续运行下去。
如果你用过编码智能体,可能已经注意到它们有个很烦人的倾向,就是用 try/except pass。
总的来说,这就像用胶带随便贴一下,好让整个程序不至于因为一个小错就崩溃。
智能体为什么这么做?Rafailov 解释说:因为它们明白那部分代码可能不对,可能有风险。
但在有限的时间和交互约束下,它们必须专注于唯一的目标:实现功能、解决错误。
结果就是:它们在把问题往后拖。
这种行为源于那些只为立即完成任务而优化的训练系统。“对于我们当代的模型来说,唯一重要的就是解决任务。”他说。任何通用的、与这单一目标无关的东西,都纯粹是浪费算力。
Thinking Machines 研究员:为什么向 AI 投入更多算力不会创造出超级智能
Rafailov 对行业最直接的挑战,在于他断言:持续的规模化不足以达到通用人工智能(AGI)。
我不认为我们快到瓶颈了。他澄清说。我认为我们才刚进入下一个新范式:强化学习的规模化。
在这个范式中,我们不再是教模型如何思考、如何探索思考空间。而是要赋予它们作为通用智能体的能力。
换句话说,当前方法会产出能力越来越强的系统,能与世界互动、浏览网页、编写代码。
我相信一两年后,我们再看今天的编码、研究或浏览智能体,就会像我们现在看几年前的摘要或翻译模型一样。
但他认为,通用智能体能力不等于通用智能。更有趣的问题是:这就是通用人工智能了吗?我们就此大功告成了吗?
我们是否只需再来一轮扩展、一轮环境、一轮强化学习、一轮算力,就完事了?
他的回答毫不含糊:我不这么认为。
我相信,在我们当前的范式下,无论规模多大,都不足以应对通用人工智能和超级智能。在当前范式下,我们的模型将缺乏一种核心能力,那就是学习。
像教学生一样教 AI,而不是像教计算器:机器学习的教科书方法
想想我们是怎么训练当代推理模型的。他说。我们拿一个特定的、高难度的数学题,让模型去解,解对了就奖励它。仅此而已。
一旦这次经验结束,模型提交方案,它所发现的一切——比如学到的抽象概念或定理——都会被丢弃。
然后我们让它解一个新问题,它又得把所有东西从头想一遍。这种方法误解了知识积累的方式。科学或数学不是这样运作的。他说。
我们建立抽象概念,不一定是为了解决当前问题,而是因为它们本身很重要。例如,我们发展拓扑学来扩展欧几里得几何,不是为解决某个它搞不定的难题。而是因为数学家和物理学家明白,这些概念本身具有根本性的重要意义。
解决方案是:不该给模型单个难题,而该给它们一本教科书。
想象一本高阶研究生教材,我们要求模型学完第一章,然后做练习一、二、三、四,再学第二章……以此类推,就像一个真正的学生在自学一个课题。
这样,目标就彻底变了:
我们不再奖励它们的成功(比如解了多少题),而是要奖励它们的进步、学习能力和改进能力。这种方法被称为元学习,即学会学习,在早期 AI 系统中已有先例。
就像扩展测试时计算、搜索和探索的想法,最先在 AlphaGo 这样的游戏系统中得到验证一样……
元学习也是如此。我们知道这些想法在小规模上可行,但需要让它们适应基础模型的规模和能力。
AI 真正学会学习所缺少的要素:不是新架构,而是更好的数据和更智能的目标
当 Rafailov 谈到为什么当前模型缺乏这种学习能力时,他给出了一个惊人直白的答案。
我认为答案相当朴素。他说。我认为我们只是缺少了正确的数据和正确的目标。我坚信,许多核心的架构工程设计其实已经到位了。
Rafailov 并未主张要用全新的模型架构。他认为,前进的道路在于重新设计训练模型所用的数据分布和奖励结构。
学习,本质上就是一种算法。它有输入,也就是模型的当前状态,还需要数据和算力。你用某种结构处理它,选一个优化算法,最终有望产出一个更强的模型。
问题是:如果推理模型能学会通用推理和搜索算法,智能体模型能学会通用智能体能力……那么,下一代 AI 能否学会学习算法本身?
他的回答是:我坚信答案是肯定的。
技术上的做法,是创造出这样一种训练环境:在其中,“学习、适应、探索、自我改进和泛化能力,都是成功的必需品。”
我相信,只要有足够算力和足够广的覆盖面,通用的学习算法就能从大规模训练中涌现。Rafailov 说。
就像我们能训练模型在数学和代码之外进行通用推理,或在通用领域中行动一样……我们或许也能教会它们,如何在众多不同应用中高效地学习。
忘掉上帝般的推理者:第一个超级智能将是学习大师
我相信,如果这能做到,就是实现真正高效通用智能的最后一块拼图。Rafailov 说。
现在想象这样一个智能体:它的核心目标是探索、学习、获取信息和自我改进。
它还配备了通用智能体能力,能理解和探索外部世界,能用电脑,能做研究,还能管理和控制机器人。
这样的系统就构成了人工智能超级智能。但它并非科幻小说里常想象的那种。
我相信,这种智能不会是某个单一的上帝模型,不是上帝级的推理者或数学解题者。Rafailov 说。
我相信,第一个超级智能将是一个超人学习者。
它能高效地理解和适应,提出理论,设计实验,利用环境去验证,获取信息,并不断迭代这个过程。
这一愿景,与 OpenAI 强调构建超强推理系统、或 Anthropic 专注于宪法 AI 的做法,形成了鲜明对比。
Thinking Machines Lab 似乎正押注另一条道路:通往超级智能的路径,在于系统能通过与环境的互动,实现持续的自我完善。
重学习轻扩展:120 亿美元赌注面临严峻挑战
Rafailov 的亮相,正值 Thinking Machines Lab 的一个复杂时刻。
公司已组建了约 30 名研究员的强大团队,他们来自 OpenAI、Google、Meta 等顶尖实验室。
但公司在 10 月初遭遇重挫,联合创始人、机器学习专家 Andrew Tulloch 离职重返 Meta。
此前,Meta 对这家新秀发起全面突袭,向十几名员工开出了多年 2 亿到 15 亿美元的薪酬包。
尽管面临压力,Rafailov 的言论表明,公司仍坚持其差异化的技术路线。
公司 10 月推出了首款产品 Tinker,一个用于微调开源语言模型的接口。
但他的演讲暗示,Tinker 只是一个基础,背后是更宏大的研究议程:专注于元学习和自我完善系统。
这不容易,会非常困难。Rafailov 承认。
我们需要在内存、工程、数据和优化上取得大量突破,但我认为这在根本上是可能的。
他最后用一句双关语总结:光有这个世界还不够,我们还需要正确的经验,以及正确的学习奖励。
对 Thinking Machines Lab 和整个 AI 行业来说,问题是这个愿景能否实现,以及何时实现。
值得注意的是,Rafailov 并未预测这类系统何时会出现。
在这个高管们动辄预测人工通用智能将在几年甚至几月内到来的行业,这种克制尤为显眼。
这要么表明了非同寻常的科学谦逊,要么是承认:Thinking Machines Lab 正追求一条比对手更长、更难的道路。
目前,最能说明问题的,或许是 Rafailov 在演讲中没有说的内容。
他没有给出超人学习者何时出现的时间表,也没有预测技术突破何时到来。他只给了一种信念:这种能力“在根本上是可能的”。并且,没有它,这世上一切的规模化努力,都将是徒劳。
作者:Michael Nuñez
一键三连「