「智猩猩开讲」公众号精选第73篇。
Keras和ARC之父François Chollet在Y Combinator频道的演讲。指出仅靠规模扩展无法实现AGI,未来AI需融合直觉与符号推理,通过测试时自适应(TTA)和元学习系统实现智能的动态合成与进化。本文为此次演讲的中文版,由公众号「瓜哥AI新知」编译。
非常值得一读,如需要观看,可通过https://www.youtube.com/watch?v=5QcCeSsNRks 进行。
1
计算成本
弗朗索瓦: 大家好,我是弗朗索瓦。很高兴能在这里与大家分享一些我对于AGI(通用人工智能)的看法,以及我们该如何实现它。这张图表揭示了我们这个世界最重要的事实之一:自1940年以来,计算成本一直在持续下降,每十年下降两个数量级,而且没有迹象表明这一趋势会很快停止。在人工智能领域,算力和数据曾是我们取得进展的主要瓶颈。
2
深度学习的扩展时代与基准测试
正如大家所知,2010年,随着GPU计算和大规模数据集的普及,深度学习开始真正大放异彩。突然之间,我们在计算机视觉和自然语言处理等长期看似棘手的领域取得了飞速进展。特别是当自监督文本建模取得成功后,扩大LLM的训练规模就成了AI领域的主导范式。这种方法几乎横扫了所有基准测试。值得注意的是,当我们沿用完全相同的架构和训练流程,仅仅扩大模型和数据的规模时,就能在基准测试上获得可预期的更好结果。


这正是Jared(Kaplan)几分钟前向大家介绍的“规模定律”(Scaling Laws)。一切似乎都已在掌握之中。许多人由此推断:只要规模够大,就能解决一切问题,实现AGI。我们的领域一度痴迷于这样的想法:通过将越来越多的数据塞进越来越大的模型中,通用智能便会自发地涌现出来。
3
ARC基准
但这其中有一个问题:我们对于这些基准测试的真正意义,其实理解得并不透彻。“记忆型技能”(静态、任务特定)与“流体通用智能”(即时理解全新事物的能力)之间,存在着一道鸿沟。早在2019年,LLM浪潮兴起之前,我就发布了一个旨在凸显这一差异的AI基准测试,它被称为“抽象与推理语料库”,简称ARC。

从那时至今,像GPT-4.5这类基础模型的规模扩大了约五万倍。但它们在ARC基准上的准确率,仅仅从0%提升到了10%左右——这点进步微不足道。要知道,在座的各位几乎都能拿到95%以上的分数,相比之下,10%基本等于零。事实证明,要破解通用流体智能,我们需要的远不止是扩大预训练规模和进行静态推理。这个基准测试考查的不是对记忆技能的“反刍”,而是真正理解全新问题的能力。

4
2024年转向测试时自适应
然而,到了2024年,情况发生了根本性的变化。AI研究界开始转向一个全新且截然不同的范式:测试时自适应(Test-Time Adaptation),即模型在测试阶段能够动态调整自身以适应新事物。这一转变的重心,不再是预先加载海量知识,而是转向了模型在推理时学习和适应的能力。突然间,我们在ARC上看到了显著进展,因为我们终于有了初具真正流体智能迹象的AI系统。
特别是去年12月,OpenAI预发布了其O3模型。该模型针对ARC进行了专门优化,并首次在这一基准上展现出媲美人类的性能。如今,在2025年,我们已经彻底告别了“预训练+规模扩展”的旧范式,全面迈入了“测试时自适应”的新时代。测试时自适应的核心,在于模型能够根据推理时遇到的具体数据,动态地修改自身行为。这包括了测试时训练、程序合成、思维链合成等技术。在这些技术中,模型会尝试为当前任务“重写”自己的程序。
今天,每一个在ARC上表现优异的AI方法,都在使用这些技术中的一种。我想回答这样几个问题:首先,为什么“预训练+规模扩展”的范式,没能带领我们走向通用智能?回想仅仅两年前,这还是业界的金科玉律,几乎人人都对此深信不疑。而今天,这一信念已然崩塌。这期间究竟发生了什么?
5
什么是智能?
其次,测试时自适应这次能带我们抵达AGI吗?如果答案是肯定的,那或许AGI已经悄然来临——确实有人是这么认为的。最后,超越了测试时自适应,AI的下一个浪潮又会是什么?要回答这些问题,我们必须回归一个更根本的问题:什么是智能?当我们说要构建AGI时,我们所说的“智能”究竟指什么?回顾过去几十年,关于如何定义智能以及AI的目标,主要存在两种思想流派。
对AI的理解有两种观点。一种是马文·明斯基 (Marvin Minsky) 的观点:AI是制造能完成人类任务的机器。这与当前主流的企业界看法不谋而合,他们认为AGI应能执行绝大多数(通常以80%为指标)具备经济价值的任务。而另一种是约翰·麦卡锡 (John McCarthy) 的观点,即AI应能让机器处理它们未曾预设过的问题,也就是应对新事物。我的观点更倾向于后者。智能是一个过程,而技能只是这个过程的产物。因此,技能本身并非智能。

在再多任务上展现技能,也未必代表拥有智能。这好比道路网络与道路建设公司的区别:拥有一个道路网络,你只能在预设好的A点和B点之间通行;但拥有一家道路建设公司,你就能根据不断变化的需求,随时连接新的地点。因此,智能是应对新状况、开辟新道路的能力。将智能等同于固化的行为程序(即技能),是一种范畴谬误,它混淆了过程与产物。切莫将道路与修建道路的能力混为一谈。

6
为什么基准测试既重要又具误导性
为了将智能形式化定义,我将其视为一种转化率:它衡量的是,你所拥有的信息(主要是过往经验,也包括开发者赋予系统的先验知识)在多大程度上能转化为你在充满新颖性与不确定性的未来场景中的有效行动空间。简而言之,智能,就是将过往信息高效运用于未来的能力,它是一个效率比率。 这也解释了为什么用类似考试的基准来评估模型是个坏主意。这类测试无法准确衡量我们离通用人工智能(AGI)还有多远,因为人类考试的设计初衷是评估特定任务的技能和知识,其衡量标准建立在对人类有意义、但对机器无意义的假设之上。


若想严格定义和衡量智能,有几个关键概念需要考量。首先是静态技能 (static skill) 与流体智力 (fluid intelligence) 的区别。前者是调用一套固化的程序来解决已知问题,而后者则是根据需要随时合成全新程序来解决你从未见过的问题。当然,这不是非黑即白,两者之间存在一个连续的光谱。
第二个概念是**行动空间 (scope of application)**。对于任何一项技能,是仅仅在与过往经验高度相似的情境中熟练,还是能在广泛多变的情境中都运用自如,这两者有天壤之别。例如,你学会开车后,应该能在任何城市驾驶,而不只是在某个特定的地理围栏内。你在圣何塞学会开车,搬到萨克拉门托后依然能开。同样,这也不是一个二元概念,而是一个范围。
7
ARC-1:暴露“暴力扩展”的局限
最后,我们应考虑信息效率 (information efficiency)。掌握一项特定技能,你需要多少信息、数据或练习?更高的信息效率意味着更高的智能。这些定义至关重要,因为作为工程师,我们构建的,终究是我们所衡量的。 我们如何定义和衡量智能,不仅是一个技术细节,它反映了我们对认知的理解,塑造了我们提出的问题,并最终决定了我们得到的答案。衡量标准本身,就是驱动我们朝向目标的反馈信号。
工程领域有一个常见现象叫“捷径法则” (Goodhart's Law):当你专注于优化单一的成功指标时,你或许能达成这个指标,但代价往往是牺牲该指标未能涵盖的一切。你命中了靶子,却错失了靶心。 这样的例子在Kaggle等平台上屡见不鲜。
奈飞大奖(Netflix Prize)就是一例:获胜的系统虽然预测精准,却因过于复杂而无法在生产环境部署,最终沦为无用功。人工智能领域的国际象棋也是如此。上世纪70年代,AI界着手开发下棋程序,初衷是希望借此洞悉人类智能的奥秘。几十年后,当“深蓝”击败世界冠军卡斯帕罗夫时,我们确实达成了目标,但在此过程中,我们对智能的本质却几乎一无所获。我们达成了目标,却偏离了初衷。
8
ARC-2:组合推理的时代到来
几十年来,人工智能一直在追逐基于任务的技能,因为这就是我们对智能的定义。然而,这种定义最终只会带来自动化——也就是我们今天所拥有的系统。但我们真正想要的,是能够自主创造的AI。我们不想止步于自动化已知任务,而是希望AI能帮助人类应对最严峻的挑战,加速科学进步的进程。这才是AGI的真正意义。为此,我们需要一个新的目标,需要开始瞄准流体智力本身——那种适应与创造的能力。
对AGI的一种定义,最终只会带来自动化,提升经济生产力——这固然价值巨大,但也可能加剧失业。而另一种定义,则会开启一个发明创造和科学加速发展的新纪元。 只有衡量我们真正在乎的东西,才能取得真正的进步。因此,我们需要一个更好的目标,一个更有效的反馈信号。那它应该是什么样呢?
我首次尝试创建衡量AI系统智能的方法,就是ARC-AGI基准测试。我在2019年发布了ARC-1。它就像一个为机器和人类设计的智商测试。ARC-1包含1000个独一无二的任务,这意味着你无法为应付ARC而死记硬背;你必须动用你的通用智能,而不是记忆的知识,来当场解决每个问题。当然,解决任何问题都需要知识,但在大多数基准测试中,所需的先验知识通常是隐性的。而在ARC中,我们把它们明确化了。

9
人类 vs. 模型在ARC-2上的表现
所有ARC任务都完全建立在一套“核心知识先验”之上,这些先验知识包括物体、基本物理、基础几何、拓扑和计数等概念——任何一个四岁孩子都已掌握。解决ARC所需的知识极少,且非常通用,你根本不需要为它做任何准备。ARC的独特之处在于,你无法通过记忆模式来解题,它真正要求你展现流体智力。

与此同时,几乎所有其他基准测试都针对固定的已知任务,这些任务实际上都可以通过记忆来破解。这使得ARC对人类来说相当容易,但对AI来说却极具挑战性。当你看到一个人类儿童能轻松应对,而最先进的AI模型却束手无策的问题时,这就是一个巨大的警示信号,告诉我们:我们遗漏了某些关键的东西,我们需要新的思想。
我希望大家记住一点:ARC并不能告诉你一个系统是否已是AGI,这不是它的目的。ARC实际上是一个工具,旨在将研究界的注意力引向我们认为通往AGI道路上最重要的瓶颈。所以,ARC不是终点,解决ARC本身也不是目标。ARC其实是一支指向正确方向的箭,它完全抵抗了“预训练+暴力扩展”的范式。
即使将基座大模型的预训练规模扩大五万倍,它们在ARC上的表现依然趋近于零。由此,我们可以断定:流体智力,无法通过暴力扩展预训练规模而凭空涌现。 你必须通过测试时适应性(test-time adaptation)才能展现真正的流体智力。重要的是,当测试时适应性去年出现时,ARC是当时唯一能清晰反映这一深刻转变的基准。其他基准早已饱和,无法区分真正的智力增长和纯粹的暴力扩展。
10
展望ARC-3与交互式智能体
现在看到这张图,你可能会问:很明显,ARC-1现在也饱和了。这是否意味着我们已经拥有了人类水平的AI?其实还没有。你在这张图上看到的是,ARC-1是一个二元测试,它仅仅是流体智力的一个最小化体现。因此,它只能呈现两种结果:要么你不具备流体智力,得分会像那些基座大模型一样趋近于零;要么你具备非零的流体智力,得分会立刻跃升至一个很高的水平,比如OpenAI的O3模型。当然,在座的各位得分都会接近100%。所以ARC-1的饱和点,远低于人类水平的流体智力。

现在,我们需要一个更好、更灵敏的工具,它能提供更有价值的评估范围,并能更好地与人类智能进行对标。这个工具就是今年三月发布的ARC-AGI 2。如果说2019年的ARC-1旨在挑战将模型视为静态推理工具的深度学习范式,那么今天的ARC-2则旨在挑战推理系统和测试时适应的模式。基准测试的格式保持不变,但更侧重于探测组合泛化能力。
11
万花筒假设与抽象
这些任务对人类来说依然相当容易,但它们要复杂得多。因此,ARC-2不易被暴力破解。具体来说,在ARC-1中,许多任务你扫一眼就能看出答案,无需过多思考。而对于ARC-2,所有任务都需要一定程度的审慎思考。尽管如此,它们对人类来说依然是可行的。我们之所以知道这一点,是因为我们在圣地亚哥对400人进行了为期数天的现场测试。我们说的不是物理学博士,而是随机招募的普通人——网约车司机、加州大学圣地亚哥分校的学生、失业者——基本上是任何想赚点外快的人。


并且,ARC-2中的每个任务都至少被两位测试者解出。平均每个任务约有七位测试者参与。这意味着,一个由10名随机个体组成的小组,通过多数投票,在ARC-2上能拿到100%的分数。我们确信,这些任务对于未经训练的普通人来说是完全可以完成的。

那么AI模型的表现如何呢?如果你用那些基座大模型,比如GPT-4.5或Llama系列的模型来测试,结果非常简单:0分。这些任务根本无法通过死记硬背来解决。接下来,如果你用静态推理系统——即那些为任务生成单一推理链的系统——它们的表现也好不到哪里去,得分在1%到2%之间,和0分几乎没区别。这表明,要解决ARC-2,你真的需要测试时适应性。所有得分显著高于零的系统都在使用测试时适应(TTL)技术。然而,即使使用了TTL,它们的表现仍远低于人类水平。

与ARC-1相比,ARC-2能够对像O3这样的TTL系统进行更精细的评估。在这种评估下,O3及类似系统尚未达到人类的性能水平。在我看来,只要我们还能轻易地设计出普通人能解决、而AI无论投入多少算力都无能为力的任务,我们就还未实现通用智能(AGI)。 当设计这样的任务变得越来越困难时,那才意味着我们真正接近了目标。显然,我们离那一天还很远。

需要明确的是,我不认为ARC-2是最终的测试,我们不会止步于此。我们已经开始研发ARC-AGI 3,它将彻底告别ARC-1和ARC-2的输入-输出格式。在ARC-3中,我们评估的是智能体 (agent) ——评估其探索、互动学习、设定目标并自主实现目标的能力。在这种场景下,你的AI被置于一个全新的环境中,它不知道控件的作用、目标是什么、游戏规则是什么。它必须当场弄清楚一切,甚至首先要搞明白自己在这个游戏中应该做什么。就像在ARC-1和ARC-2中一样,每个游戏都将是独一无二的,并建立在核心知识先验的基础上。
我们将面对成百上千个像这样的交互式推理任务。效率是ARC-III设计的核心。模型的评分标准不仅在于能否解决任务,更在于解决任务的效率。我们正在对模型可采取的行动数量设定严格限制,目标是达到人类的行动效率水平。我们计划在2026年初发布这个项目,而下个月,也就是7月,我们将发布一个开发者预览版,以便大家可以开始体验。
解决ARC-II需要什么?我们今天离它还很远,离解决ARC-III就更远了。也许在未来,我们可以解决ARC-IV,并最终达到通用人工智能(AGI)。我们还缺少什么?我曾说过,智能,是高效利用过往经验,以应对未来万变的能力。然而,如果你面对的未来与过去毫无共通之处,与你以往的经验全然不同,那么无论你多聪明,都将无法理解它。

关键在于:没有什么事物是真正全新的。你周围的宇宙由许多彼此相似的事物组成。比如,一棵树类似于另一棵树,它们也类似于神经元。电磁学类似于流体动力学,也类似于引力。我们被同构现象所包围。我将其称为“万花筒假说”(Kaleidoscope Hypothesis)。我们体验到的世界看似无穷无尽、复杂多变,但构成这一切的“意义原子”,其数量实则极为有限。你周围的一切,都是这些原子的重组。

12
第一类抽象 vs. 第二类抽象
智能,是挖掘你的经验,识别出那些可以在不同情境和任务中重复使用的“意义原子”的能力。这涉及到识别不变性与结构——那些似乎在不断重复的原则。这些构建模块,或者说“原子”,被称为抽象。每当你遇到新情况,你都会通过重组你所掌握的抽象概念来理解它,从而创建一个适应当前状况的全新模型。
实现智能有两个关键环节。首先是抽象获取:你希望能够高效地从过去的经验或数据中,提取出可复用的抽象概念。其次是即时重组:你希望能够高效地挑选并重组这些构建模块,将它们组合成适合当前情况的模型。这里对效率的强调至关重要。你有多聪明,不仅在于你能做什么,更在于你如何高效地从现实经验中获取优质的抽象概念,以及如何高效地重组它们以应对新事物。如果你需要成千上万个小时才能掌握一项简单技能,那你就算不上聪明。或者,如果你需要枚举棋盘上的每一种可能走法才能找到最佳策略,你就算不上聪明。所以,智能不仅是展现高超的技能,更是获取和运用这些技能的效率,这既包括数据效率,也包括计算效率。
由此,你就能明白,为什么单纯地把AI模型做得更大、喂给它们更多数据,并不能自动实现通用人工智能(AGI)。我们还缺少一些东西。
首先,这些模型缺乏即时重组的能力。它们在训练时学到了很多有用的抽象概念,但在测试时却是完全静态的。你只能用它们来应用预先学到的、固化的模式。这是一个关键问题,而“测试时适应”(Test-Time Adaptation, TTA)正在解决这个问题。TTA为我们的人工智能增加了即时重组的能力,这是让我们更接近AGI的一大步。但这并非唯一的问题,重组能力不是唯一缺失的环节。
另一个问题是,这些模型的效率仍然极低。例如,梯度下降法需要海量数据才能提炼出简单的抽象概念——比人类要多出三到四个数量级。再看重组效率,即便是最新的技术,也需要花费数千美元的计算资源才能在人类水平上解决ARC-I,这甚至无法扩展到ARC-II。这里的根本问题是,深度学习模型缺乏组合泛化(compositional generalization)能力,而这正是ARC-II试图衡量的。
造成这种情况的原因是,抽象不止一种。这一点至关重要。我之前说过,智能是从数据中挖掘并重组抽象概念。但实际上,抽象分为两种:第一类和第二类。它们彼此相似,互为镜像。两者都是通过消除实例的某些细节,将多个实例归纳到一个通用模板中。你观察一些事物,比较它们,然后剥离那些无关紧要的细节,剩下的就是抽象。
13
离散程序搜索与创造性人工智能
这两种抽象的关键区别在于,一种在连续域上运行,而另一种在离散域上运行。第一类,或称“以价值为中心”的抽象,是通过连续的距离函数来比较事物。这种抽象是感知、模式识别、直觉以及现代机器学习的基石。第二类,或称“以程序为中心”的抽象,是关于比较离散的程序,即图(graphs)。你不是试图计算它们之间的距离,而是寻找精确的结构匹配,例如精确同构和子图同构。这是人类推理的基础,也是软件工程师在重构代码时所做的事情。
所以,当软件工程师谈论“抽象”时,他们指的就是这一种。因此,存在两种由类比驱动的抽象:价值类比与程序类比。所有的认知都源于这两种抽象形式的结合。你可以用左右脑的比喻来理解:一半大脑负责感知和直觉,另一半负责推理、规划和严谨的逻辑。Transformer擅长第一类抽象,能有效处理与感知、直觉和模式识别相关的任务。从这个意义上说,Transformer是人工智能领域的一大突破,但它们仍然不适合处理第二类任务。
这就是为什么用这类模型执行非常简单的第二类任务(如对列表排序,或对一串数字进行加法运算)会异常困难。那么,你将如何获得第二类能力?你必须利用离散程序搜索,而不能仅仅依赖于通过梯度下降学习到的连续插值空间。搜索解锁了超越自动化的创造与发明。如今,所有已知的、具备创造或发明能力的AI系统,都依赖于离散搜索。
早在90年代,我们就已经在使用大规模搜索来设计新天线。你也可以把AlphaGo的第37步棋看作是离散搜索的成果。最近,DeepMind的AlphaDev系统是另一个例子,它也依赖于离散搜索。因此,深度学习不会发明,但搜索可以。
那么什么是离散程序搜索?它本质上是在由领域特定语言(DSL)的算子组成的图空间中进行组合搜索。为了更好地理解,你可以将程序合成与你熟悉的机器学习进行类比。在机器学习中,你的模型是一个可微的参数化函数,可以想象成一条曲线。而在程序合成中,模型是一个离散的图,即由某种语言的符号算子构成的图。在机器学习中,创建模型的学习引擎是梯度下降,它的计算效率非常高。
14
将直觉与符号推理相融合
梯度下降法可以让你快速有效地找到一个拟合数据的模型。然而,在程序合成中,学习引擎是搜索——特别是组合搜索——但它的计算效率极低。在机器学习中,你遇到的主要障碍是数据密度。为了拟合一个模型,你需要对数据流形进行密集采样,这意味着你需要大量数据。
而程序合成恰恰相反。程序合成的数据效率极高,你只需两三个样本就能拟合出一个程序。但是,为了找到那个程序,你必须筛选海量的候选程序。这个空间的规模会随着问题复杂度的增加而出现组合爆炸。因此,你会撞上“组合爆炸”这堵墙。
我之前说过,智能是两种抽象形式的结合:第一类和第二类。我坚信,只专注于其中任何一种,都无法走得太远。要想真正释放它们的潜力,就必须将两者结合起来。这正是人类智能的精髓所在,也是我们与众不同的地方。我们能够将感知、直觉与清晰的、步进式的推理相结合。在我们所有的思想和行动中,都融合了这两种抽象形式。
例如,下棋时,当你在脑海中一步步推演某些潜在走法时,你就在使用第二类思维。当然,你不会对每一种可能的走法都这样做,因为可能性太多了。你只会考虑少数几个选项,比如动马还是动后。你是通过直觉,通过棋盘上的模式识别来筛选这些选项的。这种能力很大程度上源于经验的积累。你挖掘过去的经验,有意识地提取这些模式,这个过程非常依赖第一类思维。所以,你用第一类思维的直觉,为第二类思维的计算提供了指引,使其成为可能。
那么,第一类和第二类思维模式如何融合运作呢?关键在于,第二类思维的核心技术是在程序空间中进行离散搜索,其阻碍是组合爆炸。与此同时,第一类思维的关键技术是曲线拟合和插值。你获取大量数据,并将其嵌入某个插值流形中,从而能够对目标空间进行快速但近似的判断。
核心思想是:利用这些快速但近似的判断来对抗组合爆炸,从而使程序搜索成为可能。一个简单的类比是绘制地图。你面对一个由离散对象和离散关系组成的空间,通常需要进行组合搜索,比如在地铁系统中规划路线。然后,你将这些对象嵌入到一个潜在空间中。这使你能够使用连续的距离函数,对离散关系做出快速而近似的判断。

这让你能在搜索时,有效控制组合爆炸的规模。这便是完整的蓝图,也是我们目前正在研究的系统。
15
通过元学习系统构建AGI
未来的人工智能将更像一个程序员,通过编写软件来应对新任务。当面对新任务时,这个“程序员”般的元学习器(Meta-Learner)会动态地为当前任务合成一个定制化的程序或模型。这个程序将融合用于解决第一类思维子问题(如感知)的深度学习模块,以及用于解决第二类思维子问题的算法模块。

这些模型将由一个离散程序搜索系统组装而成,该系统由基于深度学习的、关于程序空间结构的直觉来指导。这个搜索过程并非从零开始,它将利用一个由可复用构建块和抽象组成的全局库。
这个库会随着从新任务中学习而不断演进。当新问题出现时,系统会在此库中搜索相关的构建块。每当你解决一个新问题、合成一个新的构建块时,你都会将其上传回库中。就像软件工程师会把自己开发的实用库上传到GitHub供他人复用一样。
这里的最终目标是拥有一个能够面对全新情况,并利用其丰富的抽象库快速组装出可用模型的人工智能。这个过程类似于人类软件工程师利用现有工具(如库)快速创建软件以解决新问题。这种人工智能将通过扩展其抽象库和改进其对程序空间结构的直觉,不断地自我完善。
这套系统,正是我们位于印度的新研究实验室正在构建的。我们之所以成立印度实验室,是因为我们相信,要显著加速科学进步,就需要能够独立发明和发现的AI。我们需要能拓展知识边界的AI,而不仅仅是在现有知识体系内运作的AI。
我们坚信,一种新形态的人工智能将是加速科学进步的关键。深度学习擅长自动化,其能力非常强大。但科学发现远不止于此。我们在印度实验室的方法是,利用深度学习引导的程序搜索来构建这种“程序员”般的元学习器。
为了检验我们的进展,第一个里程碑将是利用一个对ARC一无所知的系统来解决ARC任务。最终,我们希望利用这套系统进行科学研究,赋能人类研究者,加速科学探索的进程。
点击下方名片 即刻关注我们