François Chollet 深度演讲:超越规模定律,通往通用人工智能的真正路径
编者按:当整个行业为大语言模型的规模定律而狂热时,Keras 之父 François Chollet 却以其远见卓识,深刻拷问着智能的本质。在这篇演讲中,Chollet 系统剖析了为何大力出奇迹的范式终将失灵,并首次清晰描绘了通往通用人工智能的下一阶段路线图。这不仅是对 AI 发展的回顾与预测,更是一场关于智能、创造力与科学发现未来的哲学思辨。
范式失灵:为何大力出奇迹无法通往 AGI?
一张图表,揭示了我们这个时代最重要的事实之一:自 1940 年以来,计算成本每十年便会下降两个数量级,且至今没有放缓的迹象。
在人工智能领域,算力和数据长久以来都是限制我们成就的主要瓶颈。进入 2010 年代,随着 GPU 算力和海量数据集的普及,深度学习终于迎来了它的黄金时代。
一时间,我们在计算机视觉、自然语言处理等多个曾被视为棘手难题的领域取得了飞速进展,尤其是自我监督的文本建模技术大获成功。
于是,扩大语言模型的预训练规模,成为了人工智能领域的主导范式。这一方法在所有基准测试中都势如破竹,似乎为我们通往通用人工智能铺就了一条康庄大道。
整个领域都陷入了一种痴迷:认为只要将越来越多的数据塞进越来越大的模型里,通用智能就会如魔法般自发涌动。
然而,这里存在一个根本性的问题:我们误解了这些基准测试的真正含义。
记忆化的静态技能与流体的通用智能之间,存在着天壤之别。前者是固化的,后者则是即时理解和适应未知的能力。
早在 2019 年,为了凸显这一差异,我发布了抽象与推理语料库,简称 ARC。从那时至今,基础模型的规模扩大了约五万倍,但在 ARC 上的准确率,仅仅从 0% 提升到了约 10%。
这个进步微乎其微。考虑到任何一位人类都能轻松获得 95% 以上的分数,10% 的成绩基本等同于零。
ARC 清晰地揭示了,要破解真正的流体智能,我们需要超越扩大预训练规模加静态推理这一模式的新思想。
新的曙光:测试时自适应与流体智能的回归
戏剧性的转折发生在去年。AI 研究界开始转向一个全新的模式:测试时自适应。其核心是创造出能在测试阶段动态改变自身状态,以适应新情境的模型。
这不再是简单地查询预先加载的知识库,而是关乎在推理时进行学习和适应的真实能力。突然之间,我们在 ARC 基准上看到了显著的进展。
我们终于拥有了展现出真正流体智能迹象的 AI。例如,OpenAI 的 O3 模型在 ARC 上进行了专门微调后,首次展现了人类水平的表现。
如今,我们已经从预训练规模化的旧范式,全面进入了测试时自适应的新纪元。其核心技术包括测试时训练、程序综合、思维链综合等。
那么,新的问题随之而来:为何旧范式会失败?新范式能成功吗?AGI 是否已近在咫尺?以及,未来还潜藏着哪些可能性?
本质追问:我们到底在追求怎样的智能?
要回答这些问题,我们必须回归一个更为根本的议题:究竟什么是智能?
过去几十年来,关于 AI 的目标,主要有两条思想路线:一条以明斯基为代表,认为 AI 是让机器执行人类任务。
另一条以麦卡锡为代表,认为 AI 是让机器处理未被预设去解决的新问题。我的观点更倾向于后者。
智能是一个过程,而技能是这个过程的产物。技能本身并非智能。
这就像道路网络和道路建设公司的区别。前者让你在固定的路线上通行,后者则赋予你开辟新路的能力。
智能,是应对新情境、开辟新路的能力。将智能等同于固化的技能,是一个根本性的范畴谬误。
更形式化地讲,我认为智能是一个转化效率:它衡量你如何利用过往经验,去拓展在充满不确定性的未来情境中的有效行动范围。
这就是为何用类似人类考试的基准来衡量 AGI 是一个坏主意。这些考试旨在衡量特定知识,而非智能,并且它们基于对机器不成立的人类假设。
衡量真正重要的事:ARC 系列基准的设计哲学
要严谨地衡量智能,我们必须关注三个核心概念:
流体智能与静态技能的区分:是能即时解决未知,还是只能处理已知? 技能的作用范围:是仅在相似情境有效,还是能在广阔范围内通用? 信息获取的效率:掌握一项技能,需要多少数据和练习?
这些定义至关重要,因为作为工程师,我们只能构建我们能够衡量的东西。衡量标准本身,就定义了我们的目标和路径。
工程领域有一个普遍的捷径法则:当你专注于某个单一指标时,你可能击中目标,却错失了重点。
Netflix 大奖赛的获胜系统因过于复杂而从未被使用。我们通过深蓝战胜了国际象棋世界冠军,却对人类智能本身几乎一无所获。
几十年来,AI 追逐特定任务的技能,这最终导向了自动化。但我们真正想要的,是能够进行自主性创造的 AI,它能加速科学进步,解决人类最艰巨的挑战。
为此,我们需要直接瞄准并衡量流体智能本身。我的 ARC 系列基准正是为此而生。
ARC-1 像一个给机器的智商测试,它无法通过刷题应付,迫使系统展现真正的流体智能,从而揭示了纯粹规模化的局限性。
ARC-2 则更进一步,旨在探测组合泛化能力,即系统性地组合已知概念来理解新事物的能力。它对人类依然可行,但对现有 AI 构成了巨大挑战。
ARC-3 将是一个重大变革,它将评估能动性——在一个规则与目标完全未知的环境中,自主探索、学习和行动的能力。
请记住,ARC 不是目的地,解决 ARC 也不是最终目标。ARC 仅仅是一个指向正确方向的箭头,它帮助我们聚焦于通往 AGI 路上最关键的瓶颈。
智能的深层构架:两种抽象能力的融合
智能之所以可能,是因为宇宙万物并非全然孤立。我将其称之为万花筒假说。
我们体验到的世界看似充满了无尽的新颖与复杂,但描述它所需要的意义原子其实数量很少。你周围的一切,都是这些原子的重新组合。
智能,就是挖掘经验,识别出这些可以在不同情境中被复用的意义原子——即抽象——的能力。
实现智能因此包含两个关键部分:高效的抽象获取与灵活的即时重组。效率是这里的核心。
至此我们便能理解,为何过去的模型纵有万般数据,也无法通往 AGI。它们不仅缺乏即时重组的能力,其抽象获取的效率也极其低下。
其根本原因在于,深度学习模型缺失了一种关键能力,因为抽象本身存在两种类型。
第一类抽象,以数值为中心。它通过连续的距离函数来比较事物,构成了感知、模式识别和直觉的基础。现代深度学习模型是这方面的大师。
第二类抽象,以程序为中心。它通过寻找精确的结构匹配来比较离散的程序或图。这构成了人类大部分推理、规划和严谨逻辑的基础。
Transformer 是第一类抽象的产物,但对于第二类抽象却力不从心。这就是为什么你很难训练它去完美执行排序或加法这类简单的算法任务。
要实现第二类抽象,我们必须借助离散程序搜索。历史上所有展现出创造性的 AI 系统,其核心都依赖于搜索。深度学习擅长自动化,而搜索则能解锁创造。
未来的蓝图:融合两种抽象,构建程序员式的元学习器
无论是完全依赖第一类抽象还是第二类抽象,都无法走得太远。人类智能的强大之处,正在于将两者完美结合。
当下棋时,你的直觉(第一类抽象)迅速将注意力锁定到少数几个有希望的走法上。然后,你再运用严谨的计算(第二-类抽象)来深入分析。直觉让推理变得可行。
我们的核心思想,就是利用第一类抽象提供的快速、近似的判断,来引导第二类抽象的程序搜索,从而有效对抗组合爆炸这一巨大障碍。
这便是我们正在构建的系统全貌。未来的 AI 将更像一个程序员式的元学习器。
当面临新任务时,它会即时综合出一个融合了深度学习模块(处理第一类问题)与算法模块(处理第二类问题)的定制化程序。
整个构建过程,由一个离散程序搜索系统完成,而这个搜索系统本身,又由一个基于深度学习的、关于程序空间结构的直觉模型来引导。
这个过程还会利用一个全球共享、不断演进的可复用抽象库。系统在解决新问题中创造的有用模块,会被回馈到库中,供未来使用。
最终,这个 AI 将能像一位人类软件工程师那样,利用丰富的工具和库,快速为新问题组装出一个有效的解决方案。
结语:Nendo 与科学发现的新纪元
这个系统,正是我在我们的新研究实验室 Nendo 所构建的。我们创立 Nendo,是因为我们坚信,要极大地加速科学进步,我们需要能够进行独立发明与发现的 AI。
我们需要能扩展知识边界,而不仅仅是在边界内运作的 AI。深度学习在自动化方面无比强大,但科学发现需要更多。
我们在 Nendo 的路径,就是利用深度学习引导的程序搜索,来构建这种程序员式的元学习器,并最终将其应用于科学,赋能人类研究者,共同加速人类科学发展的时间线。
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!