主持人:我能问一个有点大逆不道的问题吗?我们现在还是把模型打包成一个单体模型,但如果这种参差不齐的能力分布会一直存在,那是否应该把模型拆开,拆成可以在不同智能领域分别优化、分别改进的东西?比如拆成多个专家模型(Mixture of Experts),每个专注不同领域。而不是现在这样:一个大模型什么都行,但为什么在这件事上表现很好、在另一件事上表现极差,让人非常困惑。Karpathy:我现在的感觉是:前沿实验室还是想做一个单一的“单文化”模型,在所有领域都尽可能聪明,然后把一切都塞进参数里。但我认为未来应该会出现更多的“物种分化”(speciation)。就像动物界,大脑形态极其多样,有各种生态位。有些动物视觉皮层超级发达,有些其他部分超发达。我们应该也会看到更多这种分化。不需要一个无所不知的神谕(oracle)。你可以让它分化,然后针对特定任务部署。而且这样可以出现更小的模型,但仍然保留认知核心,仍然很能干,只是在特定任务上做了特化。这样在延迟、吞吐量上都会更高效。比如专门为Lean定理证明做优化的模型,已经有几家在发布了。应该会出现越来越多这种解耦的场景。主持人:我有一个问题是:当前计算基础设施的容量限制,会不会反过来推动这种分化?因为效率变得更重要了。因为如果算力完全不限,你什么都能跑,哪怕是一个超大单模型。但如果你真切感受到:我不可能为每一个用例都开一个巨型模型。你觉得这会不会推动分化?Karpathy:这个问题很有道理。但我现在的困惑是:我们其实还没看到太多分化。目前还是单一模型占主导。主持人:业界明显有压力,要做一个好的编程模型,然后再合并回主干。Karpathy:尽管模型本身已经有很大压力了。主持人:也许现在是短期供给极度紧张,反而会造成更多分化。Karpathy:对。我觉得本质上,实验室在对外提供模型时,他们并不知道终端用户会问什么。所以他们必须在所有可能的问题上进行多任务规划。如果你是跟某个企业深度合作、针对特定问题,那可能会出现更多特化。或者某些极高价值的细分应用。但目前他们还是在追求“包罗万象”。另外,操控这些“脑”的科学本身还没完全成熟。比如在不损失通用能力的情况下做微调,同时,我们也还没有很好的原语(primitives)。现在基本上靠上下文窗口来操控,它确实很好用、很便宜,所以我们用它做各种定制化。但如果想更深层地调整模型,比如持续学习(continual learning)、在特定领域微调、真正动权重而不是只动上下文窗口,这要复杂得多。动权重实际上是在改变整个模型的智能,很容易出问题。所以“物种分化”的科学本身还不成熟。主持人:而且成本也要足够低,才值得去做。08.AI研究“并行化”展现潜力“散户”也能贡献算力
主持人:我能再问一个关于你之前提到的“自动研究”(auto research)的问题吗?你谈到过“开放地带”(open ground),说我们需要围绕它建立更多的协作表面,让大家都能参与到整体研究中。你能再讲讲这部分吗?Karpathy:好的。我们之前聊到,研究本质上是一条单线程:我不断尝试、循环迭代。但真正有趣的部分其实是它的并行化。我尝试过一些想法,但目前还没有找到特别简单、让我特别满意的方案,所以这只是我业余时间、在不做OpenClaw时顺手捣鼓的一个方向。一个很直接的思路是:如果你有很多并行节点,很容易就能让多个自动研究员(auto researchers)通过一个共享系统互相讨论。但我更感兴趣的是,如何让互联网上大量不被信任的工人(untrusted pool of workers)参与进来。举个例子,在自动研究里,我们的目标是找到一段能把模型训练到非常低验证损失的代码。如果有人从互联网上提交一个候选commit,你很容易验证它到底好不好——直接跑一下就知道。但验证本身虽然简单,却可能要消耗大量算力。而且对方完全可能撒谎。所以这里其实有点像我之前设计的一些系统,引入了不信任的工人池,结构上有点像区块链。这些commit可以互相建立在前面,包含代码的改进。所谓的“工作量证明”其实就是大量实验,找到真正有效的commit。现在的奖励只是上排行榜,没有任何金钱激励。我不想把这个类比推得太远,但核心问题是:搜索的成本非常高,但验证一个候选方案是否优秀却非常便宜——你只需要训练一次模型,看看它到底行不行。前面可能试了1万个想法失败了,但你只要验证那个成功的就够了。简单来说,你需要设计一套系统,让不被信任的工人池和可信任的验证工人协同工作,整个流程是异步的、安全的。从安全角度看,如果有人随便发一段代码给你,你直接跑它是非常危险的。但理论上这是完全可行的。你应该很熟悉SETI@home(在家搜寻地外文明)、Folding@home(在家研究蛋白质折叠)这些项目,它们都有非常相似的性质:找到一个低能量蛋白质构象非常难,但一旦有人找到了,你很容易验证它就是低的。所以凡是符合“生成极贵、验证极便宜”这个特性的问题,都很适合用“@home”模式,比如Folding@home、SETI@home,或者未来的“Auto Research @ home”。一句话总结:互联网上的一大群智能体有可能合作来改进大语言模型,甚至有可能跑赢前沿实验室,谁知道呢?前沿实验室拥有大量可信算力,但地球上不被信任的闲散算力总量要大得多。如果能把机制设计好,让安全验证到位,也许真的有可能让这群“散户”贡献算力,共同推动某些他们关心的方向。再延伸一点,很多公司、机构、甚至个人研究方向都可以有自己的自动研究赛道。比如你特别关心某种癌症,你不只是捐钱给机构,你还可以买一些算力,然后加入那个癌症方向的自动研究“池子”。这样算力就变成了一种你可以贡献的东西,所有研究者最终都在共享、竞争、迭代这些算力成果。主持人:这真的很振奋人心。而且很有意思的一点是,现在至少有一部分人——不管是硅谷排队买显卡的,还是中国商场里抢设备的——突然又觉得拥有个人算力变得有意思了。Karpathy:对。主持人:他们可能为了自己的OpenClaw去买算力,然后顺便贡献给自动研究。Karpathy:现在大家都在乎美元,但未来会不会变成大家都在乎FLOP(浮点运算次数)?会不会出现一种“翻转”——算力变成真正稀缺和主导的东西?当然我不认为会完全这样,但这个想法挺有意思的。09.AI是数字世界的“幽灵”进入物理世界仍会滞后
主持人:你是工程师啊。我觉得有意思的一点是,现在对工程岗位的需求其实还在持续上升。我不确定这是不是暂时的现象。你怎么看?Karpathy:对,我觉得现在软件其实是稀缺的。正因为稀缺、太贵,所以需求才没有爆发。如果门槛大幅降低,就会出现“杰文斯悖论”——东西变得更便宜,人员需求反而增加了。经典例子就是ATM机和银行柜员。很多人一度担心ATM和电脑会把柜员彻底取代,但实际上因为银行开支店的运营成本大幅下降,反而开了更多分行,最后柜员数量反而增加了。这是大家常引用的例子。本质就是:某样东西变便宜了,很多之前被压抑的需求就被释放出来了。所以我在软件工程这个领域其实是谨慎乐观的。我觉得软件的需求会变得极大,因为它变得便宜太多了。而且软件本身太强大了——它是数字信息处理,你不再被迫使用那些不完美的、别人给你的工具,你也不用只能接受现成的东西。代码现在是临时的、可变的、可修改的。所以我认为未来会在数字世界里出现大量“重构一切”的活动,这会创造非常多的需求。长远来看呢,像OpenAI、Anthropic这些前沿实验室,现在也就雇一千来个研究员吧。这些研究员某种意义上是在“光荣地”把自己自动化掉,他们其实就是在主动做这件事。我有时候去OpenAI转转,就会跟他们说:你们有没有意识到,如果我们真的成功了,我们全都要失业啊?我们就是在给Sam(OpenAI联合创始人兼CEO Sam Altman)或者董事会造一个能取代我们的东西啊。有些研究员自己也开始有那种“精神错乱”的感觉,因为它真的在发生。他们会想:完了,连我也完了。11.在前沿AI Lab之外跟“人类整体”立场对齐度更高