欢迎 Jakub 和 Mark 的到来。Jakub,你是 OpenAI 的首席科学家。Mark,你是 OpenAI 的首席研究官。
这篇访谈的干货超多,但超过了1w多字。如果懒得看,可以直接拉到文章最下面,我们为你准备了音频播客。(思维导图和简要版后台私信)
你们二位既享有殊荣也承受着压力,因为你们领导的,可能是人工智能领域最受瞩目的研究团队。
我们非常激动能与你们探讨一系列我们很好奇的话题,包括 GPT-5,这是 OpenAI 近期最激动人心的更新之一。
我们也会深入了解,你们如何建立一个不仅能创造 GPT-5,还能孕育出 Codex、ChatGPT 和 API 业务的团队。
以及你们是如何将公司在不同模态、不同产品形态上的众多投入,编织成一个连贯统一的研究文化和故事。
GPT-5:将推理能力推向主流
主持人
那么,我们不妨从 GPT-5 开始吧。
从你们的视角来看,可以和我们聊聊 GPT-5 的发布吗?整个过程感觉如何?
Mark Chen
我认为,GPT-5 是我们将推理能力推向主流的一次真正尝试。在它之前,我们有两个不同的模型系列。
一个是像 GPT-2、3、4 这样的即时响应模型,另一个是我们的 O 系列,它会经过长时间思考,然后给出它能提供的最佳答案。
我们不希望用户纠结于该用哪种模式。这背后需要大量研究来判断何为恰当的思考量,从而为用户消除这一痛点。
我们相信,未来将越来越关乎推理,越来越关乎智能体。GPT-5 正是朝着默认提供推理能力和更强智能体行为迈出的一步。
相较于之前的模型,GPT-5 在各方面都有诸多改进,但这次发布的核心目标,确实是把推理模式带给更多人。
主持人
能否更详细地谈谈你们如何看待评估这件事?
我注意到,在发布视频里,有些评估指标你们只是从 98% 提升到了 99%,这在某种程度上说明这项评估已经饱和了。
你们用什么方法来衡量进展?又是如何思考这个问题的?
Jakub Pachocki
的确,我们过去几年使用的很多评估标准,确实已经非常接近饱和了。
所以,对其中很多指标而言,从 96% 提升到 98% 未必是世界上最重要的事情。
另一件更重要但更微妙的事是,在 GPT-2、GPT-3、GPT-4 的时代,方法相对单一。
你只需用海量数据预训练一个模型,然后用这些评估作为衡量其泛化到不同任务能力的标尺。
现在,我们有了不同的训练方式,尤其是在严肃推理任务上运用强化学习。
我们可以选定一个领域,真正地训练模型成为该领域的专家,进行深度推理。这让我们能精准地针对特定类型的任务。
这意味着我们能在某些评估上获得极佳性能,但这并不代表对其他事物有同样强的泛化能力。
因此,在这个新世界里,我们确实感到优质的评估方法还很欠缺。我们真正关注的,是模型能够发现新事物的实际迹象。
对我而言,今年最激动人心的线索和实际进展的标志,是我们模型在数学和编程竞赛中的表现。
尽管我认为这些竞赛在某种意义上也正在饱和。我们着眼的下一组评估和里程碑,将涉及真正的科学发现,以及在具有经济意义的事务上取得实际的进展。
主持人
完全正确。你们已经在 AtCoder 编程竞赛中取得了第二名,所以真的只剩下第一名了。
Jakub Pachocki
是的。我认为有必要指出,像 AtCoder、国际数学奥林匹克这类评估,实际上是未来研究能否成功的真实世界指标。
世界上许多最优秀的研究者都经历过这些竞赛并取得了优异成绩。我们正在为下一个前沿领域做准备,那就是让我们的模型去发现新事物。
主持人
这太激动人心了。在 GPT-5 发布前,它的哪项能力最让你们感到惊讶?
无论是在进行评估测试时,还是在你们内部使用时,有没有哪个瞬间,因为觉得它在日常使用中已经足够好用,从而感觉可以发布了?
Jakub Pachocki
对我来说,一件大事是它在非常前沿的硬科学领域所推动的边界。
我们会和一些专业物理学家或数学家朋友一起试用模型。你可能已经在社交媒体上看到了一些例子。
你可以给它一个问题,让它发现一些虽不顶尖复杂、但也相当有分量的新数学知识。
我们看到物理学家和数学家们一次又一次地体验到这种惊喜,他们尝试后会说,哇,这是以前的模型绝对做不到的。
这对他们来说,就像一个灵光乍现的时刻。感觉模型能够自动化完成他们学生可能需要花费数月才能做到的工作。
Mark Chen
GPT-5 相比 O3 绝对是一个明确的进步。对我个人而言,O3 的出现,是推理模型在日常应用中变得真正实用的那个决定性时刻。
尤其是在处理数学公式或进行推导时,它确实达到了一个相当值得信赖的水平,我真的可以把它作为工作中的一个得力工具。
能达到那个时刻真的非常令人兴奋。但我预计,即便我们现在看到模型能自动化解决竞赛难题,这与未来一年将要发生的事情相比,也只是微不足道的一小步。
智能体化
主持人
在未来一到五年内,会发生什么?在你们觉得方便分享的层面上,研究路线图是怎样的?
Jakub Pachocki
我们研究的核心目标,是创造一个自动化研究员。
也就是自动化地发现新想法。当然,我们思考得很多的一个具体问题,是自动化我们自己的工作,即自动化机器学习研究。
但这可能有点自我循环,所以我们也在考虑自动化其他科学领域的进步。
我认为,衡量这方面进展的一个好方法,是看这些模型能在多长的时间跨度内进行有效的推理并取得进展。
现在,当我们在高中级别的竞赛中接近精通时,我可以说我们大概达到了 1 到 5 小时量级的推理能力。
因此,我们正致力于扩展这个时间跨度,这既关乎模型进行超长远规划的能力,也关乎其留存和使用记忆的能力。
主持人
回到评估的问题上,这就是为什么我们对“这个模型能自主运行多久”这类形式的评估特别感兴趣。
主持人
也许正好就这个话题,现在模型开发领域有一个巨大的趋势是朝向智能体化发展。
但至少在目前的状态下,用户观察到一种权衡:过多的工具或规划步骤,反而可能导致质量下降。
而那些智能体化程度稍低的模型,其质量至少在今天看来要更高一些。你们如何看待稳定性和深度之间的这种权衡?
模型执行的步骤越多,第十步的准确性可能就越低;相比之下,让它只做一件事,它可以做得非常出色。
但在更复杂的任务上,就存在这种权衡。当然,要实现完全的自主,你必须执行多个步骤,使用多种工具。
Jakub Pachocki
我认为,维持深度的能力,很大程度上是在长时间跨度内保持一致性的能力,所以我认为这两个问题是高度相关的。
事实上,通过推理模型,我们已经看到模型极大地扩展了它们能够可靠地进行推理和工作的时长,而不会偏离轨道。是的,这仍将是我们关注的一个重要领域。
Mark Chen
我认为推理是实现长期操作能力的核心。你可以想象一下自己解数学题的过程。
你尝试一种方法,行不通,然后你必须思考下一步要用什么方法,第一种方法错在哪里,然后你再尝试别的方法。
这个世界会给你一些明确的反馈,然后你不断尝试不同的路径。在很长一段时间内持续做这件事的能力,就是推理,它赋予了智能体鲁棒性。
强化学习:持续突破的动力引擎
主持人
我们聊了很多数学和科学。我很好奇你们的看法,你们认为我们取得的这些进展,是否同样可以延伸到那些不那么容易验证的领域?那些没有明确对错之分的领域。
Jakub Pachocki
哦,这是一个我非常喜欢的问题。我认为,如果你真的想将能力扩展到研究领域,去发现那些能在数月乃至数年的尺度上显著推动技术的想法,那么这些问题的差异性其实就没那么大了。
在一小时内解决一个定义明确的约束问题是一回事,这感觉可能与解决一个非常开放式的问题截然不同。
但是,即使你想解决一个定义非常明确但时间跨度长得多的问题,比如证明一个千禧年大奖难题。
这就突然要求你思考,哪些数学或其他科学领域可能相关?我是否需要从物理学中汲取灵感?我要围绕这个问题建立一个怎样的完整研究纲领?
这些都变成了非常开放式的问题。实际上,即使是我们自己的研究,如果只关心降低某个数据集上的建模损失,那么衡量进展本身是否在提出正确的研究问题,就成了一个相当开放的事情。
Mark Chen
是的,我认为思考一下“开放式”的极限在哪里也是有意义的。
不久前,Sam 曾提到我们在让模型进行更具创造性写作方面取得的一些进步。我们确实也在考虑这方面的极限情况。
主持人
我们来谈谈强化学习,因为似乎自从 O1 问世以来,强化学习就像一个不断带来惊喜的礼物。
每隔几个月,OpenAI 就会发布新成果,大家都会说,太棒了,但这个强化学习的东西快要到平台期了。
评估指标会饱和,模型无法泛化,或者因为合成数据太多导致模式崩溃等等。每个人都有一长串理由相信强化学习带来的性能提升即将耗尽,但不知何故,它就是没有。
你们总能不断地推出持续的改进。为什么强化学习效果这么好?关于它效果如此之好,有什么让你们感到惊讶的地方吗?
Jakub Pachocki
强化学习是一种非常通用的方法。一旦你有了一个能工作的强化学习系统,就可以探索很多想法。
在 OpenAI 很长一段时间里,我们甚至在语言模型出现之前就开始思考这个问题了。我们当时想,强化学习是一种极其强大的东西,当然它建立在深度学习这个不可思议的通用学习方法之上。
但我们长期挣扎的问题是:环境是什么?我们如何将这些模型锚定到现实世界?还是应该模拟某个虚拟环境?
然后,语言模型的突破到来了。我们发现,如果我们在建模自然语言上扩展深度学习,就能创造出对人类语言有着极其细致入微理解的模型。
从那时起,我们就一直在探索如何将这两种范式结合,让强化学习在自然语言上发挥作用。
一旦你做到了,你就拥有了在预训练所提供的这个极其鲁棒和丰富的环境中,执行不同想法和目标的能力。
所以,这真的是我们过去几年研究中最激动人心的时期,我们确实找到了很多新的方向和有前途的想法,而且它们似乎都在奏效。
从“凭感觉编程”到“凭感觉研究”
主持人
对于非强化学习从业者来说,最困难的事情之一是设计正确的奖励模型。
特别是对于那些希望利用你们这些惊人进展,但甚至不知从何下手的企业来说,未来几年会是怎样的?
对于一个试图理解强化学习以构建正确奖励模型的人来说,什么样的心态是正确的?
关于使用这套最新的推理技术,你们有什么最佳实践或思维方式上的心得吗?作为一个生物学家或物理学家,我应该如何思考奖励建模这个问题?
Jakub Pachocki
我预计这会发展得相当快,会变得更简单。
我想,大概两年前,我们可能还在讨论构建微调数据集的正确方法是什么。我认为这场演进还远未结束,我们会朝着越来越像人类学习的方式迈进,而强化学习目前还不是。
所以,我认为心态中最重要的一点是,不要假设现状会永远持续下去。
主持人
我想把话题带回到编程上。我们不能不祝贺 GPT-5 Codex,它今天刚刚发布。
你们能多谈谈它有什么不同,训练方式有何不同,以及你们为什么对它感到兴奋吗?
Mark Chen
好的。我认为 Codex 团队的一大焦点,就是将我们推理模型的原始智能,转化得对真实世界的编程非常有用。所以他们做的很多工作都与此一致。
他们致力于让模型能够处理更困难的环境。我们知道真实世界的编程非常混乱,所以他们正试图处理这里面的所有复杂性。
很多编程工作与代码风格、以及一些更软性的东西有关,比如模型的积极性如何、它有多懒惰,以及能否为编码模型的行为定义一个规范。
他们在这方面做了很多扎实的工作。正如你所看到的,他们也在开发更好的预设模式。程序员们对于“我愿意为某个解决方案等待多久”有一个概念。
我们做了大量工作来精确调整:对于简单问题,延迟要低得多;而对于更难的问题,正确的做法反而是更高的延迟,以便给你提供真正最好的解决方案。
能够为简单问题和困难问题找到这个最佳平衡点,是非常棒的。我们发现,上一代的 Codex 模型在解决最难问题上花的时间太少,而在解决简单问题上花的时间又太多了。
主持人
既然你们俩过去都曾是编程竞赛选手,我们继续聊聊编程这个话题。
我知道你们在 OpenAI 已经快十年了,但我对围棋手李世石的故事印象深刻,他在多次输给 AlphaGo 后,众所周知地退出了围棋界。
在最近的一次采访中,你们俩都说现在的编码模型已经比你们的能力更强了,并且这让你们感到兴奋。请详细谈谈这一点。
另外,你们现在自己还写多少代码?或者更广泛地在 OpenAI,现在有多少代码是由 AI 编写的?
Jakub Pachocki
关于编码模型变得更强,是的,看到这种进步是极其令人兴奋的。编程竞赛为测试在受限环境和时间框架内提出新想法的能力,提供了一个很好的封装测试。
我确实认为,如果你去看像国际数学奥林匹克第六题,或者一些最难的编程竞赛题,模型还有一点提升空间,但我预计这不会持续太久。
从历史上看,我一直非常不情愿使用任何类型的工具,基本上只用 Vim,非常老派。
但最终,特别是有了像 GPT-5 这样的最新编码工具,我真的感觉到,老路走不通了。
你可以在 15 分钟内几乎完美地完成一个涉及 30 个文件的重构,你不得不使用它。所以,我一直在学习这种新的编码方式,感觉确实有点不同。
我现在觉得它有点处在恐怖谷阶段:你不得不用它,因为它能加速很多事情,但它仍然不像一个同事那样好用。所以,我认为我们的首要任务是走出这个恐怖谷。
Mark Chen
是的,绝对是。为了回应那个李世石时刻,我想说,AlphaGo 对我们俩来说都是人工智能发展中一个非常有里程碑意义的事件。至少对我而言,那是我最初开始从事这项工作的原因。
也许部分因为我们都有编程竞赛的背景,我天生就对构建能在这些竞赛中表现出色的模型有种亲近感。
从解决八年级的数学题,到一年后在这些编程竞赛中达到我们的水平,看到这样的进展是疯狂的。
你会想象或者愿意相信,你也感受到了李世石所感受到的一部分情感。你会觉得,哇,这太疯狂了,这其中蕴含着怎样的可能性?
这是我花了数十年和大量努力才达到的前沿水平。所以你真的能感受到,这意味着这些模型有什么是做不到的呢?
我确实觉得,这已经改变了编程的默认方式。上周末我和一些高中生聊天,他们说,现在写代码的默认方式就是凭感觉编程。
他们会觉得,为了完整性,你可能偶尔会自己从头把所有编程的机械步骤都走一遍,但这对他们来说是个奇怪的概念。为什么要那么做呢?默认就用凭感觉编程就好了。
所以,是的,我确实认为未来,有希望会是凭感觉做研究。
伟大研究员的内核
主持人
我对此有个问题,那就是,什么造就了一位伟大的研究员?当你说凭感觉做研究时,凭感觉编程很大一部分是拥有为世界构建有用且有趣的东西的好品味。
我认为像 Codex 这样的工具之所以出色,是因为如果你对人们想要什么有很好的直觉,它能帮助你表达出来,然后非常快地实现一个原型。
对于研究来说,与之类似的是什么?什么造就了一位伟大的研究员?
Jakub Pachocki
毅力,是一个极为关键的特质。研究的独特之处在于,你试图创造或学习一些完全未知的事物。
你不知道它能否成功,所以你总是在尝试那些大概率会失败的事情。你必须做好准备,坦然面对失败,并从中汲取教训。
这其中,自然也包括提出清晰的假设,并对自己是否达成这些假设保持绝对的诚实。
许多人掉入的一个陷阱是,想方设法去证明它是有效的。这与“我相信我的想法及其重要性”是截然不同的。
坚持你的想法很重要,但你必须对自己诚实,知道它什么时候有效,什么时候无效,这样你才能学习和调整。
Mark Chen
是的,我认为经验几乎没有什么捷径可走。通过经验,你会学到思考一个问题的正确时间跨度。
你不能选择太难的问题,做太容易的又没有满足感。我认为很多研究也是在很长一段时间内管理自己的情绪。
你会尝试很多事情,但它们都不会成功。有时候你需要知道何时坚持下去,有时候则需要知道何时转向一个不同的问题。
而有趣性是你通过阅读好的论文、与同事交谈来培养的,然后你或许能将他们的经验提炼到你自己的流程中。
主持人
我在读研究生的时候,我的研究导师一个重要的理念就是,要选择正确的问题来研究,这样你才能在困难时期坚持下去。
你刚才说了一句很有趣的话,就是对一个想法有信念,和在它行不通时最大限度地寻求真相,这两者之间是有区别的。
这两件事有时是矛盾的,因为你有时会对自己深信不疑的某个主题或问题产生路径依赖。
你有没有发现在选择问题的品味阶段,有什么启发式的方法能帮助你找到那种信念和求真不那么零和博弈的问题?
Jakub Pachocki
需要澄清一下,我不认为信念和求真真的是零和博弈。
你可以对一个想法深信不疑,并且在它不奏效时非常执着地坚持。关键在于,你要对自己取得的进展保持诚实,并且抱着一种能从沿途的失败中学习的心态。
寻找你真正关心并坚信其重要性的问题很重要。我从许多启发过我的研究者身上观察到的一点是,他们真正地去挑战难题。
他们去思考那些众所周知但被认为难以解决的问题,然后去问,为什么它们难以解决?或者,这种方法为什么会失败?你总是在思考,通往下一步的真正障碍是什么。
如果你追求的是你真正认为重要的问题,那么找到坚持数年的动力就会容易得多。
构建制胜文化:保护基础研究与平衡创新
主持人
在 GPT-5 的训练开发阶段,有没有过这样的时刻:存在一个难题,最初的尝试都失败了,但你发现有人坚持了下来?
在那些让你印象深刻的故事里,是什么因素起了作用,是你希望其他研究人员也能多做一点的?
Jakub Pachocki
在这条路上,无论是预训练模型还是推理模型的序列开发中,一个非常普遍的主题是缺陷。
这既包括软件里那些可能潜伏数月、让你在不知情的情况下使所有实验都部分失效的愚蠢缺陷——找出它们对你的研究项目来说可能是一个非常有意义的突破。
也包括思维方式上的缺陷,即你对某件事的思考方式有点偏差,导致你做出错误的假设。
识别这些错误假设,从头开始重新思考框架,我认为无论是为了让第一批推理模型工作起来,还是让更大规模的预训练模型运转起来,我们都曾经历过并必须解决多个类似这样的问题。
主持人
作为研究组织的领导者,你们如何看待留住团队中最优秀人才所需要的条件?
另一方面,如何创建一个即使关键人物离开也不会崩溃的、具有韧性的组织?
Mark Chen
我认为 OpenAI 在激励和留住最优秀人才方面最大的优势在于,我们从事的是基础研究。
我们不是那种环顾四周,说“哦,X 公司做了什么模型,Y 公司做了什么模型”的公司。我们对于我们要构建什么,有一个相当清晰明确的定义。
我们喜欢在前沿创新,我们真的不喜欢模仿。我认为人们被这个使命所激励。
你真正在做的是发现关于深度学习技术栈的新事物,我们正在共同构建一些非常激动人心的东西。
除此之外,很大一部分在于创造非常好的文化。我们希望有一个良好的培养渠道,能把人培养成非常优秀的研究员。
我们历史上一直都在招聘最顶尖和最具创新性的人才。所以,我认为我们有非常深厚的后备力量。
我们的大多数领导者都深受使命的激励,这也是他们都留下来的原因。看看我的直接下属,他们并没有受到人才争夺战的影响。
主持人
我最近和一位研究员聊天,他谈到想要寻找洞穴居住者。
这些人通常不会在社交媒体上发布他们的工作,甚至可能因为各种原因不发表论文。他们就在幕后默默地工作。
我不知道你是否同意这个概念,但你们是如何招聘研究员的?你们寻找人才时,有没有什么不那么显而易见的途径,或者你们看重的哪些特质是不那么明显的?
Jakub Pachocki
我认为我们寻找的一个特质是,在任何领域解决过难题的经历。
我们很多最成功的研究员都是在 OpenAI 开始他们的深度学习之旅的,他们之前曾在其他领域工作,比如物理学、计算机科学或金融。
我们寻找的是扎实的技术基础,加上愿意投身于雄心勃勃的问题并坚持下去的意愿。我们不只是看谁做了最引人注目的工作,或者谁在社交媒体上最活跃。
算力:永恒的瓶颈与优先事项
主持人
你们刚才说的,让我想起我当年作为创始人经营自己公司时,我们招聘优秀工程师的情景,你们描述的很多特质也是我当时所考虑的。
最近埃隆·马斯克发推说,他认为把研究员和工程师区分开来是很傻的。这仅仅是语义上的吹毛求疵,还是你们认为这两者实际上比看起来更相似?
Mark Chen
我确实认为研究员并非只有一种模子。我们在 OpenAI 有一些非常高产的研究员,他们就非常擅长产生想法。
他们不一定需要通过实现所有想法来展现巨大影响力,他们仅仅是通过提出“我们试试这个”或“我们试试那个”,或者对某个问题进行思考,就能产生巨大的价值。
还有一些研究员,他们非常高效地专注于一个想法,围绕这个想法严谨地探索实验空间。
所以,我认为研究员有各种不同的类型。也许第一种类型不一定能和伟大的工程师归为一类,但我们确实试图拥有一套相当多样化的研究品味和风格。
主持人
那么,能否谈谈如何才能创造一种前沿的、能制胜的文化,能够吸引各种类型的研究员,并让他们成长、茁壮,最终规模化地共同取勝?
你们认为一种制胜文化最关键的要素是什么?
Mark Chen
我认为最重要的事情,就是确保你保护基础研究。
如今有这么多公司,你很容易陷入一种思维定式,只考虑“我如何在一个聊天产品或其他产品层面进行竞争”。
你需要确保为研究留出空间,承认研究本身的价值,并给予他们做研究的空间。你不能让他们被所有这些不同的产品方向牵着鼻子走。
Jakub Pachocki
尤其是在 OpenAI 和整个人工智能领域都备受瞩目的今天,不同实验室之间的竞争也很激烈。
很容易陷入一种“哦,我们在竞相超越最新的发布”的心态。人们很容易开始回头看,开始思考其他事情,这确实是一种风险。
我认为我们工作的一个重要部分,就是确保人们有舒适感和空间去思考一两年后事情会是什么样子。
去思考真正重大的研究问题是什么,以及我们如何才能做出性能远超我们目前所见的模型,而不仅仅是在现有范式下进行迭代改进。
主持人
顺着“保护基础研究”这个思路再深入一点,你们显然是世界上最好的研究机构之一,但同时也是最好的产品公司之一。
你们是如何平衡这两者之间的重点的?特别是你们还引进了一些世界上最优秀的产品高管。
在保护基础研究的同时,你们如何继续推动你们已有的优秀产品向前发展?
Mark Chen
我认为关键在于,划定一部分真正关心产品、并愿意为产品成功负责的研究员。
他们当然应该与整个研究部门紧密协调。但让人们理解自己的任务授权以及他们因何而受奖励,是一件非常重要的事情。
Jakub Pachocki
还有一点很有帮助,那就是我们的产品团队和更广泛的公司领导层都认同我们的研究愿景。
所以,没有人会假设我们现在拥有的产品会是永远的产品,然后只是等着研究部门推出新版本。我们能够共同思考未来会是什么样子。
主持人
你们所做的其中一件事,就是让如此多样化的不同想法和赌注在 OpenAI 内部蓬勃发展,然后作为研究领导者,你们必须想办法将这一切整合成一个连贯的路线图。
这边有人在研究扩散模型和视觉媒体的未来,那边又有人在研究代码推理的未来。你们如何将所有这些描绘成一幅连贯的图景?
当给予研究员进行基础研究的独立性,与将所有研究融入一个统一的研究项目之间可能存在某种紧张关系时,这一切是如何结合在一起的?
Jakub Pachocki
几年来,我们研究项目的既定目标一直是实现一个自动化研究员。
所以我们大多数项目都是围绕这个目标构建的。这仍然为自下而上的想法产生、为各个领域的基础研究留下了很大的空间。
但我们一直在思考这些想法最终如何汇集在一起。
例如,我们相信推理模型会有更深远的发展,我们也有很多关于非直接推理模型的探索,但我们一直在思考它们最终如何结合。
以及当你拥有一个能花上几个月时间思考一个难题的东西时,这种创新会是什么样子。所以,我认为这种对我们长期目标的清晰认识非常重要。
但这并不意味着我们对所有细节都做出规定性的要求,我们绝对将其视为一个探索和学习这些技术的问题。
Mark Chen
是的,我认为你需要在非常宏观的层面上是有主见和规定性的,但在更精细的层面上,很多想法都可以自下而上地涌现出来。
主持人
最近这些事情之间有没有出现过任何紧张关系?一个有点挑衅性的例子可能是,最近谷歌发布了一款新的图像模型。
它向人们展示了巨大的价值,当这些模型擅长理解编辑提示时,许多普通人可以释放出大量的创造力。
我能看出这可能会给一个不那么直接优先考虑这个方向的研究项目带来一些张力。
如果你们团队里一位有才华的成员来说,伙计们,这东西在外面世界显然非常有价值,我们应该在这上面投入更多精力,你们如何思考这个问题?
Jakub Pachocki
这绝对是我们在 OpenAI 思考了相当长一段时间的问题。如果你回顾 GPT-3,当我们看到语言模型的发展方向时,我们确实进行了很多讨论。
很明显,人工智能能做很多神奇的事情。你既能拥有推动科学前沿的极其智能的模型,也能拥有令人难以置信的媒体生成和极具变革性的娱乐应用。
如何在所有这些方向中进行优先排序,绝对是我们思考了很久的事情。
Mark Chen
是的,绝对是。真正的答案是,我们不会阻止任何人对此感到兴奋。
如果我们能在优先级排序和产品策略上保持一致,那么它自然会融入进来。所以对我们来说,我们确实鼓励很多人对构建这类产品感到兴奋。
但对我们来说,同样重要的是要有一群独立的人,你要保护他们的目标是创造算法上的进步。
主持人
那么这如何转化为一个具体的资源分配框架呢?你会考虑,比如说,X% 的计算资源将用于更长期的、非常重要但可能有点遥远的探索?
而另一部分则用于当前的产品推理,还有中间地带的,那些可以在中短期内实现的目标?
Mark Chen
是的,这正是我们俩工作的一大部分。这个关于如何分配计算资源给哪个项目的投资组合管理问题。
历史上,我们可能在核心算法进步上投入稍多一些,而不是产品研究。
但这是你需要随着时间去感受和调整的,它是动态的。每个月的需求都可能不同,所以保持相当的灵活性很重要。
主持人
如果你们再多 10% 的资源,你们会把它投向计算资源、数据整理,还是人才?从边际效益的角度看,你们会把它放在哪里?
Mark Chen
好问题。老实说,是的,我认为是计算资源。
主持人
今天看来是合理的答案。
Mark Chen
是的。说实话,回到你关于优先级的问题,在真空中,你当然希望在所有这些事情上都做到卓越并取胜。
但危险在于,你最终可能在所有事情上都屈居第二,而在任何一个领域都无法明确领先。所以,优先级排序很重要,你需要确保在某些事情上头脑清晰,明确这是我们必须取胜的地方。
主持人
是的,但我觉得我们可以再多聊一点,就是计算资源。在某种程度上,计算资源决定了命运,对吧?在像 OpenAI 这样的研究机构。
几年前,一种说法变得非常时髦,就是“哦,我们短期内不会受计算资源限制,因为人们正在发现很多新的算法,我们会变得更高效,最终我们将进入一个数据受限的时代”。
但几年过去了,我们似乎仍然处在一个计算资源非常受限的环境中。你认为这种情况短期内会改变吗?
Jakub Pachocki
我想我们已经看了足够长的时间,看到了我们能用计算资源做多少事情。
我其实不太相信我们会受数据限制的说法,而且我预计这种情况不会改变。
Mark Chen
是的,任何说这话的人都应该来我的岗位上待一周。没有人会说,我拥有我需要的所有计算资源。
伙伴关系:信任是创新的基石
主持人
历史上,推进基础研究的任务很大程度上是大学的职责,部分原因就是你刚才描述的计算资源问题。
但在前沿人工智能领域,情况并非如此。你们在引导前沿人工智能进展以帮助科学发展方面做得非常出色。
我在想,当大学基础研究的世界与前沿人工智能的世界碰撞时,会产生什么?
Mark Chen
我个人是在 OpenAI 做驻留研究员开始的,这是我们为不同领域的人设立的一个项目,让他们能快速学习人工智能并成为有生产力的研究员。
我认为那个项目有很多非常强大的元素。我们的想法就是,能否在尽可能短的时间内加速完成一个类似博士学位的过程。
我认为这很大程度上就是去实现很多核心的研究成果。在做的过程中,你会犯错,你会感叹,哇,如果我这里设置错了,我的网络就会以这种方式崩溃,从而建立直觉。
所以你需要大量那样的动手经验。随着时间的推移,可能所有这些大型实验室都开发了关于优化、架构和强化学习等方面的课程。
可能没有比亲自去尝试实现很多东西、阅读相关资料并进行批判性思考更好的学习方法了。
Jakub Pachocki
是的,也许你在学术界能体验到的另一件好事就是那种坚持不懈。
你有几年的时间去尝试解决一个问题,这是一个难题,你以前从未处理过这么难的问题。
我确实觉得,在当前这个进展飞快的时代,想法成功的频率可能比过去要高一些,因为深度学习就是想要学习。
所以,亲手处理一个更具挑战性的问题,也许是加入一个团队攻克一个雄心勃勃的挑战,体验那种被卡住的感觉,以及最终取得进展的感觉,我认为这也是非常有用的学习经历。
主持人
外部对某个产品发布的看法和反响,在多大程度上会影响你们的优先级排序?
如果用户认知和实际使用情况是一致的,那可能指令很明确。但如果两者有些脱节,这会影响你们对路线图的思考或资源投入的侧重点吗?
Jakub Pachocki
我们通常对未来有一些相当坚定的信念,所以我们不会把它们与产品的短期反响紧密联系在一起。
当然,我们会根据发生的事情进行学习,我们会阅读其他论文,关注其他实验室在做什么,但总的来说,我们的行动是基于对我们正在构建的东西的相当强烈的信念。
当然,这是针对我们的长期研究项目而言。当涉及到产品时,迭代的周期要快得多。
Mark Chen
是的。每次发布,我们都希望它能在产品方面取得巨大成功。从基础研究的角度,我们试图创造具有所有核心能力的模型,以便构建非常丰富的体验和产品。
会有人对他们能构建的某个特定东西有某种愿景,我们会发布它,并且我们真心希望我们发布的每样东西都能大获成功。
我们得到反馈,如果不如预期,我们会稍微调整我们的产品策略。但我们绝对也致力于发布非常有用、能大获成功的产品。
主持人
感觉因为我们刚才花了很多时间讨论的这种完全不受束缚的进步速度,未来几年会有很多事情发生改变。
我想象十年后的事很难预测,甚至十个月后的事都很难。
所以我的问题是,在人工智能前沿将带来的所有这些变化中,你们认为有哪些先验信念实际上应该保持不变?
除了我们显然没有足够的计算资源之外,还有什么你们认为不会改变、可以作为强烈且合理持有的恒定信念?
Jakub Pachocki
我认为比计算资源更广泛的是物理约束,比如能源,还有在不远的将来,机器人技术将成为一个主要焦点。
所以,我认为思考物理约束将始终很重要。但在智能方面,我不会做太多假设。
主持人
很少有创业公司能达到你们这样的规模,无论是在员工数量还是收入上,同时还能保持你们俩刚加入时那种惊人的发展速度。
做到这一点的秘诀是什么?尽管你们现在已经处于顶端,你们是如何继续保持这种近乎于尽快交付产品的压力的?
Mark Chen
我认为,至少在我看来,我们拥有非常好的研究文化的一个最清晰的标志是,我曾在其他公司工作过,那里确实存在一个学习平台期。
你去一家公司,头一两年学到很多,然后你就会发现,你已经知道如何在这个框架内高效工作,你的学习就停止了。
但在 OpenAI,我从未有过这种感觉。就像你描述的那样,所有这些非常酷的结果都在不断涌现,你每周都能学到很多东西,要跟上这一切本身就是一项全职工作。
这让人感到非常充实。所以,是的,我认为你的描述非常准确,我们就是想产出大量高质量的研究,如果你产出的东西多到你几乎跟不上,这反而是件好事。
Jakub Pachocki
是的,完全正确。我认为技术的发展是这里的驱动力。
也许在某个特定的范式下工作几年后我们会变得安逸,但我们总是处在新事物的风口浪尖上。
总是试图根据我们将要面对的新约束和新可能性来重新配置我们的思维。
所以,我认为这创造了一种持续变化的感觉,以及那种总是学习新事物的心态。
主持人
在我们对 OpenAI 的研究中,发现有一件事在历经诸多变化后始终未变,那就是你们二位对彼此的信任。
最近《麻省理工科技评论》上有一篇关于你们的报道,其中一个突出的主题就是你们之间的化学反应、信任和默契,这已经成为 OpenAI 许多人眼中的一个常量。
这背后有什么故事吗?你们是如何建立起这种信任的?
Mark Chen
我想我们是在刚开始有做推理这个方向的初步想法时,开始更紧密地合作的。
当时,那并不是一个很受欢迎的研究方向,但我们俩都看到了希望的曙光,所以我们就朝着这个方向努力,想办法让它奏效。
随着时间的推移,我们将一个很小的努力发展成一个越来越大的项目。我想就是在那段时间里,我真正开始与 Jakub 深入合作。
他真是一位非凡的研究员。我认为在任何这类排名榜单上,他都应该是第一名。
他那种能够接受任何极其困难的技术挑战,然后几乎是靠个人之力思考两周就彻底解决它的能力,简直不可思议。
他既有广博的理解力,又有那种能够亲自解决许多技术挑战的深度,这太了不起了。
主持人
现在轮到你来说些他的好话了。
Jakub Pachocki
谢谢你,Mark。是的,我想我们一起做的第一件大事是,当我们开始看到“我们觉得这个算法能行”的时候。
我当时在想,我们该如何引导大家朝这个方向努力。我和 Mark 讨论说,我们应该建立一个团队来真正实现它。
然后 Mark 就去做了,他真的把一群来自不同领域的人聚集在一起,从一个松散的群体中创建了一个化学反应极佳的团队,这让我印象非常深刻。
我很感激也很受启发能与 Mark 共事并体验这一切。他有一种不可思议的能力,既能理解、参与并思考研究本身的技术问题。
又具备卓越的领导和激励团队的能力,能够在一个充满混乱方向的环境中,创建一个连贯且能融合在一起的组织结构。是的,非常鼓舞人心。
主持人: 在科学领域,尤其是在物理学领域,一些最伟大的发现常常来自一对合作者,他们可能跨越大学、跨越领域。
现在看来,你们也为这一传统增添了新的一笔。我们非常感谢你们今天能抽出时间来交流。谢谢你们的到来。
Mark Chen: 谢谢。
Jakub Pachocki: 谢谢你们邀请我们。
视频访谈地址:https://www.youtube.com/watch?v=KSgPNVmZ8jQ
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!