OpenAI联合创始人Greg Brockman：对话黄仁勋、预言GPT-6、我们正处在一个算法瓶颈回归的时代

责编 | 王启隆

出品 | CSDN（ID：CSDNnews）

投稿或寻求报道 | zhanghy@csdn.net

所有人都仰望星空、谈论着通用人工智能（AGI）何时降临的时代里，我们或许更应关注那些低头铸造火箭的人。

OpenAI 的联合创始人兼前总裁 Greg Brockman 近日在 AI.Enigineer 上进行了一场对话分享，期间还邀请到英伟达 CEO 黄仁勋和他进行了一段连线问答。

资讯配图

对话的主线，并非一个英雄的成长史，亦远不止是 ChatGPT 或 GPT-5 发布瞬间的狂热与混乱，而是一条贯穿 70 年计算机历史的、从个人魔法到工业革命的演进脉络：一个因点击排序按钮感受到“魔法”而投身编程的少年黑客，如何成长为驾驭十万 GPU 集群、与黄仁勋商讨下一代 AI 基础设施的工业巨擘？

这并非一个简单的线性成长故事。在 Greg Brockman 对自己过往经历的叙述中，我们能看到两个世界的重叠与碰撞：

一个是“游牧民族”的世界：信奉第一性原理，蔑视陈规。为了一个客户，可以在 24 小时内攻克银行需要 9 个月的技术对接。这是 Stripe 崛起的秘密，也是硅谷精神的原始图腾——相信凭借超凡的意志和智力，个体的创造力可以战胜任何系统性的僵化。
另一个是“农耕文明”的世界：在这里，你需要耕耘十万块 GPU 的庞大集群，需要建立“检查点”与“可靠性”的秩序，需要调和“研究”与“工程”两种截然不同的文化。最大的敌人不再是外部规则，而是系统自身的复杂性。任何一个环节的崩溃，都足以让整个帝国停摆。

资讯配图

Greg Brockman 的故事始于一个少年因实现表格排序而感受到的纯粹“魔法”，终于驾驭人类有史以来最复杂的计算系统。在这场对话中，几个看似寻常却极具分量的座右铭也浮出水面：

关于动机：“忘掉那一百年的宏大愿景吧，我只想创造。” 驱动他的并非遥远的理论，而是将脑中想法变为现实世界可用之物的即时反馈，这或许是所有伟大工程师的共同原点。
关于合作：“技术上的谦逊至关重要。” 当工程师闯入研究员的领地，传统的边界和接口不再可靠。你必须假设自己遗漏了某些信息，在彻底理解“为什么”之前，不要轻易动手。
关于未来：“我们正处在一个基础研究回归的时代。” 当所有人都以为通往 AGI 的道路只剩下“造更大的计算机”，他却指出，在规模的极限处，算法瓶颈重回舞台中央。这意味着，人类的巧思再次变得比算力本身更关键。
关于编码：“模型会比你更在乎测试。” AI 正以一种奇特的方式，倒逼人类重拾那些因图省事而丢掉的、最优秀的软件工程实践。为了让 AI 更好地工作，我们必须构建更清晰、更模块化的代码，讽刺的是，这本就是我们该为自己做的事。

这些迷思，标示出一个行业几乎必然会遇到的冲突、困惑与机会。它关乎我们所有人：当创造的工具变得如此强大，我们该如何重新思考“创造”本身？

以下为对话全文，由 CSDN 精编整理。

· · ·

从数学梦到编程魔法

主持人：我们今天打算按时间顺序聊一聊。很多人都提交了问题，我已经帮你整理归类好了，所以我们就直接开始吧。

我对你做了一番深入研究，我管这叫“人物深度挖掘”，因为我们研究的是一个活生生的人。你从小就接触戏剧，还学了化学和数学，后来因为写了一个日程安排应用而踏入了编程的大门。但究竟是什么真正点燃了你对编程的热爱？你为什么会成为大家眼中的那个“编程狂人”？

Greg Brockman（以下简称 Greg）：有意思的是，我小时候一直以为自己长大会成为一名数学家。我读过很多数学家的故事，比如伽罗瓦和高斯，他们思考的都是能影响未来一百年、两百年甚至三百年的问题。我当时觉得，这正是我想要做的。如果我提出的任何理论在我有生之年就被应用了，那说明它还不够长远，不够抽象。

高中毕业后，我写了一本化学教科书，寄给我一个在数学领域做过类似事情的朋友看。

他说：“这书不可能有出版社要的。你要么自费出版——” 我一想，天啊，那得花多少功夫和本钱啊，“——要么，你就建个网站。”

我心想：“行吧，看来我得学学怎么做网站了。”

于是，我真的就跑去 W3Schools 网站，从头学完了他们的 PHP 教程。

我还记得我做的第一个东西，是一个给表格排序的小插件。我脑子里已经有了清晰的画面，想着它该是什么样。我还记得，当我点击表头，整个表格真的就按照那一列排序了，跟我预想的完全一样。那一刻，我感觉就像见证了魔法。我心想：“这东西也太酷了。”

因为数学这东西，是你绞尽脑汁想通一个问题，理解了它，然后用一种晦涩难懂的方式记录下来，称之为“证明”。之后，可能全世界只有三个人会关心它。

但在编程世界里，你也是用一种晦涩难懂的方式把它写下来，我们称之为“程序”。然后，可能也只有三个人会去读你的代码、关心你的程序，但所有人都能享受到它带来的好处。没有人需要理解其中的细节。你脑海中的想法，就这么变成了现实世界里真实存在的东西。那一刻我就认定，这才是我真正想做的事。忘掉那一百年的宏大愿景吧，我只想创造。

结缘 Stripe：辍学背后的故事与第一性原理

主持人：而你的确只想创造。你在这方面是如此出色，以至于还在上大学的时候，不知怎么地，Stripe（人称“美国支付宝”的软件）就给你发了一封“陌生人”邮件。这背后有什么故事吗？他们是怎么找到你的？又是什么说服了你辍学加入他们？

Greg：我和 Stripe 的创始人有一些共同的朋友——当时那还是个只有三个人的“大公司”。他们按照惯例，去问哈佛的朋友，校园里有谁值得聊聊，可能可以招募。我的名字就被人提起了。然后他们又去问了麻省理工的朋友，因为我当时已经从哈佛辍学，转去了麻省理工。所以，我占了个便宜，在两边都拿到了“推荐票”。

我还记得见到 Patrick（Stripe 的联合创始人）的那天，我刚下飞机，天色已晚，外面还下着暴雨。我一到，我们就开始聊代码。就在那一刻，我心里想：“这正是我一直以来想找的、想与之共事的人。” 于是，我最终从麻省理工辍学，飞了过去，从此就一直待在了这里。

主持人：如你所知，我们在访谈中穿插了一些嘉宾提问。这里有一位名叫 Matthew Brockman 的嘉宾提问。

Greg：我好像听过这个名字（这里是开玩笑，Matthew 其实就是 Greg 的亲兄弟，在 2023 年 OpenAI 宫斗的时候，Matt 在推特上声援了 Greg 并亮相）。

Shawn：他是 Julius AI 的首席执行官。他问：“你觉得我们的父母什么时候才会放弃让你完成学位的梦想？或许哈佛或者北达科他大学会愿意让你回去念完？”

Greg：唉，他们永远不会放弃的。

当时确实很难。不管你要去哪，当你告诉父母你要离开哈佛时，这坎都不好过。当你告诉他们你要彻底辍学时，那更是难上加难。但值得称赞的是，尽管他们觉得很难接受，但还是对我说：“我们相信你。你所处的位置，一定让你看到了、理解了一些我们隔着大半个国家难以看到的东西。”

但后来，我在 Stripe 做得不错，也确实学到了东西——而且事实证明这是一家真正的公司，不是我为了无所事事而辍学——我想他们也就慢慢接受了这个现实。

主持人：我想他们一定为你感到非常骄傲。所以，你见证了 Stripe 从 4 名员工发展到 250 人，并最终成为公司的第一位首席技术官。我最近发现一件事，可能 Hacker News 上的网友们都不知道，那就是传说中的“科里森安装法”（Collison installation）其实只发生过屈指可数的几次，它在 Stripe 内部并不是一个常规操作。

Greg：我觉得确实如此。但这个故事却在各种传说中流传了下来……

主持人：这成了一个都市传奇，因为它实在太酷了。那种为了客户可以做到极致的感觉。那么，关于早期的 Stripe，大家还有哪些误解？我们借这个机会澄清一下？

Greg：我觉得大家并不了解当初有多艰难。

首先，我们把所有客户都加了 Gchat 好友，随时和他们保持着联系。所以，即便你不是真的坐在他们身边看着他们操作，也做到了仅次于此的程度。

我记得有一次，我们意识到当时使用的支付后端根本无法支撑业务的扩张。我们必须接入富国银行（Wells Fargo）的系统。我们谈妥了合作，但接下来需要进行技术对接。对方告诉我们：“嗯，这个技术对接需要九个月，因为我们一向都是这个流程。” 我们当时就想：“这太疯狂了。我们是创业公司，怎么可能干等九个月。”

于是，我们在 24 小时内，就把这事儿搞定了，基本上是把它当作大学里的一项课题作业来攻克的。我负责实现所有功能，John 从测试脚本的顶端开始，一项项地测试，然后告诉我“这个坏了”，Darragh 则从底端开始往上推进。到了第二天早上，我们和对方的认证人员连线，发了几个测试请求，结果报错了。那个人说：“好的，那我们下周再约吧。” 因为他们所有的客户都是这么办事的：出了错，你显然得把它交给你的开发团队去处理。

但我们说：“别，别，别，肯定是系统里有什么小毛病。” Patrick 就在那儿跟她东拉西扯，拖延时间，而我在这边拼命地修改代码。我们来回试了大概五次，还是失败了。但幸运的是，她人很好，愿意把时间改到两小时后，那一次我们终于通过了。回过头看，你才意识到，那一瞬间你完成的，是正常情况下六周的开发工作量，就是因为你没有接受其他组织习以为常的那套武断的限制。

主持人：你觉得在大多数工作中，都存在很多类似的机会吗？你如何建议其他人也能做到那么快，或者说砍掉那么多不必要的流程？

Greg：我的想法是，如果你能从第一性原理出发去思考，你就能找到哪些环节是必须放慢速度、必须按部就班的。这样的环节是存在的。“别管那些限制，只管去做”这个原则并非百分之百正确。关键在于，你要识别出那些不必要的开销，它们的存在可能是为了应对一些早已过时、或者根本不适用于你具体情况的限制。这一点在今天这个 AI 极大提升生产力的世界里，尤其适用。

主持人：是啊，不行就直接让 Codex 来一段代码，何乐而不为呢？

独立研究、从自学到顿悟

主持人：关于你加入 OpenAI 之前的生活，还有最后一件事，那就是“独立研究”。我发现这是你从高中起就反复出现的一个主题。你参加过 Recurse Center（一个编程静修中心）吗？

Greg：是的，我去过。

主持人：还有你的学术休假，你反复地进行独立研究。你认为是什么让独立研究如此高效？我觉得很多人在这方面做得并不好，甚至会浪费掉一整年。你有什么秘诀吗？

Greg：这是我成长过程中的一个关键部分。六年级时，我爸教了我代数。七年级我到中学报到，那是第一次分快慢班学数学——当时是初级代数。我们找到老师问：“他能不能跳过这门课，直接去上八年级的课程？”

那位老师用一种居高临下的眼神看着我和我妈说：“每个家长都觉得自己的孩子是天才。” 结果在她班上待了一个月后——我上课根本不听讲，就在后面玩计算器游戏——她想通过叫我上黑板答题来难住我，但我每次都全答对了。她只好说：“好吧，算我输了。你的孩子确实应该去上高年级的课。”

但到了八年级，我们中学已经没有更高级的数学课了。我当时又没有车，所以只能上网络课程。就在那一年里，我学完了高中三年的数学内容。

所以对我来说，很重要的一点是，当你对自己想做的事情有发自内心的热情时，你同样可以打破常规的限制。你可以在一年内学完三年的数学，而且这种优势是会复利的。第二年，我进了高中，很快就学完了高中的数学。所以在高二、高三那两年，我已经没有数学课可上了。那时我有了车，就可以去北达科他大学，随便选我想上的课。

这种经历不断累积，也影响了我学习编程的方式，基本上就是靠自学——不断地创造，不断地在真实世界里体验。所以我的建议是，如果你有机会去探索，并且你真的享受你所热衷的事情，那就深入地钻研下去。顺便说一句，这个过程并不总是充满乐趣，你很容易会感到无聊。但只要你坚持挺过那些坎，回报绝对是值得的。

主持人：你也是通过自学进入机器学习领域的，那也是你人生中的一个重要阶段。那段时间有什么特别的亮点吗？好像你还和杰弗里·辛顿（Geoffrey Hinton）聊过。

Greg：是的，我和他聊过。

主持人：那次交流对你有什么帮助？或者说，在你成为一名机器学习从业者的道路上，什么对你帮助最大？

Greg：我刚开始接触时，还在 Stripe 工作。当时我经常在 Hacker News 上看关于深度学习的文章，感觉每天都有一个“深度学习赋能某某领域”的帖子。那是 2013、2014 年的时候，我很好奇：“深度学习到底是什么？” 我认识这个领域里的一个人，就去找他聊。他又把我介绍给更多的人，那些人又把我介绍给更多的人。让我惊讶的是，我发现自己不断被介绍给我大学里那些最聪明的朋友们。

我当时就想：“有意思，这些顶尖的人才最终都汇集到了这个领域。这背后到底发生了什么？” 我开始意识到，一股真正的力量正在形成。人们真的在让这些系统做一些计算机以前完全做不到的、实质性的新事情。我心想：“就是这个了。”

离开 Stripe 后，我知道自己想在 AI 领域做点什么，比如创办一家 AI 公司，但我不太清楚自己该如何贡献，或者我的技能在哪些方面能派上用场。当时我人在纽约，就想：“要不我组装一台 GPU 工作站，去参加一些 Kaggle 竞赛试试看。” 于是我上 Newegg 网站，买了几块 Titan X 显卡。亲手组装那台机器的感觉真的太酷了。你们还能找到我 2015 年发的一条推文，当我按下开机键，看到满眼的绿光和所有风扇飞转起来的时候，我心想：“这才是计算机该有的样子。”

主持人：那么，是什么让你确信通用人工智能（AGI）是可能实现的呢？你曾一度对此感到幻灭，你试着写过一个聊天机器人，但失败了。是什么让你最终决定全身心投入其中？

Greg：对我而言，这段心路历程的一部分，源于阅读艾伦·图灵 1950 年发表的论文《计算机器与智能》。也就是提出图灵测试的那篇。

最让我着迷的是，在论文开头，他提出了图灵测试——关于“机器能否思考？”“它是否智能？”的核心思想。如果你无法分辨你是在和一台机器对话，还是在和另一个人对话，那你就可以说它是智能的。这很好理解。

但论文中有一个观点，虽然没有在流行文化中广为流传，但对我来说却极其震撼。他说：“那么，你该如何编程来实现这个目标呢？你永远不可能写下所有的规则。但是，如果你能制造一个 ‘儿童机器’，让它像人类小孩一样学习呢？然后你只需施加奖励和惩罚，砰的一声，它就能通过测试了。”

我当时想：“这才是我们必须去创造的那种技术。” 作为程序员，你必须理解一切，必须洞悉解决问题的全部规则。但如果机器能够理解并解决连你自己都无法解决的问题呢？这感觉才是最根本的，这感觉才是解决人类重大问题的真正途径。

我大概是在 2008 年左右读到这篇文章的，然后我去找我的教授，一位自然语言处理（NLP）领域的教授，问他我能不能跟他做点研究。他说：“可以啊，这些是语法分析树，你拿去看看。”

我心想：“好吧，这可不是图灵说的那回事。”

主持人：这就像 WordNet 词典之类的……

Greg：完全就是那一套。没错。所以，那段时间确实是我的“失意低谷”。

但深度学习的神奇之处在于，它在 2012 年的 AlexNet 上真正展现出了喜人的成果，在 ImageNet 竞赛中一举击败了所有对手。突然之间，你有了一台通用的学习机器。虽然它在设计上带有一点卷积网络的先验知识，但它胜过了计算机视觉领域过去四十年的研究积累，胜过了那些试图尽可能写下所有规则的人。

接着，人们说：“好吧，它在视觉领域行得通，但在我的领域绝对不行。它在机器翻译、在自然语言处理、在这样那样的领域，永远都不可能成功。” 但紧接着，它在所有这些领域都开始做到最好。一夜之间，不同学科部门之间的壁垒被推倒了。我当时就想：“这才是图灵所说的那种东西。”

所以对我来说，光是看到这项技术的“类型签名”（type signature）……顺便说一句，这项技术并不新。神经网络……如果你去读麦卡洛克-皮茨在 1943 年左右发表的关于神经元的论文……

主持人：我刚才还让他给大家留点作业呢。

Greg：好的，作业来了，同学们记一下。你会发现，那篇论文里的插图，和你现在看到的那些描绘神经元层级的图片，看起来几乎一模一样。你就会意识到，我们现在做的事情，背后有着非常深刻的根基。你还能找到一篇 90 年代的论文，探讨是什么导致了深度学习的寒冬。文章说，那些搞神经网络的人根本没什么新点子，“他们唯一的想法就是造更大的计算机。” 我当时想：“没错！这正是我们该做的。”

所以，所有这些因素加在一起，让我感觉我们某种程度上是在延续一段长达七十年的历史浪潮。从很多方面来说，整个计算机行业的发展，都是在为这一刻做准备：创造出能够执行我们现在才刚刚触及皮毛的那些任务的机器；能够解决人类无法解决的新问题；能够在日常生活中辅助我们；让我们不再需要用这两根“肉条”（手指）打字，而是能拥有一个像人一样交互的对象，让机器更贴近你，而不是你必须去学习汇编语言之类的东西来迁就它。所以对我来说，感觉所有的条件都已成熟，现在我们只需要去创造。

主持人：我很喜欢你一直回归的这个主题：我们只需要去创造。

研究与工程：OpenAI 的双引擎，当工程师遇上研究员

主持人：2022 年，你写了一篇文章说“是时候成为一名机器学习工程师了”。我有一个朋友，就是读了那篇文章后，给你发了邮件，然后加入了 OpenAI。你说过，伟大的工程师能够和伟大的研究员一样，为未来的进步做出同等级别的贡献。这个观点今天还成立吗？我觉得很多工程师看着那些拿着数百万美元薪水的研究员，会想：我怎么才能做出和他们一样大的贡献？

Greg：我认为这个观点绝对成立，甚至比以往任何时候都更加正确。如果你回顾一下 2012 年以来深度学习研究的各个阶段，你会发现，最开始确实是那些拥有博士学位的科研人员提出想法并进行验证。当然，其中也有工程工作。如果你仔细看 AlexNet 本身，它的核心就是一项工程成就：在 GPU 上实现了高效的卷积核运算。

有个趣闻，当时和 Alex Krizhevsky 在同一个实验室的人其实都替他感到惋惜，他们觉得：“他搞出了一些快速卷积核，但只是用在一个无关紧要的图像数据集上。” 但事实证明，你只需要把这个技术应用到 ImageNet 上，它就会大放异彩。所以，是卓越的工程能力与“用它做什么”的洞见相结合，才创造了奇迹。

我认为，今天依然如此、甚至愈发如此的是，现在所需的工程能力，早已不只是编写几个计算核心那么简单了。它关乎构建一个庞大的系统，关乎扩展到十万块 GPU 的规模，关乎搭建一个能以各种方式调度资源的、极其复杂的强化学习系统。如果你没有好的想法，那你就像是搁浅的船，寸步难行。但如果你没有强大的工程能力，那再好的想法也无法诞生于世，无法看到天日。你必须让这两者和谐地结合在一起。

主持人：我觉得 Ilya Sutskever 和 Alex Krizhevsky 的合作关系，正是这种“研究-工程”伙伴关系的缩影，而这也成为了后来 OpenAI 的理念。

Greg：完全正确。如果你观察 OpenAI 的运作方式，就会发现从一开始，我们就秉持着一种精神：工程和研究同等重要，并且要像伙伴一样并肩协作。这是我们每天都在努力实践的事情。

主持人：在访谈里出其不意地提问是我的明确目标。所以，关于工程和研究的关系，OpenAI 在早期有哪些做得不好的地方，而现在又改进了呢？

Greg：嗯，关于工程和研究的关系，我的看法是，你永远无法一劳永逸地解决它。你只是解决了当前层面的问题，然后又会进入下一个更复杂的层面。我注意到，我们遇到的问题，基本上和所有其他实验室遇到过的一样；只是我们可能走得更远一些，或者问题的变体略有不同。所以，我觉得这里面有某种非常根本性的规律。

在最早期，我能清楚地看到，来自工程界的人和来自研究界的人，对系统约束的思考方式完全不同。

作为工程师，你会想：“嘿，既然我们约定好了接口，你就不该关心接口背后是什么。这是我们说好的，我可以用任何我喜欢的方式去实现它。”

而作为研究员，你会想：“如果系统里任何一个地方有bug，我得到的只会是性能的轻微下降，而不会收到一个异常，也不会有任何线索告诉我问题出在哪。所以，我有责任去理解所有的一切。接口根本不重要，除非它坚如磐石，我永远不需要去思考它——而这是一个非常高的标准——否则，我就必须对这段代码负责。”

这就会导致摩擦，因为这样一来，你们到底要怎么合作呢？我很早就看到过一个项目，工程背景的人写了代码，然后研究背景的人会对每一行代码展开激烈的辩论。我当时就想，这项目永远也推进不下去了，速度会慢得要死。

后来，我们采取的方式是……我当时直接参与了那个项目，我会一次性提出五个想法。研究那边的人会说：“这四个不行。” 我就说：“太好了，我就是想知道这个。” 我们真正意识到，并且我也会告诉那些从工程界加入OpenAI的人，最关键的一点是“技术上的谦逊”。你之所以被招进来，是因为你拥有重要的技能，但这和传统的互联网创业公司是完全不同的环境。弄清楚你的直觉何时适用，何时应该抛诸脑后，是极其困难的。

所以，最重要的事情就是，进来之后，要真正地、真正地去倾听，并且假设在你彻底理解“为什么”之前，你一定遗漏了某些信息。到了那个时候，好的，你再去做出改变，去修改架构，去重构抽象。但那种带着谦逊，去真正阅读、倾听和理解的态度，是一个至关重要的决定因素。

研究与工程：OpenAI 的双引擎，当工程师遇上研究员

主持人：接下来，我们来聊聊 OpenAI 近期几次重磅发布的幕后故事。有一件很有意思的事，就是规模扩张（Scaling）。在不同的数量级上，所有东西都会出问题。ChatGPT 发布时，你们在 5 天内获得了一百万用户。而今年，GPT-4o 的图像生成功能发布时，你们在 5 天内获得了一亿用户。这两个时期相比，感觉有什么不同？

Greg：从很多方面来看，这两个时刻都惊人地相似。ChatGPT 当时本来只是一个低调的研究预览版。我们很平静地把它发布了出去，然后突然之间，所有系统都宕机了。我们某种程度上预料到 ChatGPT 会非常受欢迎，但我们以为需要等到 GPT-4 发布才能达到那个热度。

主持人：你们内部当时已经用上 GPT-4 了，所以对 3.5 没那么惊艳了。

Greg：完全正确。这也是这个领域的另一个特点：你的认知更新得太快了。你刚看到一个魔法般的奇迹，心想：“天啊，这是我见过最厉害的东西了。” 紧接着你就会抱怨：“嗯，它怎么还不能帮我合并 10 个代码合并请求（PR）？”

图像生成功能发布的那一刻也非常相似，它同样备受喜爱，广受欢迎，病毒式传播的方式让各项数据都突破了天际。在这两次发布中，我们内部其实都做了一件我们极力避免的事情，那就是从研究项目中调拨了大量的计算资源，因为这相当于抵押未来来保证当下的系统运转。但如果你真的能满足并跟上用户的需求，那么当然，人们就能体验到那种魔力，我认为在那种时刻，最大化这种体验是非常值得和重要的事情。

所以我想，我们始终秉持着同样的精神：真正服务用户，真正推动技术，去做那些前所未见的、实质性的新东西。然后，无论需要付出什么代价，我们都会把它们推向世界，让它们取得成功。

主持人：难以置信，太了不起了。关于 GPT-4 发布会。我听说那个玩笑网站是你太太画的？

Greg：是真的。算是个有趣的小彩蛋。我的字写得太烂了，连我们自己的 AI 都识别不出来该拿它怎么办。

主持人：你当时有一些即兴发挥吗？我听说有。

Greg：那条波浪线吗？是的。通常，我做这类演示时，都会提前测试好大概的流程。但我一直很讨厌那种只要你打错一个字符，整个演示就进行不下去的设计。我不喜欢做那样的演示。我希望它有一定的容错性。所以，最终实际展示的内容总会有些变化。

主持人：对我来说，那是我觉得全世界第一次见识到所谓的“氛围编程”（vibe coding）。现在这已经成了一个流行词了。你对“氛围编程”有什么看法？

Greg： “氛围编程”作为一种赋能的机制，非常了不起，它在某种程度上也代表了未来的趋势。至于“氛围编程”具体是什么，我认为它会随着时间而改变。

我觉得，即便你看看像 Codex 这样的工具，在某种程度上，我们的愿景是，当你开始拥有真正能工作的智能体时，你拥有的将不只是一个副本，不是十个，而是一百、一千、一万甚至十万个这样的东西在运行。你会更希望像对待同事一样对待它们。你希望它们在云端，处理各种事务，能够接入各种各样的东西。即便你睡着了，笔记本合上了，它依然在工作。

我对未来的预测是，当前这种在交互循环中进行的“氛围编程”会越来越多，但智能体（agentic）的应用也会真正地介入并超越它。所有这一切，最终都将促成更多系统的诞生。

我认为另一个非常有趣的点是，很多“氛围编程”的演示和那些酷炫的东西，比如制作一个玩笑网站，都是从零开始创建一个应用。但我认为，真正具有革新性和颠覆性的，并且已经开始发生的，是能够改造现有应用并深入其中的能力。太多公司都坐拥庞大的遗留代码库，而进行迁移、更新库、把你那古老的 COBOL 语言换成别的，是如此的困难。而且说实话，这对人类来说一点也不好玩。我想，我们正开始拥有能够真正解决这些问题的 AI 了。

我喜欢“氛围感编程”的起点——那种“随手创造酷炫应用”的感觉——但它正开始变得更像是严肃的软件工程。并且会更进一步，让一个公司能够以快得多的速度前进，这正是我认为我们前进的方向。

主持人：提到 Codex，我听说它在某种程度上像是你的“亲儿子”。在直播中，你也谈了很多关于让代码模块化、文档清晰等等好的实践。你认为 Codex 会如何改变我们编码的方式？

Greg：说它是我的“亲儿子”绝对是夸张了。我们有一个非常了不起的团队，我只是在尽力支持他们和他们的愿景，但这个方向对我来说，是如此引人入胜和不可思议。

主持人：那么，Codex 会如何改变我们编码的方式？

Greg：我观察到的最有趣的一点是，当你意识到代码库的组织方式决定了你能从 Codex 中获得多少助益时。我们现有的所有代码库，在某种程度上都是为了匹配人类的长处而构建的。但如果你反过来，让它们去匹配模型的长处——模型的特点非常偏科，它们能处理的多样性远超人类，但目前在连接深层思想方面还不如人类——你就能从它们身上获得更多。

你可能想要做的，是创建更小、经过充分测试的模块，这些模块的测试可以非常快速地运行。然后，填充细节的工作，模型会自己完成，它还会自己运行测试。而这些不同组件之间的连接，也就是架构图的设计，其实是相当容易的。真正困难的，往往是填充所有细节。

如果你这么做，我所描述的听起来也很像优秀的软件工程实践。但有时候，因为人类能够在脑海中容纳更复杂的概念抽象，我们就不这么做了。编写和完善这些测试需要大量工作。但模型运行这些测试的次数，会比你多一百倍、一千倍，所以它会比你更在意这些。

所以，在某些方面，我们想要前进的方向是，为更初级的开发者构建我们的代码库，以便真正地从这些模型中获得最大收益。当然，随着模型能力的提升，这种组织代码库的方式是否会保持不变，这将是一个非常有趣的看点。我个人倾向于认为，这是个很好的思路，因为它再次与那些为了人类可维护性而应该做的事情不谋而合。但对我来说，对于软件工程的未来，最令人兴奋的思考是：我们过去为了图省事而“偷工减料”的那些实践，有哪些是现在为了最大化系统效能而必须重新拾起的？

主持人：你能大致估计一下，你们内部使用 Codex 带来的生产力提升有多少吗？

Greg：我不清楚最新的数据。但我们肯定有百分之十几的代码合并请求（PR）是完全由 Codex 编写的，这看起来非常酷。但它也不是我们内部使用的唯一系统，而且对我来说，它仍处于非常、非常早期的阶段。看到一些外部的指标也很令人兴奋。我记得在过去一天里，公共的 GitHub 仓库里有 24000 个由它完成的合并请求被接受了。所以，这一切都才刚刚开始。

主持人：随着我们执行的任务越来越耗时、占用GPU越来越多，这些硬件本身也变得不可靠。它们经常出故障，这是众所周知的。这也导致了训练失败。你提到过，有时候可以简单地重启一次训练，这没问题。但当你需要训练长周期的智能体时，你该如何处理这个问题？你不可能把一个已经进行到一半、而且可能是非确定性的任务轨迹直接重启。

Greg：这里有一系列问题，你解决了当前层面的，然后把模型变得更强大，接着你又得重新解决它们。是的，当任务执行时间很短，比如 30 秒，你基本不用担心这个问题。但如果任务要持续数天，那这个问题就变得至关重要了，你必须开始思考如何给状态做快照以及诸如此类的一系列事情。

简而言之，这些训练系统就像一个不断攀登的复杂性阶梯。几年前，我们关心的只是做好传统的预训练，而那是非常容易做检查点（checkpoint）的。即便如此，这事也不简单。如果你从偶尔做一次检查点，变成想在每一步都做检查点，那你就要非常深入地思考如何避免数据复制、阻塞等各种问题。

然后，对于像这些更复杂的强化学习（RL）系统，检查点的概念依然存在，比如，你可能需要为缓存做检查点，这样就不用重新计算所有东西。我们系统的一个好处是，语言模型的状态是高度明确的，它是可以被存储和处理的。但如果你接入的工具有其自身的状态，那些可能就无法重启和恢复了。所以，如果你把整个系统端到端地来看，就必须思考检查点的设计。

另外还有一个问题是，也许这根本不重要。也许重启系统，你的图表上出现一点小小的波动，也完全没关系，因为这些模型很聪明，它们能处理好这种情况。

黄仁勋一问：未来 AI 基础设施的蓝图

主持人：接下来，我想我们有一位来自巴黎的特邀嘉宾打来的电话提问。

黄仁勋：你好，Greg，我是黄仁勋。我真希望我能亲自到场向你提问。我的一个问题是，在这个新世界里，数据中心和 AI 基础设施的工作负载将变得极其多样化。一方面，智能体在进行深度研究——它们在思考、推理、规划，并与其他智能体协作，它们需要处理大量内存和长上下文。而另一方面，你又希望其中一些智能体能以尽可能快的速度思考。

所以，你该如何创建一个 AI 基础设施，既能针对那些需要大量预填充（pre-fill）和大量解码（decode）、或者介于两者之间的工作负载进行优化？又能同时支持我个人非常兴奋的另一类工作负载：那些多模态的、能看能听的 AI，它们就像你的 R2-D2 机器人，你的私人伴侣，永远在线，随时待命。所以这两类工作负载——一类是计算量极大、可能耗时很长，另一类又要求极低的延迟。一个既要尽可能灵活、性能强大，又要兼顾低延迟和高吞吐的未来 AI 基础设施，会是什么样子？所有这些都极其复杂。你是如何思考这个问题的？你认为理想的未来 AI 基础设施应该是什么样的？

Greg：当然是需要大量、大量的 GPU。

主持人：如果我总结一下，就是黄仁勋想让你告诉他该造什么样的芯片。你的梦想是什么？但同时，这里确实有两个核心需求：长时间的重度计算，和“马上、立刻、现在就要”的实时响应。

Greg：是的，这非常难，因为这种软硬件协同设计的问题简直让人头脑发胀。我本身是软件背景出身，我们以为自己只是在这里写 AGI 的软件，但后来你发现，你还必须去做这些巨大的基础设施项目。这并非我们最初的设想，但最终看来，这其实也合乎情理。如果我们打算建造一个能改变世界的东西，那么是的，它很可能需要人类有史以来创造过的最大规模的物理机器。这在逻辑上是说得通的。

所以，答案有两种。最直接的答案是，好吧，你需要两种类型的加速器。一种是为计算优化的，另一种是为延迟优化的。给其中一种堆上海量的高带宽内存（HBM），给另一种堆上超强的计算单元，问题就解决了。但这里面一个真正的难点是预测两者之间的比例。现在你又有了一个新问题要考虑，如果这个平衡搞错了，你突然就会发现自己的一大批设备变得毫无用处。这听起来非常可怕。

但实际情况是，这个领域里没有所谓的硬性需求，也没有绝对的约束，大家只是在优化一个巨大的线性规划问题。所以，是的，如果你给我们的工程师一些资源配比不均衡的硬件，我们总会想办法利用起来，也许过程会非常痛苦。一个例子就是，你已经看到整个领域都在转向“混合专家模型”（MoE）。在某种程度上，“混合专家模型”所做的就是说：“好吧，我们有很多 DRAM 内存闲置着没用，因为资源配比不对。那行，我们就用参数把它们填满，这几乎不消耗额外的计算资源，反而能让我们获得额外的机器学习计算效率。” 砰，问题解决了。

所以我认为，一定程度上，即使你搞错了平衡，也不是世界末日。加速器的同质化是一个非常好的默认起点。但最终走向专用加速器也并非天方夜谭。而且，当我们这个领域的基础设施资本支出变得越来越惊人时，开始针对某些工作负载进行超优化就变得相当合理了。但我认为，现在下定论还有点为时过早，因为研究进展得太快了，在某种程度上，研究的突破会主导其他一切。

通往 GPT-6 之路：算法瓶颈的回归

主持人：我本来没打算问这个，但你刚提到了研究。你能给当前 GPT-6 研发的瓶颈排个序吗？计算资源、数据、算法、电力、资金。你觉得你们在哪方面最受限制？

Greg：我觉得，我们正处在一个基础研究回归的时代。这一点真的非常了不起，是真正的基础研究。

曾有一段时间，感觉就像是：“好了，我们有了 Transformer，接下来只管扩大规模就行了。” 我觉得这类问题非常激动人心，你有一个定义非常清晰的难题，你只想把那个数字往右上角推。但从某种智识层面来说，这又有点不尽如人意。感觉人生不止于原汁原味的《Attention Is All You Need》那篇论文。

我们开始看到的是，我们现在运作的规模，已经把计算和数据都推到了极限，以至于算法重新成为了一个重要的、甚至是决定未来进展的关键瓶颈。所有这些因素都是支撑帐篷的重要支柱，在任何一天，它都可能看起来朝某个方向有点倾斜。但从根本上说，你希望让它们都保持平衡。

看到像强化学习（RL）这样的范式崛起，真的非常令人兴奋。这是我们多年来刻意投入的领域。当我们训练 GPT-4 时，一件非常有趣的事是，当我们第一次和 GPT-4 对话时，我们心想：“这是 AGI 吗？” 它显然不是 AGI，但又很难说清楚为什么。它身上有一种说不出的感觉，它如此流畅自如，但不知怎么地就会偏离轨道。

我们就觉得：“好吧，我们必须解决这个可靠性的问题。”

它从未真正地体验过这个世界。它就像一个读完了所有书、或者观察了整个世界，但从未亲身经历过的人，只是隔着一块玻璃在看。对我来说，那一刻我们就像是顿悟了：“很明显，我们需要一种不同的范式。” 然后我们就持续不断地在这个方向上努力，直到我们真正让它奏效。我认为今天依然如此，还有其他一些非常明显的能力缺失，我们只需要持续地去攻克，我们终将到达那里。

主持人：接下来让我们继续。我们本来只向黄仁勋要了一个问题，但他是个“优等生”，所以他发来了两个。让我们播放第二段视频。

黄仁勋： 我的第二个问题是，未来几年，OpenAI 将拥有 AGI，而他们将在 OpenAI 的 AGI之上，构建特定领域的智能体。我脑海中会浮现出一些问题，比如，随着 OpenAI 的 AGI能力越来越强，他们的开发工作流会如何改变？与此同时，他们仍然需要为自己特定领域的智能体创建底层的技术管道、工作流和增长飞轮。这些智能体当然将能够推理、规划、使用工具，并拥有短期和长期的记忆。但在未来几年，这个开发过程会如何演变？

Greg：我认为这是一个非常引人入胜的问题，你能找到各种各样观点鲜明但又相互矛盾的看法。我的观点是，首先，一切皆有可能。也许我们会进入一个 AI 能力超强，以至于我们都让它们来写所有代码的世界。也许世界会是只有天上一个 AI 的形态，又或者，是你实际上拥有一大群特定领域的智能体，而这些智能体需要大量专门的工作才能实现。

各种证据已经开始明显地倾向于一个由不同模型组成的“百花齐放”的生态。我认为这实际上非常令人兴奋。仅仅从系统角度来看，就有不同的推理成本，有不同的权衡取舍。模型蒸馏的效果非常好。所以，能够利用其他模型的模型，本身就蕴含着巨大的能量。

我认为这将开启海量的机会，因为我们正在走向一个经济由 AI 根本性驱动的世界。我们还没到那一步，但你已经能看到它就在地平线上了。

正是如此。我的意思是，这正是这个房间里的人们正在构建的，这正是你们在做的事情。而经济是一个非常庞大的东西，它内部有极大的多样性，而且它也不是静止的。当人们思考 AI 能为我们做什么时，很容易只着眼于我们现在正在做的事情，以及 AI 如何嵌入其中，还有人类与 AI 劳动的比例。但那不是重点。重点是，我们如何获得 10 倍的活动，10 倍的经济产出，10 倍于所有人的福祉？

我认为我们前进的方向是，模型将变得更加强大，基础技术将变得更好，而我们将有更多的事情想用它来做，同时，进入的门槛将比以往任何时候都低。像医疗保健这样的领域，需要有责任心的人去深入思考如何把它做好。像教育这样的领域，涉及多个利益相关方——家长、老师、学生——每一个都需要领域专业知识，需要仔细的思考，需要大量的工作。

所以，我认为未来将会有数不尽的机会让人们去创造。看到这个房间里的每一个人，我感到无比兴奋，因为这正是我们需要的那种能量。

本文编译自 AI Engineer

原文 | youtube.com/watch?v=avWhreBUYF0

· · ·

当创造的工具变得如此强大，我们该如何重新思考“创造”本身？

Brokman 给出了他的答案。而这个问题，对于一线的产品经理来说，已经不是哲学思辨，而是悬在头顶的达摩克利斯之剑。如果说 OpenAI 的这些人负责建成引擎，那么如何将这澎湃的动力转化为用户真正需要的产品，则是在另一片更泥泞的战场上展开的“壕沟战”。

因此，我们将在 8 月 15-16 日的全球产品经理大会期间，发起一场特别直播。与一线公司的 AI 产品负责人直接对话，深入探讨如何跨越“模型”与“产品”之间的鸿沟，分享他们在 AI 产品化道路上踩过的坑和总结的实战方法。这不仅是观点的碰撞，更是一份为你准备的、来自探路者前线的 AI 产品地图，欢迎扫码预约：