OpenAI联合创始人Greg Brockman:对话黄仁勋、预言GPT-6、我们正处在一个算法瓶颈回归的时代

AI科技大本营 2025-08-13 17:50
资讯配图
责编 | 王启隆
出品 | CSDN(ID:CSDNnews)
投稿或寻求报道 | zhanghy@csdn.net

所有人都仰望星空、谈论着通用人工智能(AGI)何时降临的时代里,我们或许更应关注那些低头铸造火箭的人。

OpenAI 的联合创始人兼前总裁 Greg Brockman 近日在 AI.Enigineer 上进行了一场对话分享,期间还邀请到英伟达 CEO 黄仁勋和他进行了一段连线问答。

资讯配图

对话的主线,并非一个英雄的成长史,亦远不止是 ChatGPT 或 GPT-5 发布瞬间的狂热与混乱,而是一条贯穿 70 年计算机历史的、从个人魔法到工业革命的演进脉络:一个因点击排序按钮感受到“魔法”而投身编程的少年黑客,如何成长为驾驭十万 GPU 集群、与黄仁勋商讨下一代 AI 基础设施的工业巨擘?

这并非一个简单的线性成长故事。在 Greg Brockman 对自己过往经历的叙述中,我们能看到两个世界的重叠与碰撞:

资讯配图

Greg Brockman 的故事始于一个少年因实现表格排序而感受到的纯粹“魔法”,终于驾驭人类有史以来最复杂的计算系统。在这场对话中,几个看似寻常却极具分量的座右铭也浮出水面:

这些迷思,标示出一个行业几乎必然会遇到的冲突、困惑与机会。它关乎我们所有人:当创造的工具变得如此强大,我们该如何重新思考“创造”本身?

以下为对话全文,由 CSDN 精编整理。

· · ·

资讯配图

从数学梦到编程魔法

主持人:我们今天打算按时间顺序聊一聊。很多人都提交了问题,我已经帮你整理归类好了,所以我们就直接开始吧。

我对你做了一番深入研究,我管这叫“人物深度挖掘”,因为我们研究的是一个活生生的人。你从小就接触戏剧,还学了化学数学,后来因为写了一个日程安排应用而踏入了编程的大门。但究竟是什么真正点燃了你对编程的热爱?你为什么会成为大家眼中的那个“编程狂人”?

Greg Brockman(以下简称 Greg):有意思的是,我小时候一直以为自己长大会成为一名数学家。我读过很多数学家的故事,比如伽罗瓦高斯,他们思考的都是能影响未来一百年、两百年甚至三百年的问题。我当时觉得,这正是我想要做的。如果我提出的任何理论在我有生之年就被应用了,那说明它还不够长远,不够抽象。

高中毕业后,我写了一本化学教科书,寄给我一个在数学领域做过类似事情的朋友看。

他说:“这书不可能有出版社要的。你要么自费出版——” 我一想,天啊,那得花多少功夫和本钱啊,“——要么,你就建个网站。” 

我心想:“行吧,看来我得学学怎么做网站了。

于是,我真的就跑去 W3Schools 网站,从头学完了他们的 PHP 教程。

我还记得我做的第一个东西,是一个给表格排序的小插件。我脑子里已经有了清晰的画面,想着它该是什么样。我还记得,当我点击表头,整个表格真的就按照那一列排序了,跟我预想的完全一样。那一刻,我感觉就像见证了魔法。我心想:“这东西也太酷了。”

因为数学这东西,是你绞尽脑汁想通一个问题,理解了它,然后用一种晦涩难懂的方式记录下来,称之为“证明”。之后,可能全世界只有三个人会关心它。

但在编程世界里,你也是用一种晦涩难懂的方式把它写下来,我们称之为“程序”。然后,可能也只有三个人会去读你的代码、关心你的程序,但所有人都能享受到它带来的好处。没有人需要理解其中的细节。你脑海中的想法,就这么变成了现实世界里真实存在的东西。那一刻我就认定,这才是我真正想做的事。忘掉那一百年的宏大愿景吧,我只想创造。

资讯配图

结缘 Stripe:辍学背后的故事与第一性原理

主持人:而你的确只想创造。你在这方面是如此出色,以至于还在上大学的时候,不知怎么地,Stripe(人称“美国支付宝”的软件)就给你发了一封“陌生人”邮件。这背后有什么故事吗?他们是怎么找到你的?又是什么说服了你辍学加入他们?

Greg:我和 Stripe 的创始人有一些共同的朋友——当时那还是个只有三个人的“大公司”。他们按照惯例,去问哈佛的朋友,校园里有谁值得聊聊,可能可以招募。我的名字就被人提起了。然后他们又去问了麻省理工的朋友,因为我当时已经从哈佛辍学,转去了麻省理工。所以,我占了个便宜,在两边都拿到了“推荐票”。

我还记得见到 Patrick(Stripe 的联合创始人)的那天,我刚下飞机,天色已晚,外面还下着暴雨。我一到,我们就开始聊代码。就在那一刻,我心里想:“这正是我一直以来想找的、想与之共事的人。” 于是,我最终从麻省理工辍学,飞了过去,从此就一直待在了这里。

主持人:如你所知,我们在访谈中穿插了一些嘉宾提问。这里有一位名叫 Matthew Brockman 的嘉宾提问。

Greg:我好像听过这个名字(这里是开玩笑,Matthew 其实就是 Greg 的亲兄弟,在 2023 年 OpenAI 宫斗的时候,Matt 在推特上声援了 Greg 并亮相)。

Shawn:他是 Julius AI 的首席执行官。他问:“你觉得我们的父母什么时候才会放弃让你完成学位的梦想?或许哈佛或者北达科他大学会愿意让你回去念完?”

Greg:唉,他们永远不会放弃的。

当时确实很难。不管你要去哪,当你告诉父母你要离开哈佛时,这坎都不好过。当你告诉他们你要彻底辍学时,那更是难上加难。但值得称赞的是,尽管他们觉得很难接受,但还是对我说:“我们相信你。你所处的位置,一定让你看到了、理解了一些我们隔着大半个国家难以看到的东西。”

但后来,我在 Stripe 做得不错,也确实学到了东西——而且事实证明这是一家真正的公司,不是我为了无所事事而辍学——我想他们也就慢慢接受了这个现实。

主持人:我想他们一定为你感到非常骄傲。所以,你见证了 Stripe 从 4 名员工发展到 250 人,并最终成为公司的第一位首席技术官。我最近发现一件事,可能 Hacker News 上的网友们都不知道,那就是传说中的“科里森安装法”(Collison installation)其实只发生过屈指可数的几次,它在 Stripe 内部并不是一个常规操作。

Greg:我觉得确实如此。但这个故事却在各种传说中流传了下来……

主持人:这成了一个都市传奇,因为它实在太酷了。那种为了客户可以做到极致的感觉。那么,关于早期的 Stripe,大家还有哪些误解?我们借这个机会澄清一下?

Greg:我觉得大家并不了解当初有多艰难。

首先,我们把所有客户都加了 Gchat 好友,随时和他们保持着联系。所以,即便你不是真的坐在他们身边看着他们操作,也做到了仅次于此的程度。

我记得有一次,我们意识到当时使用的支付后端根本无法支撑业务的扩张。我们必须接入富国银行(Wells Fargo)的系统。我们谈妥了合作,但接下来需要进行技术对接。对方告诉我们:“嗯,这个技术对接需要九个月,因为我们一向都是这个流程。” 我们当时就想:“这太疯狂了。我们是创业公司,怎么可能干等九个月。”

于是,我们在 24 小时内,就把这事儿搞定了,基本上是把它当作大学里的一项课题作业来攻克的。我负责实现所有功能,John 从测试脚本的顶端开始,一项项地测试,然后告诉我“这个坏了”,Darragh 则从底端开始往上推进。到了第二天早上,我们和对方的认证人员连线,发了几个测试请求,结果报错了。那个人说:“好的,那我们下周再约吧。” 因为他们所有的客户都是这么办事的:出了错,你显然得把它交给你的开发团队去处理。

但我们说:“别,别,别,肯定是系统里有什么小毛病。” Patrick 就在那儿跟她东拉西扯,拖延时间,而我在这边拼命地修改代码。我们来回试了大概五次,还是失败了。但幸运的是,她人很好,愿意把时间改到两小时后,那一次我们终于通过了。回过头看,你才意识到,那一瞬间你完成的,是正常情况下六周的开发工作量,就是因为你没有接受其他组织习以为常的那套武断的限制。

主持人:你觉得在大多数工作中,都存在很多类似的机会吗?你如何建议其他人也能做到那么快,或者说砍掉那么多不必要的流程?

Greg:我的想法是,如果你能从第一性原理出发去思考,你就能找到哪些环节是必须放慢速度、必须按部就班的。这样的环节是存在的。“别管那些限制,只管去做”这个原则并非百分之百正确。关键在于,你要识别出那些不必要的开销,它们的存在可能是为了应对一些早已过时、或者根本不适用于你具体情况的限制。这一点在今天这个 AI 极大提升生产力的世界里,尤其适用。

主持人:是啊,不行就直接让 Codex 来一段代码,何乐而不为呢?

资讯配图

独立研究、从自学到顿悟

主持人:关于你加入 OpenAI 之前的生活,还有最后一件事,那就是“独立研究”。我发现这是你从高中起就反复出现的一个主题。你参加过 Recurse Center(一个编程静修中心)吗?

Greg:是的,我去过。

主持人:还有你的学术休假,你反复地进行独立研究。你认为是什么让独立研究如此高效?我觉得很多人在这方面做得并不好,甚至会浪费掉一整年。你有什么秘诀吗?

Greg:这是我成长过程中的一个关键部分。六年级时,我爸教了我代数。七年级我到中学报到,那是第一次分快慢班学数学——当时是初级代数。我们找到老师问:“他能不能跳过这门课,直接去上八年级的课程?”

那位老师用一种居高临下的眼神看着我和我妈说:“每个家长都觉得自己的孩子是天才。” 结果在她班上待了一个月后——我上课根本不听讲,就在后面玩计算器游戏——她想通过叫我上黑板答题来难住我,但我每次都全答对了。她只好说:“好吧,算我输了。你的孩子确实应该去上高年级的课。”

但到了八年级,我们中学已经没有更高级的数学课了。我当时又没有车,所以只能上网络课程。就在那一年里,我学完了高中三年的数学内容。

所以对我来说,很重要的一点是,当你对自己想做的事情有发自内心的热情时,你同样可以打破常规的限制。你可以在一年内学完三年的数学,而且这种优势是会复利的。第二年,我进了高中,很快就学完了高中的数学。所以在高二、高三那两年,我已经没有数学课可上了。那时我有了车,就可以去北达科他大学,随便选我想上的课。

这种经历不断累积,也影响了我学习编程的方式,基本上就是靠自学——不断地创造,不断地在真实世界里体验。所以我的建议是,如果你有机会去探索,并且你真的享受你所热衷的事情,那就深入地钻研下去。顺便说一句,这个过程并不总是充满乐趣,你很容易会感到无聊。但只要你坚持挺过那些坎,回报绝对是值得的。

主持人:你也是通过自学进入机器学习领域的,那也是你人生中的一个重要阶段。那段时间有什么特别的亮点吗?好像你还和杰弗里·辛顿(Geoffrey Hinton)聊过。

Greg:是的,我和他聊过。

主持人:那次交流对你有什么帮助?或者说,在你成为一名机器学习从业者的道路上,什么对你帮助最大?

Greg:我刚开始接触时,还在 Stripe 工作。当时我经常在 Hacker News 上看关于深度学习的文章,感觉每天都有一个“深度学习赋能某某领域”的帖子。那是 2013、2014 年的时候,我很好奇:“深度学习到底是什么?” 我认识这个领域里的一个人,就去找他聊。他又把我介绍给更多的人,那些人又把我介绍给更多的人。让我惊讶的是,我发现自己不断被介绍给我大学里那些最聪明的朋友们。

我当时就想:“有意思,这些顶尖的人才最终都汇集到了这个领域。这背后到底发生了什么?” 我开始意识到,一股真正的力量正在形成。人们真的在让这些系统做一些计算机以前完全做不到的、实质性的新事情。我心想:“就是这个了。”

离开 Stripe 后,我知道自己想在 AI 领域做点什么,比如创办一家 AI 公司,但我不太清楚自己该如何贡献,或者我的技能在哪些方面能派上用场。当时我人在纽约,就想:“要不我组装一台 GPU 工作站,去参加一些 Kaggle 竞赛试试看。” 于是我上 Newegg 网站,买了几块 Titan X 显卡。亲手组装那台机器的感觉真的太酷了。你们还能找到我 2015 年发的一条推文,当我按下开机键,看到满眼的绿光和所有风扇飞转起来的时候,我心想:“这才是计算机该有的样子。”

主持人:那么,是什么让你确信通用人工智能(AGI)是可能实现的呢?你曾一度对此感到幻灭,你试着写过一个聊天机器人,但失败了。是什么让你最终决定全身心投入其中?

Greg:对我而言,这段心路历程的一部分,源于阅读艾伦·图灵 1950 年发表的论文《计算机器与智能》。也就是提出图灵测试的那篇。

最让我着迷的是,在论文开头,他提出了图灵测试——关于“机器能否思考?”“它是否智能?”的核心思想。如果你无法分辨你是在和一台机器对话,还是在和另一个人对话,那你就可以说它是智能的。这很好理解。

但论文中有一个观点,虽然没有在流行文化中广为流传,但对我来说却极其震撼。他说:“那么,你该如何编程来实现这个目标呢?你永远不可能写下所有的规则。但是,如果你能制造一个 ‘儿童机器’,让它像人类小孩一样学习呢?然后你只需施加奖励和惩罚,砰的一声,它就能通过测试了。”

我当时想:“这才是我们必须去创造的那种技术。” 作为程序员,你必须理解一切,必须洞悉解决问题的全部规则。但如果机器能够理解并解决连你自己都无法解决的问题呢?这感觉才是最根本的,这感觉才是解决人类重大问题的真正途径。

我大概是在 2008 年左右读到这篇文章的,然后我去找我的教授,一位自然语言处理(NLP)领域的教授,问他我能不能跟他做点研究。他说:“可以啊,这些是语法分析树,你拿去看看。” 

我心想:“好吧,这可不是图灵说的那回事。

主持人:这就像 WordNet 词典之类的……

Greg:完全就是那一套。没错。所以,那段时间确实是我的“失意低谷”。

但深度学习的神奇之处在于,它在 2012 年的 AlexNet 上真正展现出了喜人的成果,在 ImageNet 竞赛中一举击败了所有对手。突然之间,你有了一台通用的学习机器。虽然它在设计上带有一点卷积网络的先验知识,但它胜过了计算机视觉领域过去四十年的研究积累,胜过了那些试图尽可能写下所有规则的人。

接着,人们说:“好吧,它在视觉领域行得通,但在我的领域绝对不行。它在机器翻译、在自然语言处理、在这样那样的领域,永远都不可能成功。” 但紧接着,它在所有这些领域都开始做到最好。一夜之间,不同学科部门之间的壁垒被推倒了。我当时就想:“这才是图灵所说的那种东西。

所以对我来说,光是看到这项技术的“类型签名”(type signature)……顺便说一句,这项技术并不新。神经网络……如果你去读麦卡洛克-皮茨在 1943 年左右发表的关于神经元的论文……

主持人:我刚才还让他给大家留点作业呢。

Greg:好的,作业来了,同学们记一下。你会发现,那篇论文里的插图,和你现在看到的那些描绘神经元层级的图片,看起来几乎一模一样。你就会意识到,我们现在做的事情,背后有着非常深刻的根基。你还能找到一篇 90 年代的论文,探讨是什么导致了深度学习的寒冬。文章说,那些搞神经网络的人根本没什么新点子,“他们唯一的想法就是造更大的计算机。” 我当时想:“没错!这正是我们该做的。”

所以,所有这些因素加在一起,让我感觉我们某种程度上是在延续一段长达七十年的历史浪潮。从很多方面来说,整个计算机行业的发展,都是在为这一刻做准备:创造出能够执行我们现在才刚刚触及皮毛的那些任务的机器;能够解决人类无法解决的新问题;能够在日常生活中辅助我们;让我们不再需要用这两根“肉条”(手指)打字,而是能拥有一个像人一样交互的对象,让机器更贴近你,而不是你必须去学习汇编语言之类的东西来迁就它。所以对我来说,感觉所有的条件都已成熟,现在我们只需要去创造。

主持人:我很喜欢你一直回归的这个主题:我们只需要去创造。

资讯配图

研究与工程:OpenAI 的双引擎,当工程师遇上研究员

主持人:2022 年,你写了一篇文章说“是时候成为一名机器学习工程师了”。我有一个朋友,就是读了那篇文章后,给你发了邮件,然后加入了 OpenAI。你说过,伟大的工程师能够和伟大的研究员一样,为未来的进步做出同等级别的贡献。这个观点今天还成立吗?我觉得很多工程师看着那些拿着数百万美元薪水的研究员,会想:我怎么才能做出和他们一样大的贡献?

Greg:我认为这个观点绝对成立,甚至比以往任何时候都更加正确。如果你回顾一下 2012 年以来深度学习研究的各个阶段,你会发现,最开始确实是那些拥有博士学位的科研人员提出想法并进行验证。当然,其中也有工程工作。如果你仔细看 AlexNet 本身,它的核心就是一项工程成就:在 GPU 上实现了高效的卷积核运算。

有个趣闻,当时和 Alex Krizhevsky 在同一个实验室的人其实都替他感到惋惜,他们觉得:“他搞出了一些快速卷积核,但只是用在一个无关紧要的图像数据集上。” 但事实证明,你只需要把这个技术应用到 ImageNet 上,它就会大放异彩。所以,是卓越的工程能力与“用它做什么”的洞见相结合,才创造了奇迹。

我认为,今天依然如此、甚至愈发如此的是,现在所需的工程能力,早已不只是编写几个计算核心那么简单了。它关乎构建一个庞大的系统,关乎扩展到十万块 GPU 的规模,关乎搭建一个能以各种方式调度资源的、极其复杂的强化学习系统。如果你没有好的想法,那你就像是搁浅的船,寸步难行。但如果你没有强大的工程能力,那再好的想法也无法诞生于世,无法看到天日。你必须让这两者和谐地结合在一起。

主持人:我觉得 Ilya Sutskever 和 Alex Krizhevsky 的合作关系,正是这种“研究-工程”伙伴关系的缩影,而这也成为了后来 OpenAI 的理念。

Greg:完全正确。如果你观察 OpenAI 的运作方式,就会发现从一开始,我们就秉持着一种精神:工程和研究同等重要,并且要像伙伴一样并肩协作。这是我们每天都在努力实践的事情。 

主持人:在访谈里出其不意地提问是我的明确目标。所以,关于工程和研究的关系,OpenAI 在早期有哪些做得不好的地方,而现在又改进了呢?

Greg:嗯,关于工程和研究的关系,我的看法是,你永远无法一劳永逸地解决它。你只是解决了当前层面的问题,然后又会进入下一个更复杂的层面。我注意到,我们遇到的问题,基本上和所有其他实验室遇到过的一样;只是我们可能走得更远一些,或者问题的变体略有不同。所以,我觉得这里面有某种非常根本性的规律。

在最早期,我能清楚地看到,来自工程界的人和来自研究界的人,对系统约束的思考方式完全不同。

作为工程师,你会想:“嘿,既然我们约定好了接口,你就不该关心接口背后是什么。这是我们说好的,我可以用任何我喜欢的方式去实现它。” 

而作为研究员,你会想:“如果系统里任何一个地方有bug,我得到的只会是性能的轻微下降,而不会收到一个异常,也不会有任何线索告诉我问题出在哪。所以,我有责任去理解所有的一切。接口根本不重要,除非它坚如磐石,我永远不需要去思考它——而这是一个非常高的标准——否则,我就必须对这段代码负责。”

这就会导致摩擦,因为这样一来,你们到底要怎么合作呢?我很早就看到过一个项目,工程背景的人写了代码,然后研究背景的人会对每一行代码展开激烈的辩论。我当时就想,这项目永远也推进不下去了,速度会慢得要死。

后来,我们采取的方式是……我当时直接参与了那个项目,我会一次性提出五个想法。研究那边的人会说:“这四个不行。” 我就说:“太好了,我就是想知道这个。” 我们真正意识到,并且我也会告诉那些从工程界加入OpenAI的人,最关键的一点是“技术上的谦逊”。你之所以被招进来,是因为你拥有重要的技能,但这和传统的互联网创业公司是完全不同的环境。弄清楚你的直觉何时适用,何时应该抛诸脑后,是极其困难的。

所以,最重要的事情就是,进来之后,要真正地、真正地去倾听,并且假设在你彻底理解“为什么”之前,你一定遗漏了某些信息。到了那个时候,好的,你再去做出改变,去修改架构,去重构抽象。但那种带着谦逊,去真正阅读、倾听和理解的态度,是一个至关重要的决定因素。

资讯配图

研究与工程:OpenAI 的双引擎,当工程师遇上研究员

主持人:接下来,我们来聊聊 OpenAI 近期几次重磅发布的幕后故事。有一件很有意思的事,就是规模扩张(Scaling)。在不同的数量级上,所有东西都会出问题。ChatGPT 发布时,你们在 5 天内获得了一百万用户。而今年,GPT-4o 的图像生成功能发布时,你们在 5 天内获得了一亿用户。这两个时期相比,感觉有什么不同?

Greg:从很多方面来看,这两个时刻都惊人地相似。ChatGPT 当时本来只是一个低调的研究预览版。我们很平静地把它发布了出去,然后突然之间,所有系统都宕机了。我们某种程度上预料到 ChatGPT 会非常受欢迎,但我们以为需要等到 GPT-4 发布才能达到那个热度。

主持人:你们内部当时已经用上 GPT-4 了,所以对 3.5 没那么惊艳了。

Greg:完全正确。这也是这个领域的另一个特点:你的认知更新得太快了。你刚看到一个魔法般的奇迹,心想:“天啊,这是我见过最厉害的东西了。” 紧接着你就会抱怨:“嗯,它怎么还不能帮我合并 10 个代码合并请求(PR)?”

图像生成功能发布的那一刻也非常相似,它同样备受喜爱,广受欢迎,病毒式传播的方式让各项数据都突破了天际。在这两次发布中,我们内部其实都做了一件我们极力避免的事情,那就是从研究项目中调拨了大量的计算资源,因为这相当于抵押未来来保证当下的系统运转。但如果你真的能满足并跟上用户的需求,那么当然,人们就能体验到那种魔力,我认为在那种时刻,最大化这种体验是非常值得和重要的事情。

所以我想,我们始终秉持着同样的精神:真正服务用户,真正推动技术,去做那些前所未见的、实质性的新东西。然后,无论需要付出什么代价,我们都会把它们推向世界,让它们取得成功。

主持人:难以置信,太了不起了。关于 GPT-4 发布会。我听说那个玩笑网站是你太太画的?

Greg:是真的。算是个有趣的小彩蛋。我的字写得太烂了,连我们自己的 AI 都识别不出来该拿它怎么办。

主持人:你当时有一些即兴发挥吗?我听说有。

Greg:那条波浪线吗?是的。通常,我做这类演示时,都会提前测试好大概的流程。但我一直很讨厌那种只要你打错一个字符,整个演示就进行不下去的设计。我不喜欢做那样的演示。我希望它有一定的容错性。所以,最终实际展示的内容总会有些变化。

主持人:对我来说,那是我觉得全世界第一次见识到所谓的“氛围编程”(vibe coding)。现在这已经成了一个流行词了。你对“氛围编程”有什么看法?

Greg: “氛围编程”作为一种赋能的机制,非常了不起,它在某种程度上也代表了未来的趋势。至于“氛围编程”具体是什么,我认为它会随着时间而改变。

我觉得,即便你看看像 Codex 这样的工具,在某种程度上,我们的愿景是,当你开始拥有真正能工作的智能体时,你拥有的将不只是一个副本,不是十个,而是一百、一千、一万甚至十万个这样的东西在运行。你会更希望像对待同事一样对待它们。你希望它们在云端,处理各种事务,能够接入各种各样的东西。即便你睡着了,笔记本合上了,它依然在工作。

我对未来的预测是,当前这种在交互循环中进行的“氛围编程”会越来越多,但智能体(agentic)的应用也会真正地介入并超越它。所有这一切,最终都将促成更多系统的诞生。

我认为另一个非常有趣的点是,很多“氛围编程”的演示和那些酷炫的东西,比如制作一个玩笑网站,都是从零开始创建一个应用。但我认为,真正具有革新性和颠覆性的,并且已经开始发生的,是能够改造现有应用并深入其中的能力。太多公司都坐拥庞大的遗留代码库,而进行迁移、更新库、把你那古老的 COBOL 语言换成别的,是如此的困难。而且说实话,这对人类来说一点也不好玩。我想,我们正开始拥有能够真正解决这些问题的 AI 了。

我喜欢“氛围感编程”的起点——那种“随手创造酷炫应用”的感觉——但它正开始变得更像是严肃的软件工程。并且会更进一步,让一个公司能够以快得多的速度前进,这正是我认为我们前进的方向。

主持人:提到 Codex,我听说它在某种程度上像是你的“亲儿子”。在直播中,你也谈了很多关于让代码模块化、文档清晰等等好的实践。你认为 Codex 会如何改变我们编码的方式?

Greg:说它是我的“亲儿子”绝对是夸张了。我们有一个非常了不起的团队,我只是在尽力支持他们和他们的愿景,但这个方向对我来说,是如此引人入胜和不可思议。

主持人:那么,Codex 会如何改变我们编码的方式?

Greg:我观察到的最有趣的一点是,当你意识到代码库的组织方式决定了你能从 Codex 中获得多少助益时。我们现有的所有代码库,在某种程度上都是为了匹配人类的长处而构建的。但如果你反过来,让它们去匹配模型的长处——模型的特点非常偏科,它们能处理的多样性远超人类,但目前在连接深层思想方面还不如人类——你就能从它们身上获得更多。

你可能想要做的,是创建更小、经过充分测试的模块,这些模块的测试可以非常快速地运行。然后,填充细节的工作,模型会自己完成,它还会自己运行测试。而这些不同组件之间的连接,也就是架构图的设计,其实是相当容易的。真正困难的,往往是填充所有细节。

如果你这么做,我所描述的听起来也很像优秀的软件工程实践。但有时候,因为人类能够在脑海中容纳更复杂的概念抽象,我们就不这么做了。编写和完善这些测试需要大量工作。但模型运行这些测试的次数,会比你多一百倍、一千倍,所以它会比你更在意这些。

所以,在某些方面,我们想要前进的方向是,为更初级的开发者构建我们的代码库,以便真正地从这些模型中获得最大收益。当然,随着模型能力的提升,这种组织代码库的方式是否会保持不变,这将是一个非常有趣的看点。我个人倾向于认为,这是个很好的思路,因为它再次与那些为了人类可维护性而应该做的事情不谋而合。但对我来说,对于软件工程的未来,最令人兴奋的思考是:我们过去为了图省事而“偷工减料”的那些实践,有哪些是现在为了最大化系统效能而必须重新拾起的?

主持人:你能大致估计一下,你们内部使用 Codex 带来的生产力提升有多少吗?

Greg:我不清楚最新的数据。但我们肯定有百分之十几的代码合并请求(PR)是完全由 Codex 编写的,这看起来非常酷。但它也不是我们内部使用的唯一系统,而且对我来说,它仍处于非常、非常早期的阶段。看到一些外部的指标也很令人兴奋。我记得在过去一天里,公共的 GitHub 仓库里有 24000 个由它完成的合并请求被接受了。所以,这一切都才刚刚开始。

主持人:随着我们执行的任务越来越耗时、占用GPU越来越多,这些硬件本身也变得不可靠。它们经常出故障,这是众所周知的。这也导致了训练失败。你提到过,有时候可以简单地重启一次训练,这没问题。但当你需要训练长周期的智能体时,你该如何处理这个问题?你不可能把一个已经进行到一半、而且可能是非确定性的任务轨迹直接重启。

Greg:这里有一系列问题,你解决了当前层面的,然后把模型变得更强大,接着你又得重新解决它们。是的,当任务执行时间很短,比如 30 秒,你基本不用担心这个问题。但如果任务要持续数天,那这个问题就变得至关重要了,你必须开始思考如何给状态做快照以及诸如此类的一系列事情。

简而言之,这些训练系统就像一个不断攀登的复杂性阶梯。几年前,我们关心的只是做好传统的预训练,而那是非常容易做检查点(checkpoint)的。即便如此,这事也不简单。如果你从偶尔做一次检查点,变成想在每一步都做检查点,那你就要非常深入地思考如何避免数据复制、阻塞等各种问题。

然后,对于像这些更复杂的强化学习(RL)系统,检查点的概念依然存在,比如,你可能需要为缓存做检查点,这样就不用重新计算所有东西。我们系统的一个好处是,语言模型的状态是高度明确的,它是可以被存储和处理的。但如果你接入的工具有其自身的状态,那些可能就无法重启和恢复了。所以,如果你把整个系统端到端地来看,就必须思考检查点的设计。

另外还有一个问题是,也许这根本不重要。也许重启系统,你的图表上出现一点小小的波动,也完全没关系,因为这些模型很聪明,它们能处理好这种情况。

资讯配图

黄仁勋一问:未来 AI 基础设施的蓝图

主持人:接下来,我想我们有一位来自巴黎的特邀嘉宾打来的电话提问。 

黄仁勋:你好,Greg,我是黄仁勋。我真希望我能亲自到场向你提问。我的一个问题是,在这个新世界里,数据中心和 AI 基础设施的工作负载将变得极其多样化。一方面,智能体在进行深度研究——它们在思考、推理、规划,并与其他智能体协作,它们需要处理大量内存和长上下文。而另一方面,你又希望其中一些智能体能以尽可能快的速度思考。

所以,你该如何创建一个 AI 基础设施,既能针对那些需要大量预填充(pre-fill)和大量解码(decode)、或者介于两者之间的工作负载进行优化?又能同时支持我个人非常兴奋的另一类工作负载:那些多模态的、能看能听的 AI,它们就像你的 R2-D2 机器人,你的私人伴侣,永远在线,随时待命。所以这两类工作负载——一类是计算量极大、可能耗时很长,另一类又要求极低的延迟。一个既要尽可能灵活、性能强大,又要兼顾低延迟和高吞吐的未来 AI 基础设施,会是什么样子?所有这些都极其复杂。你是如何思考这个问题的?你认为理想的未来 AI 基础设施应该是什么样的?

Greg:当然是需要大量、大量的 GPU。

主持人:果我总结一下,就是黄仁勋想让你告诉他该造什么样的芯片。你的梦想是什么?但同时,这里确实有两个核心需求:长时间的重度计算,和“马上、立刻、现在就要”的实时响应。

Greg:是的,这非常难,因为这种软硬件协同设计的问题简直让人头脑发胀。我本身是软件背景出身,我们以为自己只是在这里写 AGI 的软件,但后来你发现,你还必须去做这些巨大的基础设施项目。这并非我们最初的设想,但最终看来,这其实也合乎情理。如果我们打算建造一个能改变世界的东西,那么是的,它很可能需要人类有史以来创造过的最大规模的物理机器。这在逻辑上是说得通的。

所以,答案有两种。最直接的答案是,好吧,你需要两种类型的加速器。一种是为计算优化的,另一种是为延迟优化的。给其中一种堆上海量的高带宽内存(HBM),给另一种堆上超强的计算单元,问题就解决了。但这里面一个真正的难点是预测两者之间的比例。现在你又有了一个新问题要考虑,如果这个平衡搞错了,你突然就会发现自己的一大批设备变得毫无用处。这听起来非常可怕。

但实际情况是,这个领域里没有所谓的硬性需求,也没有绝对的约束,大家只是在优化一个巨大的线性规划问题。所以,是的,如果你给我们的工程师一些资源配比不均衡的硬件,我们总会想办法利用起来,也许过程会非常痛苦。一个例子就是,你已经看到整个领域都在转向“混合专家模型”(MoE)。在某种程度上,“混合专家模型”所做的就是说:“好吧,我们有很多 DRAM 内存闲置着没用,因为资源配比不对。那行,我们就用参数把它们填满,这几乎不消耗额外的计算资源,反而能让我们获得额外的机器学习计算效率。” 砰,问题解决了。

所以我认为,一定程度上,即使你搞错了平衡,也不是世界末日。加速器的同质化是一个非常好的默认起点。但最终走向专用加速器也并非天方夜谭。而且,当我们这个领域的基础设施资本支出变得越来越惊人时,开始针对某些工作负载进行超优化就变得相当合理了。但我认为,现在下定论还有点为时过早,因为研究进展得太快了,在某种程度上,研究的突破会主导其他一切。

资讯配图

通往 GPT-6 之路:算法瓶颈的回归

主持人:我本来没打算问这个,但你刚提到了研究。你能给当前 GPT-6 研发的瓶颈排个序吗?计算资源、数据、算法、电力、资金。你觉得你们在哪方面最受限制?

Greg:我觉得,我们正处在一个基础研究回归的时代。这一点真的非常了不起,是真正的基础研究。

曾有一段时间,感觉就像是:“好了,我们有了 Transformer,接下来只管扩大规模就行了。” 我觉得这类问题非常激动人心,你有一个定义非常清晰的难题,你只想把那个数字往右上角推。但从某种智识层面来说,这又有点不尽如人意。感觉人生不止于原汁原味的《Attention Is All You Need》那篇论文。

我们开始看到的是,我们现在运作的规模,已经把计算和数据都推到了极限,以至于算法重新成为了一个重要的、甚至是决定未来进展的关键瓶颈。所有这些因素都是支撑帐篷的重要支柱,在任何一天,它都可能看起来朝某个方向有点倾斜。但从根本上说,你希望让它们都保持平衡。

看到像强化学习(RL)这样的范式崛起,真的非常令人兴奋。这是我们多年来刻意投入的领域。当我们训练 GPT-4 时,一件非常有趣的事是,当我们第一次和 GPT-4 对话时,我们心想:“这是 AGI 吗?” 它显然不是 AGI,但又很难说清楚为什么。它身上有一种说不出的感觉,它如此流畅自如,但不知怎么地就会偏离轨道。

我们就觉得:“好吧,我们必须解决这个可靠性的问题。”

它从未真正地体验过这个世界。它就像一个读完了所有书、或者观察了整个世界,但从未亲身经历过的人,只是隔着一块玻璃在看。对我来说,那一刻我们就像是顿悟了:“很明显,我们需要一种不同的范式。” 然后我们就持续不断地在这个方向上努力,直到我们真正让它奏效。我认为今天依然如此,还有其他一些非常明显的能力缺失,我们只需要持续地去攻克,我们终将到达那里。

主持人:接下来让我们继续。我们本来只向黄仁勋要了一个问题,但他是个“优等生”,所以他发来了两个。让我们播放第二段视频。

黄仁勋: 我的第二个问题是,未来几年,OpenAI 将拥有 AGI,而他们将在 OpenAI 的 AGI之上,构建特定领域的智能体。我脑海中会浮现出一些问题,比如,随着 OpenAI 的 AGI能 力越来越强,他们的开发工作流会如何改变?与此同时,他们仍然需要为自己特定领域的智能体创建底层的技术管道、工作流和增长飞轮。这些智能体当然将能够推理、规划、使用工具,并拥有短期和长期的记忆。但在未来几年,这个开发过程会如何演变?

Greg:我认为这是一个非常引人入胜的问题,你能找到各种各样观点鲜明但又相互矛盾的看法。我的观点是,首先,一切皆有可能。也许我们会进入一个 AI 能力超强,以至于我们都让它们来写所有代码的世界。也许世界会是只有天上一个 AI 的形态,又或者,是你实际上拥有一大群特定领域的智能体,而这些智能体需要大量专门的工作才能实现。

各种证据已经开始明显地倾向于一个由不同模型组成的“百花齐放”的生态。我认为这实际上非常令人兴奋。仅仅从系统角度来看,就有不同的推理成本,有不同的权衡取舍。模型蒸馏的效果非常好。所以,能够利用其他模型的模型,本身就蕴含着巨大的能量。

我认为这将开启海量的机会,因为我们正在走向一个经济由 AI 根本性驱动的世界。我们还没到那一步,但你已经能看到它就在地平线上了。

正是如此。我的意思是,这正是这个房间里的人们正在构建的,这正是你们在做的事情。而经济是一个非常庞大的东西,它内部有极大的多样性,而且它也不是静止的。当人们思考 AI 能为我们做什么时,很容易只着眼于我们现在正在做的事情,以及 AI 如何嵌入其中,还有人类与 AI 劳动的比例。但那不是重点。重点是,我们如何获得 10 倍的活动,10 倍的经济产出,10 倍于所有人的福祉?

我认为我们前进的方向是,模型将变得更加强大,基础技术将变得更好,而我们将有更多的事情想用它来做,同时,进入的门槛将比以往任何时候都低。像医疗保健这样的领域,需要有责任心的人去深入思考如何把它做好。像教育这样的领域,涉及多个利益相关方——家长、老师、学生——每一个都需要领域专业知识,需要仔细的思考,需要大量的工作。

所以,我认为未来将会有数不尽的机会让人们去创造。看到这个房间里的每一个人,我感到无比兴奋,因为这正是我们需要的那种能量。


本文编译自 AI Engineer

原文 | youtube.com/watch?v=avWhreBUYF0

· · ·

当创造的工具变得如此强大,我们该如何重新思考“创造”本身?

Brokman 给出了他的答案。而这个问题,对于一线的产品经理来说,已经不是哲学思辨,而是悬在头顶的达摩克利斯之剑。如果说 OpenAI 的这些人负责建成引擎,那么如何将这澎湃的动力转化为用户真正需要的产品,则是在另一片更泥泞的战场上展开的“壕沟战”。

因此,我们将在 8 月 15-16 日的全球产品经理大会期间,发起一场特别直播。与一线公司的 AI 产品负责人直接对话,深入探讨如何跨越“模型”与“产品”之间的鸿沟,分享他们在 AI 产品化道路上踩过的坑和总结的实战方法。这不仅是观点的碰撞,更是一份为你准备的、来自探路者前线的 AI 产品地图,欢迎扫码预约:

资讯配图

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
more
Project Mariner,谷歌狙击Open AI的秘密武器
OpenAI拟投资脑机接口公司,挑战Neuralink
深圳半导体存储企业卖身!AI大模型公司出手
独家观点|2024阿里全球数赛AI挑战赛冠军涂津豪:要把AI当玩具一样用起来
GPT-5的“克制” 与Grok4的“免费”:AI巨头开战
AI正在悄悄改写你的记忆
研报 | 预估2025年AI Server出货量年增逾20%,智能手机、笔电等终端产品陷入成长困境
智库观察丨“面面俱到”的代价:内在矛盾如何削弱特朗普政府AI战略的潜力?
清华大学汪玉教授:当AI重塑产业,新时代的育人思考
“智旅”亮剑.AI赋游:川投数科携手成都智算中心,以"三智一体"战略重塑巴蜀文旅新生态
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号