OpenAI总裁透露GPT-5改了推理范式，AGI实现要靠现实反馈

克雷西鹭羽发自凹非寺
量子位 | 公众号 QbitAI

OpenAI的AGI之路，总裁Greg Brockman在最新的访谈中说清楚了——

技术层面，从文本生成转向强化学习的推理范式，在现实世界中试错并获取反馈；
资源策略上，持续投入大规模计算资源；
落地环节，把模型封装成Agent，将模型能力打包成为可审计的服务进程。

这场访谈由AI播客Latent Space主持，与Brockman探讨了OpenAI的AGI的整体技术路线与资源策略。

与此同时，OpenAI的落地布局，以及Brockman对未来的思考，也都随着访谈的进行浮出水面。

总结下来，Brockman表达了这些核心观点：

模型正在不断增强现实交互能力，这也是下一代AGI的关键组成部分；
AGI的主要瓶颈在于计算，计算量的多少直接决定了AI研究和发展的速度与深度；
AGI真正的目标是让大模型在企业和个人的工作流里长驻，手段就是Agent；
把模型接进现实世界的应用领域极具价值，各个领域还有大量尚未采摘的果实。

模型推理范式的转变

谈及OpenAI刚刚发布的GPT-5，Brockman认为这是AI领域的一场重大范式转变，作为OpenAI第一个混合模型，旨在弥补GPT系列与AGI的距离。

在训练GPT-4之后，OpenAI给自己提出了一个问题：

为什么它不是AGI？

GPT-4虽然可以进行连贯的上下文对话，但可靠性欠佳，会犯错甚至脱离轨道。

因此他们意识到需要在现实世界中测试想法，并通过强化学习获取反馈，从而提高可靠性。

这一点在OpenAI早期的Dota项目中就有所实现，当时使用了纯强化学习，可以从随机初始化状态中学习复杂行为。

△OpenAI的Dota训练架构

所以从GPT-4完成的那一刻起，OpenAI开始尝试转向新的推理范式，即先让模型通过监督数据学会对话，再借助强化学习反复在环境中试错。

传统的模型训练是一次性训练，然后进行大量推理，而GPT-5则借助强化学习，让模型在推理过程不断生成数据，然后基于这些数据重复训练，将模型与现实世界的观测结果反馈到模型中。

这种新范式改变了所需数据的规模，原先预训练可能需要数十万个示例，但强化学习只需要从10到100个任务中学习复杂行为。

同时也说明模型正在不断增强现实交互能力，这也是下一代AGI的关键组成部分。

计算能力决定AGI开发上限

当被问及当前AGI开发中的主要瓶颈时，Brockman明确表示：计算。

他认为，只要拥有更多的计算能力，OpenAI就总能找到迭代和提高模型性能的方法，计算量的多少直接决定了AI研究和发展的速度与深度。

例如同样是在Dota项目中，当时普遍认为PPO （近端策略优化）算法无法实现扩展，但他们通过将内核数量翻倍，实现了性能的持续提升，所以其实所谓的算法壁垒在扩大计算资源后就能得以解决。

而当前GPT-5的强化学习范式虽然带来了更高的样本效率，但仍然需要模型进行数万次尝试才能重复学会一项任务，这需要巨大的计算量支撑。

更进一步，图灵曾为AGI提出的“超临界学习”概念，认为机器不仅要学习被即时教授的内容，还要深入思考其二阶、三阶甚至四阶效应，并更新整个知识体系。

这种更深层次学习过程则同样需要投入更多的计算资源，OpenAI当前的目标就是探索如何以更具创造性的方式消耗计算，以实现这种高级学习能力。

Brockman将计算描述为一种基本燃料，可以将能量转化为存储在模型权重中的势能，推动模型执行有效操作。

一旦模型通过大量计算训练完成，就可以被反复利用，在多任务中分摊巨大的计算成本。

另外，他也预测最终的AGI将会是一个模型管理器，将小型的本地模型与大型云推理器结合，以实现自适应计算。

GPT-5的多模型混合和路由机制就是这种方式的一个初步尝试，将推理模型和非推理模型结合，并通过条件语句选择合适的模型。

推理模型更适用于深度智能但有充足思考时间的场景，非推理模型则用于快速输出回合。

这种复合式的模型充分利用了计算的灵活性，能够根据任务需求组合不同能力和成本的模型，也是AGI最可能呈现的面貌。

因此在AI驱动的未来经济中，计算将成为需求极高的资源，拥有更多计算资源的研究人员可以产出更优质的成果，如何获取计算资源及计算的分配方式将成为一个非常重要的问题。

让大模型进入生产

Brockman反复强调，模型不再是科研样品，而是要成为现实生产线的一环。

他指出，AGI真正的目标是让大模型在企业和个人的工作流里长驻，而不是停留在论文与演示当中。

具体的落地路径就是把模型封装成Agent，将模型能力打包成为可审计的服务进程。

Brockman认为，这种交互像与资深同事协作，一个关键要素在于可控性——可以“随时停下让你检查”，而且任何一步都能回滚。

为了保证高权限Agent可控，OpenAI设计了双层结构的“纵深防御”：

模型内部，把system、developer、user三种指令排出可信度顺序，使“忽略此前所有指令”这类注入在第一关就被丢弃；
模型外部，把每个潜在高危操作拆成最小粒度，通过多级沙箱逐一确认。

对于这种模式，Brockman用数据库安全进行了类比：

就像防SQL注入，必须先在最低层把洞堵死，再往上叠加护栏，系统自然稳固。

安全护栏之外，与人类之间的价值对齐也是一项重要工程。

工程团队先通过后训练从海量潜在“人格”中去除普遍不受欢迎的类型。

随后，剩余的“人格”被放入公开竞技场接受实时评分，评价高的策略在下一轮被放大，评价低的被削弱，从而形成模型与社会偏好的协同进化。

这一流程将保证模型能力升级时不脱离人类共识，也为未来引入在线学习打下数据基础。

另外，为了增强生态黏性，OpenAI还把轻量级开源列为第二驱动力。

Brockman的判断是，当开发者在这些模型上沉淀工具链，实际上就默认采纳了OpenAI的技术栈。

“各个领域还有大量尚未采摘的果实”

放眼未来，Brockman认为真正值得投入的机会不在于再造一个更炫的“模型包装器”，而是把现有智能深植于具体行业的真实流程之中。

对很多人来说，似乎好点子都被做完了，但他提醒，每一条行业链都大得惊人。

把模型接进现实世界的应用领域极具价值，各个领域还有大量尚未采摘的果实。

因此，他建议那些“觉得起步太晚”的开发者与创业者，先沉到行业一线，理解利益相关者、法规和现有系统的细节，再用AI去填补真正的缺口，而不是只做一次性的接口封装。

当被问到如果要给2045年的自己留一张便签会写什么时，他的愿景是“多星际生活”与“真正的丰裕社会”。

在他看来，以当前技术加速度推演，二十年后几乎所有科幻情节都难以否定其可行性，唯一的硬约束只剩下物质搬运本身的物理极限。

与此同时，他也提醒，计算资源会成为稀缺资产；即便物质需求被自动化满足，人们仍会为了更高分辨率、更长思考时间或更复杂的个性化体验而渴求更多算力。

如果能穿越回18岁，他想告诉年轻的自己，值得攻克的问题只会越来越多，而不会减少。

我曾以为自己错过了硅谷的黄金年代，但事实完全相反——现在正是技术发展的最好时机。

在AI将渗透一切行业的背景下，机遇不仅未被耗尽，反而随技术曲线的陡升而倍增.

真正的挑战是保持好奇心，敢于投入新的领域。

参考链接：
[1]https://www.youtube.com/watch?v=35ZWesLrv5A

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

🎉 希望了解AI产品最新趋势？

量子位智库「AI 100」2025上半年

「旗舰产品榜」和「创新产品榜」

给出最新参考👇

🌟 点亮星标 🌟

科技前沿进展每日见