GPT-5通过“哥德尔测试”！独创性解决博士生都得花几天时间的开放数学问题

GPT-5，你这家伙！

究竟还有什么事是我不知道的？

在一篇最新论文中，研究人员让它挑战了5个尚未解决的优化猜想。

结果它居然解出了其中3个！

更令人吃惊的是，其中有一道题，它甚至给出了与研究者预期完全不同的、同样有效的证明方案。

和国际数学奥林匹克（IMO）那些为“人类天才高中生”准备的题目不同，这次的测试题需要博士水平的研究者花上几天才能完成。

在论文里，研究者们还特意“挑衅”陶哲轩对大语言模型数学能力的印象——

它可不是“笨蛋”研究生，而是能展现出独创性的“聪明”博士生。

前微软研究副总裁、现OpenAI科学家Sebastien Bubeck表示：

这意味着GPT-5能够解决一些真正的开放性数学问题。

接下来，就让我们看看，这位AI数学天才是怎么炼成的。

“哥德尔”测试

如上所述，GPT-5这次挑战的并不是奥赛题，而是高等数学里的简单猜想。

求解这类问题不仅需要算术能力，还需要相当强的数学背景和逻辑推理能力。

研究人员把他们的测试称为：哥德尔测试。

哥德尔测试里的问题需要人自己动脑、经过训练才能解决，而且在现有文献中找不到现成答案。

（注：这里哥德尔测试与哥德尔不完全性定理基本没啥关系）

在这篇论文中，总共5个问题基本都来自组合数学（Combinatorial mathematics）的一个子领域——

子模最大化（submodular maximization）。

什么是子模最大化呢？

简单来说，子模函数的核心在于边际收益递减。

假设有一个函数 f(S)，输入是一个集合S，输出是一个数值。

当集合越来越大时，增加一个新元素带来的“增量收益”会越来越小。

而子模最大化，就是在给定的约束条件下，选择一个集合，使得总收益 f(S)尽可能最大。

举例来说，这就好像在社媒转发视频，第一个转发的用户往往能带来很多观看量（传播给更多的人）。

但随着转发的人越来越多，每增加一个人的额外效果就越来越小（因为他的好友大部分已经看过了视频）。

所以，关键是选出一批用户（集合S），好让总传播量最大。

这就是子模最大化在实际问题中的优化目标，在测试中，GPT-5所应对的就是类似的优化问题。

那么，GPT-5在这些猜想上的表现如何呢？

在五道测试题中，研究者给出最小化描述和参考文献，没有提供解题提示，让模型自主生成解答，测试其数学推理能力。

总的结果如下：

当问题有单一、直接的推理路径时，GPT-5表现良好。在五道题中，前三道题的证明接近正确。
对于第二题，GPT-5推导出的新近似证明既否定了原始猜想，又给出了有效解法。
GPT-5对已知证明的改写通常足够，但略显表面化：它倾向于跳过未变的步骤，并严格模仿原始结构，而非寻求更自然的替代方法，这类似人类的偷懒行为。
GPT-5在第四题和第五题上均未成功，这两道题需要结合至少2个不同文献里的洞见，这种综合推理能力似乎是GPT-5的主要局限之一。
在第五题上，GPT-5识别出了研究团队心中所想的算法，但未能正确分析。
相比早期模型，GPT-5在基础数学能力上显示出明显提升（至少在组合优化领域如此），并偶尔展现独创性。
提示词对性能影响显著。当被要求提供完整证明时，GPT-5更倾向于保留中间步骤而非跳过，从而生成更完整和自洽的解答。
第四题和第五题的错误证明最初看似合理且令人信服，但仔细检查后发现存在深层次缺陷。这凸显了前沿模型在数学推理中的核心局限：输出可能表面上正确，但本质上错误。