狙击Gemini 3！OpenAI发布GPT-5.1-Codex-Max

量子位 2025-11-20 15:01

Gemini 3力压全场，OpenAI坐不住了。

发布Codex新版本——GPT-5.1-Codex-Max，突破上下文窗口限制，实现跨越数百万token的长时间连续工作，最长超过24小时的那种。

狙击Gemini 3！OpenAI发布GPT-5.1-Codex-Max图1

新模型任务效率也更高。它做的太阳系引力沙盒和上一代GPT-5.1-Codex的对比是这样的（多加了几个“太阳”看引力效果）：

狙击Gemini 3！OpenAI发布GPT-5.1-Codex-Max图2

狙击Gemini 3！OpenAI发布GPT-5.1-Codex-Max图3

△上：GPT-5.1-Codex-Max 下：GPT-5.1-Codex

资源消耗是这样的：

狙击Gemini 3！OpenAI发布GPT-5.1-Codex-Max图4

于是，奥特曼昨天刚夸完Gemini 3，今天又赶来给自家GPT-5.1-Codex-Max站台，咱说这也太忙了（doge）。

狙击Gemini 3！OpenAI发布GPT-5.1-Codex-Max图5

新版本在METR达到新SOTA。这个指标衡量的是，用人类做任务的时间当参照，看AI有一半概率能搞定同款任务的能力。

其实就是先看人类做某类软件工程任务得花X小时，然后看AI模型能不能有50%的概率，把这项任务给完成了。

上面数据说明，在这种情况下，GPT-5-Codex-Max有50%的概率能够成功完成一项原本需要人类2小时42分钟完成的软件工程任务。

这比GPT-5对标的时间还多了25分钟。

超长待机

AI编程现在这么火，各家也都在奋力加码自家模型。

在这个前沿赛道，模型处理复杂任务的推理能力、持久力与稳定性，始终是衡量效能的关键指标。

而GPT-5.1-Codex-Max这次也是做了大升级。

首先，它在PR创建、代码审查等实际软件工程任务中训练，推理变得更快更有效。也是OpenAI首个能在Windows环境中的模型。

狙击Gemini 3！OpenAI发布GPT-5.1-Codex-Max图6

在SWE-bench Verified测试中，同样medium推理力度下，它比之前的GPT‑5.1-Codex性能更好，且思考token使用减少了30%。

狙击Gemini 3！OpenAI发布GPT-5.1-Codex-Max图7

而且针对非延迟敏感任务还推出了xhigh推理力度选项，思考时间更长答案更好。

说到思考时间长，这次的新版本对于长时间运行任务的处理也比较出色，能够实现“超长待机”，跨多个上下文窗口连贯工作。

这是因为GPT-5.1-Codex-Max原生支持压缩，突破了上下文窗口限制。

具体来说，在接近上下文窗口限制时，模型会自动压缩对话，获得新上下文窗口然后继续任务，直到完成。

狙击Gemini 3！OpenAI发布GPT-5.1-Codex-Max图8

在内部评估中，它能一次独立运行超过24小时，连贯处理数百万个token。

看样子，新模型在处理长运行、高强度的任务上比较有优势。

比如，它在应对书籍、长文档分析等超长篇幅任务时，就无需拆分内容，避免信息割裂产生的理解偏差。

也能支撑高负载、长周期的持续工作。

OpenAI研究员Noam Brown对此表示：（虽然现在表现就很不错但）尚未遇到瓶颈，还没达到极限。

狙击Gemini 3！OpenAI发布GPT-5.1-Codex-Max图9

目前，GPT-5.1-Codex-Max已在Codex中支持与CLI、IDE扩展、云端和代码审查工具结合使用，API接口很快也会上线。

当然了，新的编程模型一出，Claude是肯定会被拉出来遛一下的。

相比之下，Claude Code速度更快。

狙击Gemini 3！OpenAI发布GPT-5.1-Codex-Max图10

新版Codex的token消耗量更友好。

狙击Gemini 3！OpenAI发布GPT-5.1-Codex-Max图11

或许，Claude和Codex的组合拳更能打。

狙击Gemini 3！OpenAI发布GPT-5.1-Codex-Max图12

OMT

一天时间，Gemini 3、Grok 4.1 Fast、GPT-5.1-Codex-Max都来了，好一个硅谷345组团上新（doge）。

这位网友你~~真相了~~说得有道理。

狙击Gemini 3！OpenAI发布GPT-5.1-Codex-Max图13

实际上，OpenAI这次还悄悄发布了GPT-5.1 Pro。

狙击Gemini 3！OpenAI发布GPT-5.1-Codex-Max图14

虽然官方介绍仅有寥寥几笔，但通过第三方测评来看，这个Pro版本看上去还是有点东西的。

狙击Gemini 3！OpenAI发布GPT-5.1-Codex-Max图15

尤其是在指令遵循方面做得更好。

狙击Gemini 3！OpenAI发布GPT-5.1-Codex-Max图16

虽然在一定程度上和Gemini 3有差距，但如果能接入IDE，将发挥出更大的潜力。

狙击Gemini 3！OpenAI发布GPT-5.1-Codex-Max图17

声明：内容取材于网络，仅代表作者观点，如有内容违规问题，请联系处理。

AI 大模型

more

因“多次泄密”，字节跳动开除一大模型团队研究员

52RD 3周前

因“多次泄密”，字节跳动开除一大模型团队研究员

破解多模态大模型“选择困难症”！内部决策机制首次揭秘：在冲突信息间疯狂"振荡"

量子位 3周前

破解多模态大模型“选择困难症”！内部决策机制首次揭秘：在冲突信息间疯狂"振荡"

Ilya罕见发声：大模型「大力出奇迹」到头了

量子位 1周前

Ilya罕见发声：大模型「大力出奇迹」到头了

谷歌抢跑L3级AI，Gemini连续工作40分钟，Agent自动生成评审百条创意

量子位 2周前

谷歌抢跑L3级AI，Gemini连续工作40分钟，Agent自动生成评审百条创意

解放军总医院联合南大、吉大等机构，共同提出首个「脊柱诊疗大模型」SpineGPT

机器之心 2周前

解放军总医院联合南大、吉大等机构，共同提出首个「脊柱诊疗大模型」SpineGPT

马斯克Grok 4.1双冠封王，爆冲第一！AI王座一夜易主

新智元 2周前

马斯克Grok 4.1双冠封王，爆冲第一！AI王座一夜易主

狙击Gemini 3！OpenAI发布GPT-5.1-Codex-Max

量子位 2周前

狙击Gemini 3！OpenAI发布GPT-5.1-Codex-Max

GPT-5.1上线，文心5.0登场，国产大模型为啥不慌

智东西 3周前

GPT-5.1上线，文心5.0登场，国产大模型为啥不慌

大模型上天、马斯克发射GPU？中国团队直接建「太空超算」

新智元 2周前

大模型上天、马斯克发射GPU？中国团队直接建「太空超算」

小红书提出社交大模型RedOne 2.0：兼听、敏行

量子位 2周前

小红书提出社交大模型RedOne 2.0：兼听、敏行

Copyright © 2025 成都区角科技有限公司

蜀ICP备2025143415号-1

川公网安备51015602001305号