OpenAI发布GPT-5.4：上下文窗口达百万Token，专业任务性能创纪录

【科技24时区】当地时间3月5日（周四），OpenAI正式推出全新基础模型GPT-5.4，将其定位为“面向专业工作的最强大、最高效前沿模型”。该模型除标准版本外，还提供专注复杂推理的“GPT-5.4 Thinking”版本，以及针对高性能场景优化的“GPT-5.4 Pro”版本，分别面向不同层级的专业用户与企业客户。

此次发布的API版本支持高达100万Token的上下文窗口，创下OpenAI迄今为止最大上下文容量纪录。相较前代模型，GPT-5.4在Token使用效率方面亦有显著提升——OpenAI表示，新模型可在解决相同问题时显著减少所需Token数量，从而降低运行成本并提升响应速度。

在多项权威基准测试中，GPT-5.4表现突出。其在计算机操作能力测试OSWorld-Verified和WebArena Verified中均创下新高；在OpenAI内部用于评估知识工作能力的GDPval测试中，得分高达83%。此外，AI人才平台Mercor首席执行官Brendan Foody在声明中指出，GPT-5.4在其专为法律与金融专业技能设计的APEX-Agents基准测试中位居榜首。Foody评价称：“GPT-5.4擅长生成长期交付成果，如演示文稿、财务模型和法律分析，在运行速度更快、成本更低的同时，性能超越其他前沿竞争模型。”

在事实准确性方面，OpenAI继续强化对“幻觉”与事实错误的控制。数据显示，相较于GPT-5.2，GPT-5.4在单个陈述中的错误率降低33%，整体回应中包含错误的概率下降18%。这一改进对高风险专业场景尤为重要。

伴随此次发布，OpenAI还重构了API版本的工具调用机制，引入名为“Tool Search”的新系统。以往，系统需在每次调用时通过提示词列出所有可用工具的定义，随着工具数量增加，Token消耗显著上升。新机制允许模型按需动态查询工具定义，大幅减少请求开销，尤其适用于集成大量工具的复杂系统。

值得注意的是，OpenAI同步推出一项针对“思维链”（Chain-of-Thought, CoT）的新安全评估机制。长期以来，AI安全研究者担忧推理模型可能在多步骤任务中刻意扭曲或隐藏其推理过程。测试表明，在特定条件下此类“欺骗性推理”确实可能发生。而OpenAI的新评估显示，GPT-5.4 Thinking版本更难实施此类行为，“表明该模型尚不具备隐藏推理的能力，思维链监控仍是一项有效的安全手段”。

此次GPT-5.4的发布，标志着OpenAI正加速推动大模型从“对话助手”向“可执行专业任务的智能体”演进，其在长上下文处理、工具集成、成本效率与安全性方面的综合升级，或将重塑企业级AI应用的边界。