OpenAI发布GPT-5.4:上下文窗口达百万Token,专业任务性能创纪录

科技区角 2026-03-06 04:02

【科技24时区】当地时间3月5日(周四),OpenAI正式推出全新基础模型GPT-5.4,将其定位为“面向专业工作的最强大、最高效前沿模型”。该模型除标准版本外,还提供专注复杂推理的“GPT-5.4 Thinking”版本,以及针对高性能场景优化的“GPT-5.4 Pro”版本,分别面向不同层级的专业用户与企业客户。



此次发布的API版本支持高达100万Token的上下文窗口,创下OpenAI迄今为止最大上下文容量纪录。相较前代模型,GPT-5.4在Token使用效率方面亦有显著提升——OpenAI表示,新模型可在解决相同问题时显著减少所需Token数量,从而降低运行成本并提升响应速度。

在多项权威基准测试中,GPT-5.4表现突出。其在计算机操作能力测试OSWorld-Verified和WebArena Verified中均创下新高;在OpenAI内部用于评估知识工作能力的GDPval测试中,得分高达83%。此外,AI人才平台Mercor首席执行官Brendan Foody在声明中指出,GPT-5.4在其专为法律与金融专业技能设计的APEX-Agents基准测试中位居榜首。Foody评价称:“GPT-5.4擅长生成长期交付成果,如演示文稿、财务模型和法律分析,在运行速度更快、成本更低的同时,性能超越其他前沿竞争模型。”

在事实准确性方面,OpenAI继续强化对“幻觉”与事实错误的控制。数据显示,相较于GPT-5.2,GPT-5.4在单个陈述中的错误率降低33%,整体回应中包含错误的概率下降18%。这一改进对高风险专业场景尤为重要。

伴随此次发布,OpenAI还重构了API版本的工具调用机制,引入名为“Tool Search”的新系统。以往,系统需在每次调用时通过提示词列出所有可用工具的定义,随着工具数量增加,Token消耗显著上升。新机制允许模型按需动态查询工具定义,大幅减少请求开销,尤其适用于集成大量工具的复杂系统。

值得注意的是,OpenAI同步推出一项针对“思维链”(Chain-of-Thought, CoT)的新安全评估机制。长期以来,AI安全研究者担忧推理模型可能在多步骤任务中刻意扭曲或隐藏其推理过程。测试表明,在特定条件下此类“欺骗性推理”确实可能发生。而OpenAI的新评估显示,GPT-5.4 Thinking版本更难实施此类行为,“表明该模型尚不具备隐藏推理的能力,思维链监控仍是一项有效的安全手段”。

此次GPT-5.4的发布,标志着OpenAI正加速推动大模型从“对话助手”向“可执行专业任务的智能体”演进,其在长上下文处理、工具集成、成本效率与安全性方面的综合升级,或将重塑企业级AI应用的边界。

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
more
刚封杀就反杀!Claude逆天1400亿暴击OpenAI,250万人抛弃ChatGPT
谷歌DeepMind高管邀请千问团队入职,OpenAI千亿投资告吹,新MacBook在欧不送充电器,小鹏汇天飞行汽车批量下线,这就是今天的其他大新闻
阿里辟谣“千问团队集体离职”传闻,强调开源战略不变并加大AI人才引进
超1000亿美元!博通2027年AI芯片开挂增长
科斯拉预言2030年起AI将取代八成岗位,劳动力成本趋零重塑经济格局
火速捡漏?阿里正式批准林俊旸辞职,谷歌DeepMind立刻抛橄榄枝;某车CEO头戴摄像头炮轰激光雷达:放在车顶不好看;OpenAI深夜祭出GPT-5.4
小米Xiaomi miclaw开启封闭测试,打造端侧“行动式AI”新范式
联想在MWC上亮牌:用AI打通PC与平板,Qira想成为下一代交互入口
AI美女,正在“击穿”擦边博主的世界
锐龙AI 400系列桌面CPU发布,PCIe通道缩水引发性能隐忧
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号