Anthropic发布Sonnet 4.6:上下文窗口翻倍,多项基准测试创纪录

科技区角 2026-02-18 04:00

【科技24时区】人工智能公司Anthropic于2026年2月18日正式推出其中端模型Claude Sonnet 4.6,延续其每四个月一次的更新节奏。此次升级重点聚焦于代码生成、指令遵循以及计算机操作三大核心能力的全面提升。

新版本将作为免费用户与Pro订阅用户的默认模型上线。值得注意的是,Sonnet 4.6测试版首次支持高达100万token的上下文窗口,是此前Sonnet系列最大上下文长度的两倍。Anthropic在公告中指出,这一容量“足以在单次请求中容纳完整代码库、冗长合同或数十篇研究论文”,显著增强了模型处理复杂任务的能力。

此次发布距离旗舰模型Opus 4.6的推出仅隔两周,而轻量级模型Haiku的更新版本预计也将在未来数周内面世,显示出Anthropic正加速推进其全系产品迭代。在性能方面,Sonnet 4.6刷新了多个权威基准测试成绩:在衡量计算机操作能力的OS World和评估软件工程水平的SWE-Bench中均创下新高。

尤为引人关注的是,该模型在旨在测试类人智能核心能力的ARC-AGI-2基准上取得了60.4%的得分。这一成绩使其在同类中端模型中处于领先地位。不过,Anthropic亦坦承,Sonnet 4.6仍落后于自家旗舰模型Opus 4.6、谷歌的Gemini 3 Deep Think,以及OpenAI经过精细调优的GPT-5.2特定版本。这表明,尽管中端模型能力快速逼近高端水平,但顶级模型在复杂推理与泛化能力上仍保有明显优势。

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
IC 测试
more
特斯拉Semi电动卡车阿拉斯加极寒测试,2026年量产在即
马斯克要在月球生产 AI 卫星;Deepseek 开启新版本灰度测试,上下文长度提升 8 倍;AI 相亲软件在斯坦福校园爆火 | 极客早知道
为什么不同的群脉冲(EFT)仪器测试结果差异很大?
国产测试机,夹缝求生
库克:AI是对人能力的放大,而非取代人;月之暗面回应 Cursor 套壳 Kimi K2.5;曝 ChatGPT 广告测试推进缓慢|极客早知道
全球首条35微米功率半导体超薄晶圆工艺及封装测试生产线在上海建成
四川人形机器人多模态数据采集测试中心投运 首台人形机器人同步下线
独家丨通信测试厂商赛迈获得超亿元A轮融资,加速国家战略新兴领域和海外业务布局
爱立信完成全球首次6G预标准实地测试与LTM实网验证
汽车早餐 | 长安汽车获批L4级Robotaxi测试牌照;沃尔沃对极星持股比例将升至19.9%;萝卜快跑正式启动迪拜全无人商业化运营
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号