我们刚刚对 Claude Haiku 4.5 进行了编码基准测试

智能情报所 2025-10-17 15:40
我们刚刚对 Claude Haiku 4.5 进行了编码基准测试图1

Claude Haiku 4.5 证明:快速、智能、实惠终于可以兼得。

Anthropic 刚刚做了一件出人意料的事: 他们发布了一款并不昂贵的新模型。

在其小型模型系列沉寂了一年多之后,Haiku 4.5 问世了,它直接跳过了 3.5 到 4.5 之间的所有版本号,实现了一次巨大的飞跃。

这是自 2024 年 3 月以来,Anthropic 对其紧凑型模型的首次真正更新,它展示了整个行业格局的巨大变迁。

Haiku 4.5 并非一个功能简化的玩具。

它速度快、能力强,并为真实世界的使用场景进行了调优,专为那些既关心延迟也关心智能的开发者而打造。

其输入成本为每百万 token 1 美元,输出成本为每百万 token 5 美元,这个价格仅为 Sonnet 4.5 的一小部分,但它提供的编码性能几乎相当,运行速度更是其两倍。

多年来第一次,小型不再意味着功能有限。

它意味着高效。

而这将彻底改变我们利用 AI 进行构建的方式。

当 Anthropic 在 2025 年 5 月推出 Sonnet 4 时,它是其在编码领域的旗舰产品。

五个月后,Haiku 4.5 达到了相同的基准测试等级,但价格仅为三分之一,速度却快了两倍以上。

根据 Anthropic 官方的 SWE-bench 验证得分(73.3%),Haiku 4.5 在某些任务上甚至超过了 Sonnet 4,例如在 Claude Code 内部进行计算机使用和多智能体编码。

规格说明了一切:

我们刚刚对 Claude Haiku 4.5 进行了编码基准测试图2

正如 Anthropic 指出的那样:

  • 最近还处于前沿的技术,现在变得更便宜、更快速了。五个月前,Claude Sonnet 4 代表着顶尖水平。而今天,Haiku 4.5 以三分之一的成本和超过两倍的速度,提供了与之相当的编码性能。

这就是智能领域的结构性通缩,它正在改变我们所构建的一切事物的经济学。

为什么这是一个颠覆性的改变?

1. 将速度作为战略

Haiku 4.5 每秒能生成 150 个 token,这不仅比 GPT-5(每秒 20 token)更快,而且快到足以让人感觉是实时的。

对于实时编码助手、客服代理和多智能体编排等应用,这种速度消除了几个月来一直扼杀用户体验的摩擦感。

2. 在小型模型中实现推理能力

这是第一款具备扩展思考模式的 Haiku 模型。但其天才之处在于:

Anthropic 训练它使其能明确具备上下文感知能力。它知道自己已经使用了多少上下文窗口,并学会了据此来决定是结束任务还是继续推进。

引自其系统卡片:

  • 我们发现,这种干预措施能有效限制智能体的懒惰现象,即模型过早地停止处理问题、给出不完整的答案或在任务上偷工减料。

这不仅仅是一个功能。这是在解决智能体 AI 的核心问题之一。

3. 可扩展的安全性

Haiku 4.5 表现出比 Sonnet 4.5 和 Opus 4.1 都更低的失准率,使其成为 Anthropic 迄今为止最对齐的模型。

对于处理敏感数据或受监管工作流的生产系统来说,这一点至关重要。

基准测试:Haiku 4.5 的主导领域

综合性能

我们刚刚对 Claude Haiku 4.5 进行了编码基准测试图3

数据清晰地表明:Haiku 4.5 在大多数基准测试中持平或超越了 Sonnet 4 —— 一个仅在五个月前还处于前沿水平的模型。

开发性能:为生产环境而生

对开发者而言,真正重要的不只是学术基准测试,而是真实世界中的编码性能。这正是 Haiku 4.5 真正大放异彩的地方:

我们刚刚对 Claude Haiku 4.5 进行了编码基准测试图4
我们刚刚对 Claude Haiku 4.5 进行了编码基准测试图5

真实世界成本与速度分析

在这里,其经济效益变得不容忽视:

我们刚刚对 Claude Haiku 4.5 进行了编码基准测试图6

这对 Humiris 意味着什么

在 Humiris,我们始终坚信 AI 的未来并非依赖于某个单一的、庞大的模型。

而是关于由多个专业化 AI 组成的混合模型,它们像一个协调一致的团队一样协同工作。

到目前为止,这种架构的主要瓶颈不是智能,而是成本和速度。

前沿模型过于庞大,难以并行运行;而廉价模型又不够智能,无法跟上节奏。

Haiku 4.5 改变了这一局面。

它速度够快,可以衍生出数十个并发的智能体;它也足够智能,能够处理每个任务中细致入微的推理。

Anthropic 的这次新发布不仅仅是又一款新模型,它是一次针对AI 原生开发的架构性解锁。

它验证了我们一直以来努力的方向:在一个混合模型生态系统下,让快速、可组合、具备推理能力的模型并行工作。

这使得我们第一次能够像构建软件那样——以模块化、迭代式、多智能体的方式——来构建 AI 产品,这不仅成为可能,而且在实践和经济上都变得可行。

如果说 Haiku 4.5 是 AI 基础设施中缺失的那一块拼图,那么 Codiris 就是让这股力量变得可见的地方。

它是第一个由产品构建者为产品构建者打造的产品开发环境。

使用 Codiris 的团队通常能达到传统团队 10 倍的生产力。

作者:HUMIRIS AI


一键三连

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI 测试
more
先进封装测试与良率提升:4位专家的深度研讨和分享
千万级补贴+免费测试!云南低空经济新政“放大招”
《采用脑机接口技术的医疗器械 RACA机器人运动意图编解码性能测试方法》医疗器械行业标准制修订项目正式立项
VIVO X300Pro续航测试出炉,确实还不错
消息称荣耀正测试1.5K 165Hz超高刷直屏新机,还有超大电池
狙击iPhone Air?华为测试eSIM超薄手机,或搭载9030芯片
消息称 iOS 26.0.2 系统版本正内部测试,可能会在不久后推送
Tech Talk | 格物汽车科技常熟测试基地:以“小而精”布局,赋能智能汽车研发效率提升
真我GT8Pro联名理光;微信测试批量撤回;特斯拉最便宜车型来了;2026款吉利星愿即将上市
科技进展 | 3分钟测试或让患者提前10年发现阿尔茨海默症风险
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号