公众号记得加星标⭐️,第一时间看推送不会错过。

在人工智能/高性能计算行业,我(指代本文作者,下同)参与过的所有硅产品定义最终都会回到同一个问题上:制程节点的选择。而且每次,大家都觉得这是理所当然的。当然,我们想要领先技术。当然,尺寸越小越好。没人会因为选择更小的纳米或埃而被解雇。
在过去的二十年里,这或许是正确的,但现在我逐渐相信,这是当今人工智能基础设施中最昂贵的未经检验的假设——尤其是对于那些正在构建下一波人工智能浪潮的人来说:即那些大规模服务于推理和混合专家工作负载的人工智能超级工厂,而无需超大规模数据中心的资产负债表。
让我用这个行业刚刚讲述的一个关于自身的故事来说明这一点。
故事始于一个揭示真相的基准测试。去年十月,SemiAnalysis发布了 InferenceMAX——一个开源基准测试工具,它以一种令人耳目一新的诚实方式呈现数据。它不以峰值浮点运算性能 (FLOPS) 为指标,而是对主流芯片进行夜间测试,并衡量运营商实际支付的费用:每秒令牌数、每瓦令牌数、每百万令牌成本,涵盖真实工作负载和实际延迟目标。
NVIDIA 的重磅成果是此次发布会的胜利。Blackwell 的推理性能比上一代 Hopper 提升了高达 15 倍。独立框架团队也以更为保守的方式证实了这一提升幅度:在 Llama 3.3 70B 上,吞吐量在相似延迟下提升了约 4 倍;在 DeepSeek-R1(一种混合专家模型)上,吞吐量也提升了 4 倍——并且在整个延迟-吞吐量曲线上都保持一致。对于功耗受限的 AI 工厂而言,每兆瓦的令牌数量最多可提升 10 倍。
太棒了!接下来这一点应该会彻底改变我们对产品路线图的讨论:Blackwell 和 Hopper 采用的是同一工艺节点,都是台积电 4nm 时代的芯片。
看看规格表,你会发现事情远比想象的复杂。H100 的 FP8 性能峰值约为 4 petaFLOPS,而 B200 则约为 9 petaFLOPS——我们姑且称之为 2 倍,这大致相当于将两颗芯片粘合在一起的预期性能提升。那么,这 4 倍到 15 倍的性能提升究竟来自何处?答案并非来自光刻工艺本身:一种新的 FP4 数字格式,它使每个参数的字节数减少了一半;内存带宽从每秒 3.35 TB 跃升至每秒 8 TB;NVLink 带宽翻倍至每秒 1.8 TB;解耦式服务将预填充和解码分离;专为 MoE 构建的专家级并行路由;以及数月以来在 TensorRT-LLM、vLLM 和 SGLang 等内核级软件方面的持续改进,这些改进使得同样的芯片性能每周都在提升。
历史上最成功的芯片公司刚刚展示了在不缩小任何一个晶体管尺寸的情况下,性能(尤其是在MoE推断方面)实现了数量级的提升。这并非无关紧要,而是其核心战略。
如果你不是谷歌,这一点就更加重要了。这里有一些令人不安的计算,很少会出现在幻灯片上。2nm 晶圆的成本大约是 N4 级晶圆的两倍。但晶圆本身并不是真正的问题所在——真正的问题在于设计。将芯片工艺推向极致意味着数亿美元的 IP、EDA、掩模和流片成本。英伟达可以将这些成本分摊到整个商业帝国。而一家为中等规模 AI 基础设施制造芯片的公司则无法做到这一点。在实际产量下,2nm 芯片的摊销设计成本可能会超过芯片本身的成本。
那么,对于超级工厂运行的工作负载而言,这笔溢价究竟能带来什么呢?推理受限于内存:芯片的生命周期都耗费在传输权重和键值缓存上,而不是进行算术运算。MoE 让这种情况更加极端,而不是有所缓解——内存中存储着海量的参数,每个令牌仅激活其中一小部分,真正的难题在于容量、带宽以及专家之间令牌路由的互连。2nm 计算单元加速的并非瓶颈所在。它付出溢价,只是为了让堵车中最快的车也更快。
理性的做法——也是整个行业正在悄然趋同的做法——是将先进硅芯片只投入到真正能发挥其价值的地方。芯片组:计算模块采用产量足以支撑的最先进工艺节点,I/O 和模拟电路则采用成本低廉且工艺成熟的工艺节点(即使进一步缩小尺寸也无济于事),所有组件都采用先进的封装技术。这种做法将原本关乎公司生死存亡的节点选择转变为组合式决策。它降低了设计成本和风险,并且允许用户只需将单个模块升级到下一代,而无需重新设计整个系统。
然而,这个故事还有个关键的转折点,因为人工智能超级工厂的成败取决于兆瓦数。电网连接是当今人工智能基础设施中最稀缺的资源;电力是运营成本中的重中之重,而非无关紧要的小费用,而且在部署周期内,能源成本甚至可以与硬件成本相媲美。这难道不正是追求极致能效的必要条件吗?
它强调的是效率,而不是以2nm的价格购买。Blackwell每兆瓦10倍的代币产量提升来自于封装格式、内存、互连和软件——这些成本低廉的手段。对于中等规模的运营商来说,在耗尽这些手段之前,他们的资金就会很快用尽。真正的尖端技术是在成本低廉的效率手段失效之后才去追求的,而就目前而言,我们距离这个目标还很远。
所以,我会对产品路线图团队说:如果你的产品旨在训练突破性能瓶颈的前沿模型,那就继续购买最前沿的技术——这很理性,但并不适合大多数人。对于这个市场中快速增长的中端市场而言,优先级顺序很明确,InferenceMAX 刚刚发布了相关方案:
软件和利用率优先,内存和互连其次,封装和芯片组再次,纳米技术最后。
下一代人工智能基础设施的胜利者,并非拥有最小晶体管的厂商,而是浪费晶体管最少的厂商。
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
END
今天是《半导体行业观察》为您分享的第4438内容,欢迎关注。
推荐阅读
★
★
★
★
★
★
★
★

加星标⭐️第一时间看推送


