攀登HBM之巅:AI加速器的内存墙突围战(一)AI算力之争的核心引擎与未来内存革命

半导体产业研究 2025-08-20 08:00

资讯配图

资讯配图
资讯配图

【编者按】

本文编译自SemiAnalysis,深入解码高带宽内存(HBM)的技术演进与产业变局。面对AI模型对内存容量与带宽的指数级需求,传统内存架构已构成严峻的"内存墙"。文章系统剖析HBM制造工艺的尖端突破(如TSV微孔、混合键合)、供应链权力博弈(三星困境、中国突围),并前瞻HBM4革命性变革——定制基础芯片将重构内存控制器、解锁"海岸线"带宽瓶颈,甚至实现内存内计算。通过揭示Nvidia、OpenAI等巨头的技术路线选择,本文为读者绘制了一幅穿透AI算力桎梏的技术突围地图。

本报告的第一部分将解释 HBM(高带宽内存)、其制造工艺、供应商间的动态关系、KV缓存卸载、分离式预填充解码(disaggregated prefill decode)以及宽位/高秩 EP(wide / high-rank EP)。报告其余部分将深入探讨 HBM 的未来。我们将涵盖 HBM4 即将到来的革命性变革(包括针对 HBM 的定制化基础芯片),各种不同加速器(包括 OpenAI、英伟达和 AMD)在定制化 HBM 方面的举措,海岸线区域问题(shoreline area problem),内存控制器卸载,中继器物理层(repeater PHYs),LPDDR + HBM 组合方案,以及各种海岸线扩展技术(beachfront expansion techniques)。我们还将讨论 SRAM 标签(tags)、内存内计算(compute under memory)、供应链影响以及三星的情况。
HBM 概述
随着 AI 模型日益复杂,AI 系统需要具备更高容量、更低延迟、更高带宽和更优能效的内存。不同形式的内存有不同的权衡取舍。SRAM 速度极快但密度低。DDR DRAM 密度高且廉价但缺乏带宽。当今最流行的内存是片上 HBM,它在容量和带宽之间取得了平衡。
资讯配图
HBM 结合了垂直堆叠的 DRAM 芯片和超宽数据路径,为 AI 工作负载提供了带宽、密度和能耗的最佳平衡。HBM 的生产成本要高得多,其合理溢价也高于 DDR5,但对 HBM 的需求依然强劲。所有用于生成式 AI(GenAI)训练和推理的领先 AI 加速器都使用 HBM
加速器路线图的共同趋势是通过增加更多堆栈、更高层数和更快的 HBM 代次,来扩展单芯片的内存容量和带宽。正如我们已证明的那样,依赖其他形式内存的架构性能欠佳。
在本报告中,我们将审视 HBM 的现状、供应链中的动态,以及未来正在发生的突破性变革。我们将探讨 HBM 在 AI 加速器架构中的关键作用、HBM 对 DRAM 市场的影响,以及它为何正在颠覆内存市场分析的方式。对于订阅用户,我们还将解答关于三星作为供应商未来生存能力的主要问题,并强调一项可能逆转 HBM 容量增长趋势的技术变革。
HBM 入门
首先,简要介绍 HBM——它的独特之处和制造挑战。虽然 HBM 通常与在 3DIC 封装中堆叠的多个 DRAM 芯片相关联,但其另一个关键特性是 HBM 宽得多的数据总线,即使在信号传输速度一般的情况下也能提升带宽。这种显著更宽的总线使得 HBM 在每封装带宽方面远超任何其他形式的内存。
资讯配图
拥有更多 I/O 的代价是布线密度和复杂性的增加。每个 I/O 都需要一根单独的导线/走线,此外还需要额外的电源和控制布线。对于一个 HBM3E 堆栈,在相邻的 XPU(加速处理单元)和 HBM 之间有超过 1000 条导线。这种布线密度在 PCB 或封装基板上是无法实现的;因此,需要像 CoWoS 这样的 2.5D 封装组件中的中介层(硅基或有机基)。
为了降低数据传输的延迟和能耗,HBM 需要紧邻计算引擎的海岸线(shoreline)放置。这使得海岸线(SOC 的边缘)变得更有价值,因为 HBM 只能局限于 SOC 的 2 条边上,另外 2 条边需保留给封装外的 I/O。这限制了 HBM 可放置的区域,并要求垂直堆叠内存芯片以提供足够的容量。
为了实现 3DIC 外形规格,堆栈的每一层(顶部芯片除外)都需要有 TSV(硅通孔)来为上层提供电源和信号。容纳这些 TSV 所需的额外面积使得 HBM 芯片尺寸大于其等效的 DDR 芯片:SK 海力士 D1z DDR4 的位密度为 0.296 Gb/mm²,比其 HBM3 的 0.16 Gb/mm² 高出 85%。这种 TSV 工艺是标准 DRAM 的关键区别之一,其相关设备是将常规 DDR DRAM 晶圆产能转化为 HBM 产能的主要瓶颈。
另一个区别在于后端,HBM 需要堆叠至总共 9 或 13 层(8/12 个 DRAM 层叠在底部的一个逻辑基础芯片之上)。连同 CoWoS 一起,HBM 已将封装技术带入主流。像 MR-MUF(批量回流模塑填充)这样的利基封装技术现在已成为行业参与者的常识。
爆炸性增长的位需求
我们可以看到,随着 AI 加速器需求的增长,HBM 位需求也呈现巨大增长。尽管定制 ASIC 迅速崛起,英伟达凭借其激进的路线图(仅 Rubin Ultra 就将单 GPU 容量推至 1 TB),到 2027 年仍将占据 HBM 需求的最大份额。随着 TPU 和 MTIA 出货量激增,博通紧随其后,而 OpenAI 和软银的增量项目则带来较小但仍显著的提升。亚马逊也跻身顶级 HBM 客户之列。对于亚马逊而言,它采取了直接采购 HBM 而非通过设计合作伙伴的策略,这有助于降低成本。有关详细的、逐个芯片的位需求预测,请参阅我们的《加速器模型》。该模型包含按内存供应商划分的收入和位需求预测,以及按供应商细分的晶圆开工量和 TSV 产能。该模型还追踪不同代次 HBM 的价格,并提供逐个芯片的 HBM 类型、层数、堆栈数量、容量和带宽信息。
资讯配图
工艺流程:前端
当常规 DDR DRAM 产能“转换”为 HBM 产能时——主要的变化是增加了用于形成 TSV 的设备,以及更高的凸块加工(bumping)产能,因为 HBM 晶圆需要在两面进行凸块加工(bumped)。这两个步骤都是为了实现 3D 堆叠。不过,这排除了用于顶部芯片的晶圆,这些晶圆只需要单面凸块且不需要 TSV。
TSV 需要刻蚀机来制造通孔,以及沉积和电镀设备来填充通孔。为了显露 TSV,还需要研磨机、另一个刻蚀步骤,以及用于在该过程中附着承载晶圆的临时键合机。这就是为什么 HBM 产能现在以 TSV 产能来衡量,因为这是将 DDR 晶圆转化为 HBM 晶圆的主要增量工艺环节。
至于凸块加工(bumping),主要是沉积、电镀和剥离。此外,Camtek 和 Onto 的光学检测设备可用于检查凸块是否无缺陷且轮廓正确。
资讯配图
工艺流程:封装
另一部分是后端封装,海力士持续推动其 MR-MUF 技术(我们曾在此处详细撰文介绍)。简而言之,MR-MUF 提供了更高的生产效率和更好的热性能。海力士专有的(与 NAMICS 共同开发的)模塑底部填充材料比美光和三星使用的非导电薄膜(NCF)提供更强的散热能力。海力士能够避开热压键合(TCB),因为他们找到了其他方法来管理翘曲。TCB 的好处之一是使用力来稳定键合材料。
另一方面,施加力会增加损坏凸块的风险。在凸块上施加应力后,SK 海力士还可以增加更多的虚拟凸块(dummy bumps),这也有助于散热。
资讯配图
资讯配图
该工艺的生产效率也高得多。它采用批量回流(batch mass reflow)和单次模塑(single over-mold)步骤来形成连接,相比之下,使用 TC-NCF 技术时,每一层都需要一个完整的 TCB 步骤来形成连接。
资讯配图
*原文媒体:SemiAnalysis
*原文作者:Dylan Patel, Myron Xie, Tanj Bennett, Ivan Chiam, Jeff Koch
*原文链接:
https://semianalysis.com/2025/08/12/scaling-the-memory-wall-the-rise-and-roadmap-of-hbm/

资讯配图

芯启未来,智创生态

湾芯展2025与您相约!

资讯配图

资讯配图


资讯配图

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI 内存
more
【精选报告】AIGC专题一:量子位智库:2025中国AIGC应用全景图谱(附PDF下载)
秒级出片的 AI 视频来了!我用它做出最魔性的 Labubu,不会写提示词的小白也秒上手
汽车+机器人Tier1赛道再进阶,均胜电子与阿里云达成AI全面合作
AirPods Pro 3上架?外观大变样!还能检测心率...
小扎高薪挖来的人又跳回OpenAI了!首席科学家赵晟佳也要回去
【自动驾驶】Nuro完成超2亿美元E轮融资,推动AI为先的自动驾驶技术规模化发展
8月28日 | 2025中控技术全球新品发布暨工业AI创新发展大会即将开启!
【报告】AIGC专题四:2025年AIGC赋能B2B邮件营销-突破增长瓶颈的智能化转型白皮书(附PDF下载)
【AI】全球95%企业AI惨败?MIT报告引硅谷恐慌!90%员工偷用ChatGPT续命
【报告】AIGC专题二:2025AIGC应用实践报告:从“辅助工具”到“爆款大师”(附PDF下载)
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号