

【编者按】
本文编译自SemiAnalysis,深入解码高带宽内存(HBM)的技术演进与产业变局。面对AI模型对内存容量与带宽的指数级需求,传统内存架构已构成严峻的"内存墙"。文章系统剖析HBM制造工艺的尖端突破(如TSV微孔、混合键合)、供应链权力博弈(三星困境、中国突围),并前瞻HBM4革命性变革——定制基础芯片将重构内存控制器、解锁"海岸线"带宽瓶颈,甚至实现内存内计算。通过揭示Nvidia、OpenAI等巨头的技术路线选择,本文为读者绘制了一幅穿透AI算力桎梏的技术突围地图。
HBM堆叠层数——堆更高,混合还是键合?
增加HBM堆叠层数意味着提升内存容量。每一代产品的层数都在持续增加。迄今为止,这种堆叠高度始终被限制在720微米的立方体空间内(当前JEDEC标准)。为容纳更多层数,每个晶圆(不包括顶部的晶圆,该层需保持较厚以承受后续封装步骤中的操作)都被做得更薄,晶圆间的凸块间隙也被压缩以腾出更多空间。更薄的晶圆处理难度越来越大,因此更容易出现翘曲和破损,导致良率下降。
混合键合(HB)对HBM的主要优势在于无需凸块。通过消除凸块间隙,可为更多DRAM核心层腾出空间。但这会带来一系列良率和成本的新挑战,可能得不偿失——尤其是HBM并不需要混合键合所提供的高互联密度。制造商们正在探索如何降低混合键合的焊盘密度,以放宽键合精度要求,使该技术更适用于HBM。HB还能带来功耗和散热方面的一次性改善,但主要优势仍在于堆叠高度。
对HBM而言,采用HB始终是"下一代"技术,而目标节点不断后移。对于晶圆对晶圆(D2W)混合键合而言,即便是2层堆叠要实现可接受的良率也极其困难且成本高昂。想象一下将这个问题扩展到16层及以上的难度。内存厂商的混合键合技术研发仍处于早期阶段。根据台积电的经验,HB技术耗费很长时间才实现量产——即使在先进逻辑领域性能优势更明显时,其应用进程依然缓慢。
HBM3和HBM3E正迈向12层堆叠,基于凸块互联的技术已接近当前720微米厚度限制的极限。要实现更高堆叠有两种方案:无需凸块或增加堆叠高度/厚度。令人意外的是,JEDEC已确认将标准放宽至775微米,这意味着行业选择了后者而非混合键合。
高度限制还可能进一步放宽。775微米是硅晶圆的标准厚度。HBM需要与共封装的逻辑芯片保持相同高度。若堆叠高度超过775微米,逻辑晶圆也需增厚,而现有设备并不支持更厚的晶圆。潜在解决方案包括通过增加逻辑芯片下方中介层的模塑高度来提升整体水平,确保与相邻HBM保持共面性——但这会延长走线距离,且实现硅桥互联并不容易。

虽然早期更多讨论集中在HBM4采用HB技术,但现在已推迟到HBM4E阶段。近期海力士和美光对HB应用保持沉默,而三星则最为高调。这符合三星一贯作风——往往鼓吹最激进的技术方案试图追赶领先者,最终却在执行层面如期失败,导致差距进一步扩大。
虽然16层堆叠可通过增加高度实现,但要达到20层及以上,可能需要进一步缩小凸块间隙和减薄晶圆,或者干脆止步于16层。更高堆叠能提升密度,但更多堆叠层数提供的是带宽和密度双重提升。
吞吐量优化:I/O是AI加速器的生命线
AI加速器的关键特征在于高度并行化且针对吞吐量优化。加速器通过牺牲运算复杂度来最大化每秒可执行的操作总数。大多数加速器专注于通用矩阵乘法(GEMM)的乘加运算,这正是AI训练和推理工作负载的核心。相比之下CPU虽然也关注每秒指令执行数,但CPU核心更"智能",需要更多电路和面积,因此设计用于执行更广泛复杂任务,但吞吐量低得多。
这意味着AI加速器需要大量片外带宽用于内存及扩展架构。带宽既要将处理完的数据移出芯片,又要为加速单元持续输送待处理数据。没有足够带宽,XPU的计算单元将处于闲置状态,使并行计算能力失去意义。让我们从内存需求开始分析。
内存容量持续增长
为提升性能——增加内存容量、带宽与算力已成为加速器发展路线的核心特征。容量和带宽通过三个维度扩展:
1.新一代HBM通过更快信号传输速度和更密集核心芯片提供更高带宽
2.增加每堆叠层数提升容量(12层HBM即将成为主流配置)
3.每封装增加更多HBM堆叠带来带宽和容量双增长
从英伟达发展路线可清晰看到:HBM容量从A100的80GB HBM2E暴增至Rubin Ultra的1024GB HBM4E。单芯片内存带宽也急剧增长——从Ampere到Blackwell Ultra,物料成本最大绝对值和相对增幅均来自HBM增量,这使内存供应商(主要是SK海力士)获益。

这也与非内存I/O需求相关。在单一内存一致性域内扩展更多GPU可提供聚合内存容量和带宽,从而支持更大参数模型的推理扩展,并适应推理模型和复杂工作负载中日益增长的长上下文需求。
正如帕金森定律指出"工作会膨胀到填满所有可用时间",现代AI正遵循"内存帕金森定律"——神经网络架构会无限扩张直至占满所有可用HBM空间。HBM容量和吞吐量的每次代际提升(无论是H100的80GB/3TB/s还是GB200的192GB/8TB/s),都会立即促使设计者增加参数量、上下文长度和KV缓存空间,迅速耗尽数月前还看似充裕的余量。一旦新的HBM空间出现,那些曾用于压缩模型的技术(激活检查点、优化器卸载、权重量化)就会被搁置,直到再次撞上内存墙时才重新启用。实际上,更大更快的HBM并不会创造持续宽松环境,而是重置了"合理"模型规模的基准线——确保尽管芯片技术进步,容量和带宽始终是制约因素。本质上,AI芯片获得更多HBM时,开发者会立即构建更大模型来填满它,因此内存永远是下一个瓶颈。接下来让我们分析HBM的使用方式及压力点。
相关阅读
芯启未来,智创生态
