

【编者按】
本文编译自SemiAnalysis,深入解码高带宽内存(HBM)的技术演进与产业变局。面对AI模型对内存容量与带宽的指数级需求,传统内存架构已构成严峻的"内存墙"。文章系统剖析HBM制造工艺的尖端突破(如TSV微孔、混合键合)、供应链权力博弈(三星困境、中国突围),并前瞻HBM4革命性变革——定制基础芯片将重构内存控制器、解锁"海岸线"带宽瓶颈,甚至实现内存内计算。通过揭示Nvidia、OpenAI等巨头的技术路线选择,本文为读者绘制了一幅穿透AI算力桎梏的技术突围地图。
定制化基础晶片
如今,高带宽内存(HBM)中的基础晶片设计极为简单:采用DRAM工艺内部制造,使用常规平面CMOS晶体管,制程节点至多相当于22纳米。尽管HBM是高端高性能产品,其基础晶片的实现却远称不上先进:仅以实现内存与主机XPU间最基础的接口功能为目标。这些低性能晶体管限制了物理层接口(PHY)的信号传输能力,导致信号只能以低速进行固定且单向的传输。标准PHY的速度远低于我们在尖端逻辑芯片中看到的先进PHY。
基础晶片面积略大于内存晶片,约为105平方毫米,但实际用于功能实现的区域仅有一半(虽可满足需求但远非最优),包含:与主机XPU对接的PHY、位于中央的硅通孔(TSV)组,以及预留用于测试的直接存取焊球区域。
这就是当前的基本方案。尽管HBM是高端高性能产品,其基础晶片却仅提供最低限度的功能而无更多延伸。这仍是内存制造商以成本为主导思维的结果。HBM基础晶片中存在大量未开发的潜力,而随着HBM4及后续技术的演进,这些潜力将得以释放。

海力士HBM3E基础晶片
首先,基础晶片将转向现代逻辑工艺。三星可以凭借其逻辑/晶圆代工能力制造这类晶片,但这超出了海力士和美光等纯内存制造商的内部分能力范围,因此该制造将由台积电承担。台积电已确认将提供两种HBM4基础晶片版本,分别采用N12和N3制程,这将显著降低功耗(尽管对系统整体功耗预算的减少非常有限)。海力士和美光也不具备尖端逻辑设计能力,因此需要先进逻辑设计公司或IP供应商协助完成这些设计。
通过多种定制化基础晶片配置,可更大程度利用基础晶片面积以增添重要功能。回顾之前关于“海岸线”重要性的讨论——当前HBM基础晶片上存在大量未开发的“海岸线”资源,这一潜力将从HBM4开始释放。
我们预计英伟达和AMD将在HBM4阶段推出定制化HBM方案,而其他加速器设计厂商可能要到2027年左右的HBM4E阶段才会实现定制基础晶片。
我们认为这些定制基础晶片将提供三大主要功能:内存控制器卸载、海岸线扩展以及基础晶片内计算。以下我们来探讨这些可能性。
深入布线层:更优的物理层接口(PHY)
当前基础晶片设计问题的核心在于与主机对接的PHY。HBM采用标准DDR物理层接口,使用基于DRAM工艺制造的平面晶体管。这些低性能晶体管限制了PHY的信号传输能力,导致信号只能以低速进行固定且单向的传输。
以UCIe为例,其带宽密度可达10 Tbps/mm,几乎是HBM3E海岸线效率(约0.7 Tbps/mm)的15倍,同时每比特能耗也更低。UCIe常被嘲为速度太慢的接口——这反衬出先进DDR PHY的落后程度。
像Eliyan这样的公司公开宣传其NuLink互连技术用于HBM4基础晶片,因此未来可能有多种选择。合理来看,UCIe很可能作为基线改进方案投入应用,因为它已证明可实现10倍的海岸线效率提升。
Marvell是首家公开定制HBM基础晶片解决方案的公司,其主要改进在于采用仅占用1/4海岸线的D2D PHY,从而释放硅面积用于其他功能。

海力士HBM3E基础晶片
目前HBM3E将95%的每比特能耗用于数据传输和I/O接口,仅有不到5%用于DRAM读写操作。采用更高效接口可轻易实现显著优化。点对点连接相比传统的DDR半双总线可降低每比特能耗。命令可移至互联架构以减少通道数。读取通道可能多于写入通道,反映出读取流量普遍高于写入的倾向。
这些改进在JEDEC等DRAM论坛中已讨论多年,但一直受限于DRAM芯片上晶体管的低速性能。供应商有充分理由坚持沿用已有30年经验的DDR风格接口,尽管存在晶体管限制。然而,当基础芯片介入后,这些限制不再适用。基础芯片可能采用5nm等先进逻辑工艺的低成本版本,显然所有先进的PHY方案都可实现。
此外,基础芯片紧贴高度不足1毫米的硅通孔(TSV)下方,PHY只需跨越极短距离。即使采用DRAM工艺晶体管,也有可能实现更高频率的信号传输系统,如已验证的GDDR可达32 Gbps比特率,从而在短距离内以更低每比特能耗驱动更快数据传输。高堆叠TSV在信号质量方面存在一些挑战,但显然存在利用智能现代基础芯片寻求改进的动力。HBM4将彻底改变我们连接DRAM的方式。
内存控制器卸载

GH100 GPU晶片侧面设有12个用于对接和控制相邻HBM的内存控制器
另一个容易实现的优化是将内存控制功能卸载至基础晶片。内存控制器通常位于主机XPU上,负责与外部内存对接。控制器发出来自主机的读写指令。每次传输还需多条命令控制内存单元:均衡、激活、感测使能、数据传输(以1纳秒间隔顺序重复)及关闭。这些控制命令独立于主机。这些操作消耗功耗,并因DRAM控制指令从主机芯片发送至内存芯片时共享接口线路而导致操作间竞争。

HBM3E控制器架构框图
理论上,主机并非放置内存控制器的理想位置:主机采用最昂贵的硅晶圆,且距离DRAM芯片较远。实践中由于在DRAM单元旁制造先进逻辑电路的复杂性,内存控制器一直置于主机。当然,次优方案是HBM下方配备逻辑基础晶片,且从HBM4开始该基础晶片将采用先进逻辑工艺制造。这为另一种更优方案创造条件:将主机互联架构扩展至外部接口。简单的加载和存储命令可从主机传递至HBM基础芯片,随后基础芯片凭借更廉价的逻辑和更紧密的DRAM集成,能够以更少瓶颈和更低能耗执行DRAM控制。
基础芯片上遵循加载和存储语义的内存控制器在实现上具有高度灵活性。互联架构允许灵活时序,支持缓存以加速部分读取操作并隐藏部分写入延迟。它甚至可使基础芯片处理更大的地址空间,第一层分配给正上方的HBM芯片,第二层则超出HBM封装范围。
https://semianalysis.com/2025/08/12/scaling-the-memory-wall-the-rise-and-roadmap-of-hbm/
相关阅读
芯启未来,智创生态
