攀登HBM之巅：AI加速器的内存墙突围战（八）海岸线扩张：I/O小芯片破局与内存下计算新纪元

【编者按】

本文编译自SemiAnalysis，深入解码高带宽内存（HBM）的技术演进与产业变局。面对AI模型对内存容量与带宽的指数级需求，传统内存架构已构成严峻的"内存墙"。文章系统剖析HBM制造工艺的尖端突破（如TSV微孔、混合键合）、供应链权力博弈（三星困境、中国突围），并前瞻HBM4革命性变革——定制基础芯片将重构内存控制器、解锁"海岸线"带宽瓶颈，甚至实现内存内计算。通过揭示Nvidia、OpenAI等巨头的技术路线选择，本文为读者绘制了一幅穿透AI算力桎梏的技术突围地图。

海岸线扩张：I/O扩展

在AI加速器中，由于HBM通常已占用芯片两侧的"海岸线"，剩余两侧则用于片外I/O：正如我们在上文GH100示例中所见，一侧用于PCIE接口，另一侧是NVLink接口。与内存类似，片外带宽同样受这种海岸线限制的约束，在AI加速器中这种限制更为突出——因为与其他计算引擎相比，AI加速器有一半甚至更多的海岸线专用于内存，而其他计算引擎 dedicated 的内存专用海岸线较少。

延续二级内存的相似理念，可以在HBM后方扩展海岸线，将IO小芯片安置在HBM堆栈背后。HBM基础晶圆将通过桥接技术把数据传输到后方的IO小芯片。这些IO小芯片可以是各种SerDes小芯片（如支持NVLink、ICI、UaLink、PCIE的型号），或是共封装光引擎以实现光学尺度扩展。这个极具前景的创新概念最初由初创公司Eliyan演示实现，采用其专有的NuLink PHY技术及其提出的行业标准接口"UMI"（通用内存接口）。

这些I/O引擎或小芯片可部署在基板上，若需要更高带宽则可采用中介层方案。具体配置有多种可能，但核心原理都是通过扩展海岸线来增加I/O能力，并提升内存与封装外I/O配比的灵活性。上图示意了在每个HBM堆栈后方部署一个224G SerDes小芯片的方案。需要注意的是，由于SerDes小芯片可后置设计，理论上无需为片外I/O保留XPU的两个边缘，从而实现HBM全面环绕主海岸线的布局。假设每个I/O小芯片配备8通道224G SerDes，12个小芯片可额外提供2.4TB/s单向带宽，同时还能增加4组HBM位点——相比逐渐成为行业标准的2颗SOC加8组HBM配置具有显著优势。

当然，这需要采用性能更强的PHY技术来处理数据传输：既要满足通过SerDes小芯片和光引擎传输的封装外数据需求，还要处理封装内内存的读写操作。

SRAM

基础晶圆将采用比主XPU更成熟、成本更低的制程。但近年来SRAM密度在先进节点中提升有限。例如，采用3nm工艺的基础晶圆既能实现优异SRAM密度，成本又低于2nm XPU。若拥有额外可用空间，基础晶圆适合承载哪些SRAM密集型功能？

一种可能性是在将HBM用作一级缓存时，将缓存标签置于基础晶圆上。我们将在Repeater PHY章节详细探讨这一点。

另一种方案是将SRAM组织为内存侧缓存（MSC）。MSC比其他缓存更简单，因其不参与一致性协议。对系统其他部分而言，它就像HBM内存的组成部分。系统会认为数据存储在HBM的某个地址——系统的一致性资源正是基于这种认知进行追踪。

然而，基础芯片实际上可能通过预取或延迟写入等加速技术缓存某些数据。预取可利用堆栈内更高带宽预测XPU的未来请求，而无需提交至外部接口。延迟写入则允许高优先级读取操作插队到写入操作之前，确保外部接口优先处理最高优先级任务，即使有低优先级写入请求在队列中等待。通过简单的旁路检查机制，可以正确读取队列中待写入地址的最新值。

基础芯片上的SRAM还是实现其他功能的关键组成部分，例如卸载内存控制器负担以及在内存附近运行计算任务。

基础晶圆面积约120平方毫米，需符合HBM标准封装规格。其中约40平方毫米可用于SRAM，其余空间需容纳边缘Serdes、硅通孔Serdes以及内存控制逻辑。采用包含单比特纠错功能的标准IP完整阵列时，典型密度为20Mb/平方毫米，这意味着可提供约80MB可用SRAM。具体容量取决于其他逻辑所需空间——这个数字只是为了帮助理解可能的资源规模。

内存下计算

基础晶圆上的计算功能将受热限制制约。堆叠其上的多层DRAM会阻碍热量流动，且任何泄漏到DRAM芯片的热点计算都会增加漏电流，引发刷新率和干扰效应问题。

只有低功耗、对带宽敏感的任务才适合在此处理。张量重排序（步幅调整、扁平化、重塑等AI工作负载持续执行的操作）是理想选择。基础晶圆可从所有存储体将张量读入SRAM进行本地重组，仅将所需切片传回XPU，避免了在整个HBM总线上传输完整张量。这既释放了主机上昂贵的SRAM和逻辑资源，又减轻了推理过程中常成为瓶颈的总线流量。

其他几种以数据为核心的计算内核也符合相同模式。滤波器（如硬件"grep"模式匹配或最近邻向量相似性搜索）可通过微型状态机实现，这些状态机以内存速度运行且功耗极低。通过字典映射值或提取JSON字段的转换操作（类似于Unix awk）同样受益于在数据旁直接进行文本重组。轻量级块压缩虽可行，但其效益取决于数据压缩率以及增加的复杂度是否合理。最后，简单归约操作（例如就地累加结果的32位整数加法）可充分利用HBM带宽而不超出热预算；浮点求和可能更具挑战性，但这个概念表明：在带宽最高的地方处理16GB地址空间的归约操作正是最佳选择。

*原文媒体：SemiAnalysis

*原文作者：

Dylan Patel, Myron Xie, Tanj Bennett, Ivan Chiam, Jeff Koch

*原文链接：

https://semianalysis.com/2025/08/12/scaling-the-memory-wall-the-rise-and-roadmap-of-hbm/