引言
人工智能/机器学习的快速规模化,特别是大语言模型和多模态生成式人工智能的发展,对内存带宽和容量提出了日益严峻的要求。模型规模已呈数量级增长,训练集群已扩展至数十万个加速器。大量分析表明,人工智能训练的主要限制因素在于内存带宽和通信能力,而非单纯的计算峰值性能。

人工智能模型的演进伴随着显著的架构变迁,这些变迁驱动了性能与规模的提升。深度学习的早期突破主要由卷积神经网络引领,该类网络擅长通过局部特征提取处理图像等空间数据。尽管 CNN 在视觉任务中表现卓越,但其对固定感受野的依赖限制了其捕捉长距离依赖关系的能力,使其不太适用于序列化或上下文密集型数据。
Transformer 架构的引入通过以自注意力机制取代循环和卷积,彻底改变了该领域。这使得模型能够有效捕捉全局上下文,从而在自然语言处理及其他领域取得突破。然而,这种灵活性亦带来代价:Transformer 的计算复杂度随序列长度呈二次方增长,导致模型规模和计算需求激增。最先进模型的参数量从数百万增至数十亿,如今已达数万亿,因为更大的模型在各种任务中持续展现出更优性能。
为应对日益增长的计算负担,研究人员引入了混合专家架构。MoE 模型采用稀疏激活策略,即对于任何给定输入,仅激活部分"专家"(专用子网络)。该方法在不成比例增加推理成本的前提下,显著提升了总参数量,使得拥有数千亿乃至数万亿参数的模型能够高效运行。这意味着从密集缩放转向条件计算,在性能增益与实际资源约束之间取得平衡。
第一部分:HBM 内存架构
高带宽内存自 2013 年推出,是一种高性能的 2.5D/3D 内存架构。HBM 的初始理念是采用宽数据通路(1024 位)并运行在"较低"的数据速率下,从而以低功耗实现高带宽。鉴于其卓越的带宽和紧凑的物理尺寸,它已成为先进人工智能工作负载的首选内存解决方案。
"3D"部分直观易见。HBM 内存是封装器件中的 3D DRAM 堆栈。"2.5D"指的是 HBM 内存器件连接到处理芯片(无论是 GPU 还是 AI 加速器)的方式。每个 HBM 内存器件与处理器之间的数据通路需要 1024 根"导线"或迹线(在HBM4 中,此数量提升至 2048)。加上命令与地址、时钟等所需信号,必要迹线数量增至约 1700 根。
上千根迹线远非标准 PCB 所能支持。因此,采用硅中介层作为连接内存器件与处理器的中间层。如同集成电路一样,可在硅中介层上蚀刻细间距迹线,以满足 HBM 接口所需的导线数量。HBM 器件与处理器被安装在中介层顶部,此即所谓的 2.5D 架构。

第二部分:HBM4 有何不同?
HBM4 是 HBM 标准的第四代主要版本,首次采用 2048 位宽接口,宽度为前几代的两倍。随着时间的推移,我们观察到带宽、3D 堆叠高度和 DRAM 芯片密度均呈上升趋势。这意味着每次标准升级都带来更高的性能和更大的器件容量。
HBM 问世时数据速率为 1 Gb/s,最多支持 8 层高的16 Gb 容量芯片 3D 堆叠。至 HBM3,数据速率提升至 6.4 Gb/s,并可支持 16 层高的 32 Gb 容量 DRAM 堆叠。主要DRAM 制造商推出了 HBM3E 器件,将数据速率推升至9.6 Gb/s。JEDEC 发布的 HBM4 标准其最高数据速率略低,为 8 Gb/s,但凭借 2048 位接口,其每器件带宽能力提升至超过 2 TB/s。

HBM 带宽与容量对比
HBM4 还在功耗、内存访问和 RAS 方面引入了相较于 HBM3E/3 的增强功能。
这些可调范围允许系统设计人员针对目标应用工作负载平衡性能与功耗。
第三部分:Rambus HBM4 内存控制器
Rambus HBM4 内存控制器针对高带宽和低延迟进行了优化,以紧凑的外形和高效的功耗,为 AI 训练提供卓越的性能和灵活性。
Rambus HBM4 内存控制器将支持的信号传输速率提升至 10.0 Gb/s(高于标准速率 8.0 Gb/s),提供了设计余量和未来扩展性。该接口具有 32 个独立通道,每个通道包含 64 位,总数据宽度为 2048 位。在最大数据速率下,为每个连接的 HBM4 内存器件提供总计 2560 GB/s 或 2.56 TB/s 的接口带宽吞吐量。

Rambus HBM4 控制器提供高达 10.0 Gb/s 的性能
该控制器内核使用简单的本地接口接收命令,并将其转换为 HBM4 器件所需的命令序列。该内核还执行所有初始化、刷新和掉电功能。内核将多个命令排队存储在命令队列中。这使得无论是针对高度随机地址位置的短传输,还是针对连续地址空间的长传输,都能实现最优的带宽利用率。命令队列还用于机会性地执行预激活、预充电和自动预充电,从而进一步提高整体吞吐量。重排序功能完全集成在控制器命令队列中,提高了吞吐量并最小化了门数量。
其他关键特性包括:
结论
凭借在紧凑、高容量的外形下提供无与伦比的内存带宽,HBM 已成为 AI/ML 及其他高性能计算工作负载的首选内存。HBM4 作为该标准的最新世代,将带宽提升至 2 TB/s,并有望实现更高扩展。
Rambus HBM4 控制器为 HBM4 提供业界领先的支持,性能高达 10.0 Gb/s。借助该解决方案,设计人员可获得更高的余量和可扩展性,为每个连接的 HBM4 内存器件实现高达 2.56 TB/s 的吞吐量。
原文出处:Rambus
