HBM4内存白皮书:引领AI算力变革的带宽突破引擎

半导体产业研究 2025-11-28 17:19

 

引言

人工智能/机器学习的快速规模化,特别是大语言模型和多模态生成式人工智能的发展,对内存带宽和容量提出了日益严峻的要求。模型规模已呈数量级增长,训练集群已扩展至数十万个加速器。大量分析表明,人工智能训练的主要限制因素在于内存带宽和通信能力,而非单纯的计算峰值性能。

HBM4内存白皮书:引领AI算力变革的带宽突破引擎图2

人工智能模型的演进伴随着显著的架构变迁,这些变迁驱动了性能与规模的提升。深度学习的早期突破主要由卷积神经网络引领,该类网络擅长通过局部特征提取处理图像等空间数据。尽管 CNN 在视觉任务中表现卓越,但其对固定感受野的依赖限制了其捕捉长距离依赖关系的能力,使其不太适用于序列化或上下文密集型数据。

Transformer 架构的引入通过以自注意力机制取代循环和卷积,彻底改变了该领域。这使得模型能够有效捕捉全局上下文,从而在自然语言处理及其他领域取得突破。然而,这种灵活性亦带来代价:Transformer 的计算复杂度随序列长度呈二次方增长,导致模型规模和计算需求激增。最先进模型的参数量从数百万增至数十亿,如今已达数万亿,因为更大的模型在各种任务中持续展现出更优性能。

为应对日益增长的计算负担,研究人员引入了混合专家架构。MoE 模型采用稀疏激活策略,即对于任何给定输入,仅激活部分"专家"(专用子网络)。该方法在不成比例增加推理成本的前提下,显著提升了总参数量,使得拥有数千亿乃至数万亿参数的模型能够高效运行。这意味着从密集缩放转向条件计算,在性能增益与实际资源约束之间取得平衡。

第一部分:HBM 内存架构

高带宽内存自 2013 年推出,是一种高性能的 2.5D/3D 内存架构。HBM 的初始理念是采用宽数据通路(1024 位)并运行在"较低"的数据速率下,从而以低功耗实现高带宽。鉴于其卓越的带宽和紧凑的物理尺寸,它已成为先进人工智能工作负载的首选内存解决方案。

"3D"部分直观易见。HBM 内存是封装器件中的 3D DRAM 堆栈。"2.5D"指的是 HBM 内存器件连接到处理芯片(无论是 GPU 还是 AI 加速器)的方式。每个 HBM 内存器件与处理器之间的数据通路需要 1024 "导线"或迹线(在HBM4 中,此数量提升至 2048)。加上命令与地址、时钟等所需信号,必要迹线数量增至约 1700 根。

上千根迹线远非标准 PCB 所能支持。因此,采用硅中介层作为连接内存器件与处理器的中间层。如同集成电路一样,可在硅中介层上蚀刻细间距迹线,以满足 HBM 接口所需的导线数量。HBM 器件与处理器被安装在中介层顶部,此即所谓的 2.5D 架构。

HBM4内存白皮书:引领AI算力变革的带宽突破引擎图3

第二部分:HBM4 有何不同?

HBM4  HBM 标准的第四代主要版本,首次采用 2048 位宽接口,宽度为前几代的两倍。随着时间的推移,我们观察到带宽、3D 堆叠高度和 DRAM 芯片密度均呈上升趋势。这意味着每次标准升级都带来更高的性能和更大的器件容量。

HBM 问世时数据速率为 1 Gb/s,最多支持 8 层高的16 Gb 容量芯片 3D 堆叠。至 HBM3,数据速率提升至 6.4 Gb/s,并可支持 16 层高的 32 Gb 容量 DRAM 堆叠。主要DRAM 制造商推出了 HBM3E 器件,将数据速率推升至9.6 Gb/sJEDEC 发布的 HBM4 标准其最高数据速率略低,为 8 Gb/s,但凭借 2048 位接口,其每器件带宽能力提升至超过 2 TB/s

HBM4内存白皮书:引领AI算力变革的带宽突破引擎图4

HBM 带宽与容量对比

HBM4 还在功耗、内存访问和 RAS 方面引入了相较于 HBM3E/3 的增强功能。

• 功耗:HBM4 支持灵活的电压选项以提升能效。
• 核心电压:1.0  1.05 V
• 信号电压:0.70.750.8  0.9V
这些可调范围允许系统设计人员针对目标应用工作负载平衡性能与功耗。
• 通道架构:HBM4  2048 位宽的数据通道划分为 32  64 位通道或      64  32 位伪通道。这相比 HBM3E/3  16  64 位通道和      32  32 位伪通道,数量翻倍。

• 可靠性、可用性、可服务性:HBM4 显著增强了 RAS 能力
• 通过定向刷新管理增强 ECC,改进了防止行锤击干扰的能力
• DRFM 允许定向刷新,以更有效地缓解行锤击漏洞
• 多档 VDDC  VDDQ 电压水平支持更优的热管理和功耗管理
•  HBM3E/3 控制器的向后兼容性,简化了集成与可服务性
• 扩展的遥测功能,包含每通道温度和电压传感器,支持更精细的监控
• 通道级和芯片级遥测,实现更精确的诊断
• 增强的边带遥测,适用于更高速的接口和更多的遥测寄存器
• 集成热节流和预测性热管理功能
• 高级错误日志记录,包括行锤击检测和刷新追踪(通过 DRFM

第三部分:Rambus HBM4 内存控制器

Rambus HBM4 内存控制器针对高带宽和低延迟进行了优化,以紧凑的外形和高效的功耗,为 AI 训练提供卓越的性能和灵活性。

Rambus HBM4 内存控制器将支持的信号传输速率提升至 10.0 Gb/s(高于标准速率 8.0 Gb/s),提供了设计余量和未来扩展性。该接口具有 32 个独立通道,每个通道包含 64 位,总数据宽度为 2048 位。在最大数据速率下,为每个连接的 HBM4 内存器件提供总计 2560 GB/s  2.56 TB/s 的接口带宽吞吐量。

HBM4内存白皮书:引领AI算力变革的带宽突破引擎图5

Rambus HBM4 控制器提供高达 10.0 Gb/s 的性能

该控制器内核使用简单的本地接口接收命令,并将其转换为 HBM4 器件所需的命令序列。该内核还执行所有初始化、刷新和掉电功能。内核将多个命令排队存储在命令队列中。这使得无论是针对高度随机地址位置的短传输,还是针对连续地址空间的长传输,都能实现最优的带宽利用率。命令队列还用于机会性地执行预激活、预充电和自动预充电,从而进一步提高整体吞吐量。重排序功能完全集成在控制器命令队列中,提高了吞吐量并最小化了门数量。

其他关键特性包括:

• 支持 HBM4 内存器件
• 支持所有标准 HBM4 通道密度(最高 32 Gb
• 支持高达 10.0 Gb/s/引脚
• 支持定向刷新管理
• 通过前瞻命令处理最大化内存带宽并最小化延迟
• 集成重排序功能
• 以最小布线约束实现高时钟频率
• 自刷新和掉电低功耗模式
• 支持 HBM4 RAS 特性
• 内置硬件级性能活动监控器
• DFI兼容
• 端到端数据奇偶校验
• 支持与用户逻辑的 AXI 或原生接口连接
• 提供完整的附加内核选项,包括多端口前端、ECC 内核
• 与目标 HBM4 PHY 完全集成并经过验证后交付

结论

凭借在紧凑、高容量的外形下提供无与伦比的内存带宽,HBM 已成为 AI/ML 及其他高性能计算工作负载的首选内存。HBM4 作为该标准的最新世代,将带宽提升至 2 TB/s,并有望实现更高扩展。

Rambus HBM4 控制器为 HBM4 提供业界领先的支持,性能高达 10.0 Gb/s。借助该解决方案,设计人员可获得更高的余量和可扩展性,为每个连接的 HBM4 内存器件实现高达 2.56 TB/s 的吞吐量。


原文出处:Rambus

HBM4内存白皮书:引领AI算力变革的带宽突破引擎图6

 

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI 内存
more
融资超20亿,这家“非GPU”芯片公司跻身国产AI算力第一梯队
OpenAI首席研究员Mark Chen长访谈:小扎亲手端汤来公司挖人,气得我们端着汤去了Meta
英特尔聚合生态力量,共塑AI NAS新格局:酷睿Ultra驱动智慧本地算力与存储创新
华大九天:AI、并购、反内卷,国内EDA工具全流程更进一步
AI for Science,走到哪一步了?
首款豆包AI手机售罄:二手价最高超万元,租赁单日报价600 元
探路者6.78亿收购双芯企:瞄准Mini LED和AI赛道
估值7.5亿美元初创意欲「撬动」8000亿半导体市场?前谷歌AlphaChip主导者创业研发「AI芯片设计自动化」
一句话生成应用!灵光AI已被网友玩疯,两周狂产330万
北京AI芯片四强出炉,非GPU阵营占三席!国产算力格局要变天?
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号