攀登HBM之巅:AI加速器的内存墙突围战(五)OpenAI逆向策略,HBM4时代的带宽决胜战

半导体产业研究 2025-08-26 08:00

资讯配图

资讯配图
资讯配图

【编者按】

本文编译自SemiAnalysis,深入解码高带宽内存(HBM)的技术演进与产业变局。面对AI模型对内存容量与带宽的指数级需求,传统内存架构已构成严峻的"内存墙"。文章系统剖析HBM制造工艺的尖端突破(如TSV微孔、混合键合)、供应链权力博弈(三星困境、中国突围),并前瞻HBM4革命性变革——定制基础芯片将重构内存控制器、解锁"海岸线"带宽瓶颈,甚至实现内存内计算。通过揭示Nvidia、OpenAI等巨头的技术路线选择,本文为读者绘制了一幅穿透AI算力桎梏的技术突围地图。

带宽胜过容量
尽管所有加速器都竭力设计能够搭载的最大容量HBM,但我们了解到OpenAI的ASIC项目将打破这一趋势。OpenAI选择使用8层堆叠的HBM4,而非16层甚至12层堆叠方案。由于主要内存厂商技术路线图中已不再提及8层堆叠方案,这种配置原本预计将被淘汰——12层堆叠方案最早将于明年成为行业标准。这一选择值得关注,因为这是首次出现追求芯片性能的客户主动要求降低规格配置。
这是因为OpenAI发现8层堆叠方案能在给定成本下提供更优的带宽容量比。内存容量固然重要,但在推理场景中带宽往往才是关键制约因素。采用8层堆叠方案可使OpenAI获得相同带宽,但每堆栈成本降低超50%。其推理架构采用的高秩专家并行策略缓解了对内存容量的需求——通过将独立模型专家分布到更多GPU上执行,稀疏化分布的专家在带宽仍是瓶颈的同时,为KV缓存留出了更充裕的内存空间。
这并非免费午餐,其中存在权衡:扩大计算集群规模并将工作负载分散到更多GPU上会对网络架构提出更高要求,这已成为全行业采用高秩专家并行策略时共同面临的取舍,也印证了I/O性能始终是根本性要素。但不应将此解读为顶尖实验室对HBM容量增长趋势的否定。OpenAI将更专注于改进软件、微架构及系统级网络协同,使自研方案在性能/总拥有成本方面能与商用解决方案竞争。降低内存成本是在不损害其他改进领域的前提下减少投资的有效方式,而通过增加堆叠层数提升容量相对容易。在此期间OpenAI仍将依赖GPU:Rubin Ultra架构将提供充沛容量,因为模型架构师必将尝试利用这些额外容量提取更多智能。选择较低容量对OpenAI而言是探索加速器成本性能权衡的更经济、低风险路径。
最终HBM需求将同时受用户行为和加速器设计者架构决策的影响——即他们认为在芯片生命周期内,HBM内存容量/带宽与浮点运算能力的最优平衡点。鉴于4年生命周期特性,设计者需考量工作负载的演进趋势,做出能灵活适应不同模型架构推理与训练需求的设计选择。
拓展珍贵"海岸线"
我们已讨论过带宽的重要性——但为何难以简单增加带宽?
这是因为总I/O数量受芯片海岸线(chip shoreline)或称芯片"边缘"的限制。这片边缘区域极具价值,是硅片外置I/O相关电路的布局区域,通常包含内存控制器(用于主机与DRAM之间的数据传输)以及多种序列化/反序列化器(SerDes)——例如普遍采用的PCIe协议:这种标准化通用协议用于与系统内其他XPU处理器、存储设备和网卡进行数据传输。
评估不同接口协议性能时,可依据特定传输距离下的相对海岸线密度指标。更高性能的物理层电路(PHY)能在其占据的每毫米珍贵海岸线上提供更大带宽。AI芯片出货量领先者同时拥有最先进的高速网络IP并非偶然——这对吞吐量驱动型系统至关重要。这也是超大规模数据中心运营商倾向于与博通、美满电子合作获取高速SerDes IP的核心原因。
要增加I/O数量,关键在于同时最大化海岸线总面积与密度。获取充足的海岸线资源本身即是影响封装设计的关键因素。鉴于市场对内存带宽和容量的需求永无止境,加速器设计者必须进行权衡,以平衡分配给HBM和片外I/O的海岸线资源。
资讯配图
如图所示,采用2×2光罩尺寸芯片以方阵排列的四SOC配置并不理想,因为其可用海岸线相对于硅片面积的占比低于单排布局的计算芯片。这种配置仅能支持8个HBM堆栈,与Blackwell等双SOC多芯片模块(MCM)设计类似——相对于计算能力,可用内存带宽和容量减半。
资讯配图
鉴于AI工作负载通常受内存限制而非计算限制,这种权衡实属次优选择。因此Rubin Ultra封装采用单排SOC布局形成更狭长的外形,通过增加边缘空间实现HBM位点数量翻倍。
资讯配图
基于最大化有限海岸线资源的需求,I/O和海岸线的重要性对HBM配置产生三大影响:
1.采用供应链中可行且可获取的最快速、最密集HBM方案
2.单加速器的HBM容量受XPU可用海岸线资源制约
3.HBM堆栈内部存在未开发的海岸线潜力,从HBM4代开始可释放这部分资源
HBM4带来的革命性变革
HBM4将在总线宽度、外形尺寸、定制化与"标准"现成方案等多个层面引发根本性架构变革。HBM的高带宽特性源于其1024位超宽内存总线(相比其他64位DRAM的16倍I/O能力)。单堆栈总线由多个HBM核心芯片上的通道组成。目前HBM3与HBM3E采用16个64位通道结构,每通道包含两个近乎独立的伪通道。
HBM4的重大变革在于总线宽度将从1024位翻倍至2048位。内存制造商将更依赖拓宽总线而非提升引脚速率来驱动带宽增长。JEDEC表示已就6.4Gbps速率达成初步协议,这意味着最高可达1.6TB/s带宽,约为峰值速率9.2Gbps的HBM3E的1.5倍。更宽总线需要更多TSV面积,因此芯片尺寸将较HBM2E-3E增大20%。
资讯配图
*原文媒体:SemiAnalysis
*原文作者:
Dylan Patel, Myron Xie, Tanj Bennett, Ivan Chiam, Jeff Koch
*原文链接:
https://semianalysis.com/2025/08/12/scaling-the-memory-wall-the-rise-and-roadmap-of-hbm/

相关阅读

攀登HBM之巅:AI加速器的内存墙突围战(一)AI算力之争的核心引擎与未来内存革命
攀登HBM之巅:AI加速器的内存墙突围战(二)晶圆暗战与供应链博弈
攀登HBM之巅:AI加速器的内存墙突围战(三)堆叠竞赛与吞吐量革命
攀登HBM之巅:AI加速器的内存墙突围战(四)分层存储战略与推理范式变革

资讯配图

芯启未来,智创生态

湾芯展2025与您相约!

资讯配图

资讯配图


资讯配图

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI 内存
more
聊一台「64GB大内存」的主流价位笔电
狐聊 | 你的手机内存够用吗
继HBM之后,英伟达带火又一AI内存模组!颠覆AI服务器与PC
【硬件资讯】NVIDIA:我还是喜欢你桀骜不驯的样子,你恢复一下。传三星曾拒绝NVIDIA提议,现在降价希望售出更多HBM3内存
【硬件资讯】HBM4之战提前打响?三星直接锁定下一代HBM内存,本月将向AMD、NVIDIA交付样品!
512GB!四款“捡漏价”大内存手机
Transformer危!谷歌MoR架构发布:内存减半推理速度还翻倍
主流厂商揭秘下一代无线SoC:AI加速、内存加量、新电源架构等
特斯拉餐厅开业翻车,Win11新功能曝光,SK海力士成最大内存制造商,央视曝光电动车智能服务问题,这就是今天的其他大新闻!
国内存储主控芯片厂商将易主?
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号