攀登HBM之巅:AI加速器的内存墙突围战(八)海岸线扩张:I/O小芯片破局与内存下计算新纪元

半导体产业研究 2025-08-29 08:00

资讯配图

资讯配图
资讯配图

【编者按】

本文编译自SemiAnalysis,深入解码高带宽内存(HBM)的技术演进与产业变局。面对AI模型对内存容量与带宽的指数级需求,传统内存架构已构成严峻的"内存墙"。文章系统剖析HBM制造工艺的尖端突破(如TSV微孔、混合键合)、供应链权力博弈(三星困境、中国突围),并前瞻HBM4革命性变革——定制基础芯片将重构内存控制器、解锁"海岸线"带宽瓶颈,甚至实现内存内计算。通过揭示Nvidia、OpenAI等巨头的技术路线选择,本文为读者绘制了一幅穿透AI算力桎梏的技术突围地图。

海岸线扩张:I/O扩展
在AI加速器中,由于HBM通常已占用芯片两侧的"海岸线",剩余两侧则用于片外I/O:正如我们在上文GH100示例中所见,一侧用于PCIE接口,另一侧是NVLink接口。与内存类似,片外带宽同样受这种海岸线限制的约束,在AI加速器中这种限制更为突出——因为与其他计算引擎相比,AI加速器有一半甚至更多的海岸线专用于内存,而其他计算引擎 dedicated 的内存专用海岸线较少。
延续二级内存的相似理念,可以在HBM后方扩展海岸线,将IO小芯片安置在HBM堆栈背后。HBM基础晶圆将通过桥接技术把数据传输到后方的IO小芯片。这些IO小芯片可以是各种SerDes小芯片(如支持NVLink、ICI、UaLink、PCIE的型号),或是共封装光引擎以实现光学尺度扩展。这个极具前景的创新概念最初由初创公司Eliyan演示实现,采用其专有的NuLink PHY技术及其提出的行业标准接口"UMI"(通用内存接口)。
资讯配图
 这些I/O引擎或小芯片可部署在基板上,若需要更高带宽则可采用中介层方案。具体配置有多种可能,但核心原理都是通过扩展海岸线来增加I/O能力,并提升内存与封装外I/O配比的灵活性。上图示意了在每个HBM堆栈后方部署一个224G SerDes小芯片的方案。需要注意的是,由于SerDes小芯片可后置设计,理论上无需为片外I/O保留XPU的两个边缘,从而实现HBM全面环绕主海岸线的布局。假设每个I/O小芯片配备8通道224G SerDes,12个小芯片可额外提供2.4TB/s单向带宽,同时还能增加4组HBM位点——相比逐渐成为行业标准的2颗SOC加8组HBM配置具有显著优势。
资讯配图
 当然,这需要采用性能更强的PHY技术来处理数据传输:既要满足通过SerDes小芯片和光引擎传输的封装外数据需求,还要处理封装内内存的读写操作。
SRAM
基础晶圆将采用比主XPU更成熟、成本更低的制程。但近年来SRAM密度在先进节点中提升有限。例如,采用3nm工艺的基础晶圆既能实现优异SRAM密度,成本又低于2nm XPU。若拥有额外可用空间,基础晶圆适合承载哪些SRAM密集型功能?
一种可能性是在将HBM用作一级缓存时,将缓存标签置于基础晶圆上。我们将在Repeater PHY章节详细探讨这一点。
另一种方案是将SRAM组织为内存侧缓存(MSC)。MSC比其他缓存更简单,因其不参与一致性协议。对系统其他部分而言,它就像HBM内存的组成部分。系统会认为数据存储在HBM的某个地址——系统的一致性资源正是基于这种认知进行追踪。
然而,基础芯片实际上可能通过预取或延迟写入等加速技术缓存某些数据。预取可利用堆栈内更高带宽预测XPU的未来请求,而无需提交至外部接口。延迟写入则允许高优先级读取操作插队到写入操作之前,确保外部接口优先处理最高优先级任务,即使有低优先级写入请求在队列中等待。通过简单的旁路检查机制,可以正确读取队列中待写入地址的最新值。
基础芯片上的SRAM还是实现其他功能的关键组成部分,例如卸载内存控制器负担以及在内存附近运行计算任务。
基础晶圆面积约120平方毫米,需符合HBM标准封装规格。其中约40平方毫米可用于SRAM,其余空间需容纳边缘Serdes、硅通孔Serdes以及内存控制逻辑。采用包含单比特纠错功能的标准IP完整阵列时,典型密度为20Mb/平方毫米,这意味着可提供约80MB可用SRAM。具体容量取决于其他逻辑所需空间——这个数字只是为了帮助理解可能的资源规模。
内存下计算
基础晶圆上的计算功能将受热限制制约。堆叠其上的多层DRAM会阻碍热量流动,且任何泄漏到DRAM芯片的热点计算都会增加漏电流,引发刷新率和干扰效应问题。
只有低功耗、对带宽敏感的任务才适合在此处理。张量重排序(步幅调整、扁平化、重塑等AI工作负载持续执行的操作)是理想选择。基础晶圆可从所有存储体将张量读入SRAM进行本地重组,仅将所需切片传回XPU,避免了在整个HBM总线上传输完整张量。这既释放了主机上昂贵的SRAM和逻辑资源,又减轻了推理过程中常成为瓶颈的总线流量。
其他几种以数据为核心的计算内核也符合相同模式。滤波器(如硬件"grep"模式匹配或最近邻向量相似性搜索)可通过微型状态机实现,这些状态机以内存速度运行且功耗极低。通过字典映射值或提取JSON字段的转换操作(类似于Unix awk)同样受益于在数据旁直接进行文本重组。轻量级块压缩虽可行,但其效益取决于数据压缩率以及增加的复杂度是否合理。最后,简单归约操作(例如就地累加结果的32位整数加法)可充分利用HBM带宽而不超出热预算;浮点求和可能更具挑战性,但这个概念表明:在带宽最高的地方处理16GB地址空间的归约操作正是最佳选择。
*原文媒体:SemiAnalysis
*原文作者:
Dylan Patel, Myron Xie, Tanj Bennett, Ivan Chiam, Jeff Koch
*原文链接:

https://semianalysis.com/2025/08/12/scaling-the-memory-wall-the-rise-and-roadmap-of-hbm/


相关阅读

攀登HBM之巅:AI加速器的内存墙突围战(一)AI算力之争的核心引擎与未来内存革命
攀登HBM之巅:AI加速器的内存墙突围战(二)晶圆暗战与供应链博弈
攀登HBM之巅:AI加速器的内存墙突围战(三)堆叠竞赛与吞吐量革命
攀登HBM之巅:AI加速器的内存墙突围战(四)分层存储战略与推理范式变革
攀登HBM之巅:AI加速器的内存墙突围战(五)OpenAI逆向策略,HBM4时代的带宽决胜战
攀登HBM之巅:AI加速器的内存墙突围战(六)定制基础晶片,打破能效瓶颈,重塑内存架构
攀登HBM之巅:AI加速器的内存墙突围战(七)基片物理层扩展引爆二级内存架构革命

资讯配图

芯启未来,智创生态

湾芯展2025与您相约!

资讯配图

资讯配图


资讯配图

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI 内存 芯片
more
蚂蚁专用模型超越o3!仅用2K训练样本刷新医疗AI榜单纪录
网络安全运营迈向AI时代 战场天平将被如何重塑?
学会动态丨CAAI走进高校@大学生科技社团支持计划落地中山大学
刚刚,Ilya一个神秘动作!OpenAI全员狂欢:AGI来了
【公益案例展】某3C精密电子——智慧厂务能碳系统+暖通AI智控应用
300万用户靠它谈“AI恋爱”?Janitor AI挤进全球AI应用百强
突发!微软与OpenAI同日开火:语音之战+通用大模型,AI霸权决战打响
【AI】马斯克Grok-4卖货创收碾压GPT-5!AI卖货排行榜曝光,AGI的尽头是卖薯片?
展商直击 | 迈存信息亮相2025世界人工智能大会,AI算力解决方案引关注
薛澜教授入选《时代》周刊2025年度AI领域最具影响力100人
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号