攀登HBM之巅：AI加速器的内存墙突围战（四）分层存储战略与推理范式变革

【编者按】

本文编译自SemiAnalysis，深入解码高带宽内存（HBM）的技术演进与产业变局。面对AI模型对内存容量与带宽的指数级需求，传统内存架构已构成严峻的"内存墙"。文章系统剖析HBM制造工艺的尖端突破（如TSV微孔、混合键合）、供应链权力博弈（三星困境、中国突围），并前瞻HBM4革命性变革——定制基础芯片将重构内存控制器、解锁"海岸线"带宽瓶颈，甚至实现内存内计算。通过揭示Nvidia、OpenAI等巨头的技术路线选择，本文为读者绘制了一幅穿透AI算力桎梏的技术突围地图。

HBM在推理中的应用

在大型语言模型（LLM）推理过程中，所有模型权重永久驻留在封装内HBM内存中，以便GPU能够无延迟地获取。除权重外，HBM还存储着KV缓存。每当模型需要生成下一个token时，GPU首先从HBM读取权重，同时检索整个KV缓存，以便在自注意力阶段将新token与会话历史进行比对。计算完成后，GPU会为新生成的token创建全新的键值对并追加至HBM，从而扩展缓存容量。这对带宽提出极高要求，因为每个token解码步骤都需要重复读取静态权重和持续增长的KV缓存。若内存带宽无法实现每秒数TB的数据传输，GPU将花费更多时间等待数据而非执行计算。现实中正存在这种情况——带宽需求显著压倒token解码的计算强度，使得大多数LLM推理任务受限于内存带宽而非计算能力。

随着模型演进，其时间跨度持续延长。这意味着模型能够进行更长时间的思考、规划和行动。这种增长呈现指数级态势，并已催生出更卓越的产品。例如OpenAI的深度研究模型单次思考时长可达数十分钟，而GPT-4仅能维持数十秒。

由于模型现已具备长时程推理能力，当上下文长度常规性突破数十万token时，内存容量压力呈爆发式增长。尽管近期技术进展已降低每个token生成的KV缓存量，内存约束仍在快速攀升。当前应对策略之一是采用更低批处理量服务推理模型，但这会损害经济性。

AI进步的核心驱动力来自强化学习（RL），而推理在该范式中占据重要地位。以RL所需满足严格要求的合成数据为例，往往需要投入数千GPU时的推理来生成数据，再由其他模型进行筛选。创意写作等难以验证的任务同样需要重度推理负载。与可轻松验证的代码不同，创意写作、法律文书和教学类内容无法简单评估。解决方案是引入另一个模型担任评判员——这种"LLM即法官"模式使用评估标准（目前人工编写但即将由LLM自动化）对答案进行分级。

KV缓存卸载技术

多种算法与架构优化方案应运而生以缓解稀缺HBM资源的压力。其中一项技术是将KV缓存卸载至更经济易得的存储层级，如传统DDR内存甚至存储设备。

目前KV缓存卸载已得到普遍应用。英伟达为此推出Dynamo分布式KV缓存管理框架。其概念与通用CPU的多级内存架构异曲同工：极速低容的L1/2/3缓存与低速高容的DRAM。在AI系统中，KV存储位置根据使用频率动态管理：优化系统将常用KV保留在HBM，次常用存于DDR，极罕用存于NVMe。

正如DRAM不会侵蚀CPU对L1/L2/3缓存的需求，HBM与DDR/SSD卸载并非直接竞争关系。事实上，对于现代LLM工作负载，预填充速度（即KV缓存生成速率）通常低于向DDR或NVMe SSD的传输速率，这意味着KV很少完全驻留HBM。它们被生成后即被驱逐或发送至解码节点用于生成下一token。通常仅保留每个用户均需使用的系统提示词在HBM中，以及活跃序列窗口等热点KV和预取缓冲区。

至于选择DDR还是NVMe，取决于工作负载的需求规模与循环频率。高循环频率的KV不适合写入次数有限的NAND闪存。当前采用工具调用的智能体用例需要在极低延迟和高循环速率下获取文档数据，这进一步推动缓存介质从NVMe转向DDR。这些架构与用户体验的权衡需具体考量，而非简单替换。

随着应用场景演进，不同推理需求可能采用不同硬件配置。例如查询固定代码库或文档的场景，由于单用户单GPU的KV缓存需求远超常规聊天，更适合采用大容量缓存方案。

HBM在预训练中的角色

传统预训练中，GPU前向与反向传播所需的所有数据都经由HBM传输。首先模型权重存储于HBM，各层在处理批量数据前向传播时可快速读取。当每层处理批次时，会将中间激活值写入HBM供后续使用。前向传播完成并计算损失后，反向传播启动：GPU重访存储的激活值与权重，从HBM读取以计算梯度。所得权重梯度及优化器辅助统计量（如Adam中的动量或方差项）也写入HBM。最终优化器从HBM读取这些梯度与统计量来更新权重，为下一迭代做准备。然而训练操作的计算需求相对数据传输更高，因此训练通常受计算能力限制。但如前所述，强化学习已成为提升模型能力的关键——传统通过预训练达成的目标，正逐渐转化为强化学习形式的推理任务。

本文后续将探讨OpenAI的ASIC项目、海岸线区域挑战、HBM4采用定制基板的革命性变革、物理层优势、内存控制器卸载、中继器物理层、LPDDR+HBM组合方案及多种前沿扩展技术，并将深入分析SRAM技术、内存下计算、供应链影响以及三星面临的挑战。

*原文媒体：SemiAnalysis

*原文作者：

Dylan Patel, Myron Xie, Tanj Bennett, Ivan Chiam, Jeff Koch

*原文链接：

https://semianalysis.com/2025/08/12/scaling-the-memory-wall-the-rise-and-roadmap-of-hbm/