当内存墙锁住算力,HBM是钥匙还是另一把锁?

机器之心 2026-06-28 09:30

本文来自PRO会员通讯内容,文末关注「机器之心PRO会员」,查看更多专题解读。

当内存墙锁住算力,HBM是钥匙还是另一把锁?图1

大语言模型的算力需求持续攀升,业界近年通过芯片架构迭代、先进封装和新型互连协议等路径扩大供给。数据从内存到计算单元的搬运速度远远落后于计算速度,差距在推理和训练两端同步放大,高带宽内存(HBM)是回应这一瓶颈的方向之一。供给格局、技术路线和产能规模三重约束正在同步收紧,一方面反映出产业共识正在收敛,另一方面研发资源向单一方向过度集中的隐忧也在浮现。


目录

01.  GPU 空转,数据搬运速度如何成为算力硬约束?

如何理解 GPU 总在「等」数据?一百倍增长的内存带宽如何应对暴涨六万倍的算力?...
02.  工艺分岔后,HBM 能否真的解决内存墙问题?
产能如何制约 HBM 的潜力?MR-MUF 与混合键合谁能走更远?供应商的产能垄断和工艺分化会将HBM 变成另一把锁吗?...
03. 绕开 HBM,算力空转有没有另一条出路?
CXL 池化、片上 SRAM、固化权重有机会绕开 HBM 吗?同时布局 HBM4 和 LPU 的英伟达在作何打算?...


GPU 空转,数据搬运速度如何成为算力硬约束?

1、2026 年,大语言模型的推理负载在总算力消耗中的占比已超过训练,推动算力基础设施的建设重心向推理侧转移,以承接持续攀升的算力需求。

① 推理侧算力需求的增速已超过硬件迭代速度,云厂商扩大的 GPU 采购量仍不足以覆盖消耗。GPU 的峰值算力不等于可用算力,数据搬运效率才是限制变量。[1-1] [1-2]

2、近期,业界在探索更优芯片架构的工作先后受制「内存墙」问题,即计算核心与外部内存之间的数据通路中数据搬运速度跟不上计算速度,并衍生出两种解决思路。「片上 SRAM 」试图缩短数据与计算核心的物理距离,「HBM 」则通过 3D 堆叠和硅中介层加宽数据通道。[1-1] [1-2] [1-3] [1-4]

① Agent 和多轮交互将单次模型调用次数放大了数十倍,推理负载的快速增长使得算力供给压力从计算单元向数据通路转移,数据从内存到计算单元的搬运速度正在成为限制性能的关键因素,即「内存墙」。

② 片上 SRAM 方向在计算核心附近放置高速缓存,数据搬运距离最短,带宽最高,但容量受限于芯片面积。

③ HBM 方向将 DRAM 通过硅中介层与 GPU 紧贴封装,以 3D 堆叠换取数据通道宽度,带宽较传统方案提升一个数量级以上。

3、「内存墙」问题在二十多年前就已存在,在当下 LLM 语境中,模型执行推理或训练时,算力单元大部分时间不在执行计算,而在等待数据从外部内存被搬运到位,进而它从技术讨论变成了产业瓶颈。[1-3] [1-4]

① 过去约二十年,处理器峰值算力增长约六万倍,DRAM 内存带宽同期增长约一百倍,互联带宽增长约三十倍,三条增长曲线之间形成了近三个数量级的差距。[1-3] [1-5] [1-6]

② 推理端解码阶段退化为 memory-bound,GPU 实际计算时间占比不足 20%;训练端 MFU 通常仅 30-50%,近半算力消耗在等待数据的空转上。Deloitte 在 2026 年 TMT 预测中给出了推理占比的变化轨迹,2023 年约三分之一,2025 年约一半,2026 年约三分之二,推理优化芯片 2026 年市场规模预计超过 500 亿美元。[1-1] [1-2] [1-7] [1-8] [1-9]

4、在解决「内存墙」的探索中,HBM 通过 3D 堆叠和硅中介层将 DRAM 紧贴 GPU 封装,带宽较传统显存方案提升一个数量级以上。然而,HBM 扩产节奏滞后于出货速度,制造环节的技术路线分歧同步放大供给端的不确定性,HBM 能否持续匹配算力增长节奏仍然存疑。[1-3] [1-4]

① 单颗 GPU 搭载的 HBM 容量已从早期的数 GB 增长至数百 GB,代际升级形成了稳定的带宽翻倍节奏。从 NVIDIA H100 的 HBM3(3.35 TB/s)到即将量产的 Vera Rubin 搭载 HBM4(288GB,带宽预计再次翻倍),代际升级直接提高了 GPU 实际完成的有效计算量。

② SK Hynix 全年 HBM 产能自 2025 年下半年起即告售罄,Samsung 与 Micron 的扩产进度各有滞后。HBM4 进入 16 层量产后,MR-MUF 与混合键合两条制造路线在良率和产能爬坡节奏上的差异进一步收紧了短期供给弹性。


工艺分岔后,HBM 能否真的解决内存墙问题?

过去三年,HBM 伴随 NVIDIA 的 GPU 代际更迭从高端配件变为 AI 算力链条中最紧缺的环节。HBM2E 搭载 A100、HBM3 随 H100 大规模放量,这一阶段的产业讨论集中在谁能通过认证、谁能稳定出货,所有供应商沿用统一的微凸块工艺路线。2026 年,HBM4 进入 16 层堆叠量产节点,制造环节出现工艺路线分化,产能扩张节奏滞后于需求增长,两条线索各自从不同方向收紧了供给...


 关注👇🏻「机器之心PRO会员」,前往「收件箱」查看完整解读 
当内存墙锁住算力,HBM是钥匙还是另一把锁?图2

更多往期专题解读内容,关注「机器之心PRO会员」服务号,点击菜单栏「收件箱」查看。

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
内存
more
DeepSeek V4 正式版高峰价格翻倍;豆包上线「豆包导航」功能;三星、美光海力士被告「操纵内存价格」 | 极客早知道
库克:内存压力大,苹果将涨价;传 DeepSeek 估值超 4000 亿;联想推 AI 主机 MINI,2999 元 | 极客早知道
内存暴涨271.79%,曝苹果iPhone 18 Pro起步价要涨不少
内存市场,暴涨400%
聊一聊:内存涨价后的设备你还愿意买吗?
【行情】手机内存有多贵?厂商CEO称甚至能占到整机BOM成本的一半
iPhone 18 或配备罕见的 9GB 内存,苹果刀法依旧!
因内存短缺,苹果官宣Mac、iPad等涨价;138.8万元起尊界S800典藏大观上市;曝奔驰在华裁员蔓延至研发和制造;阿里巴巴起诉美国防部...
AMD宣布:收购AI内存优化创企
早报|美伊签署谅解备忘录;库克:苹果将因内存短缺涨价;微信支付AI专属卡发布;星舰女王?SpaceX华裔女工程师辟谣
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号