
【内容目录】
1.无法逾越的“内存墙”
2.HBM:昂贵的性能王者
3.存内计算(PIM)成打破“内存墙”利器
4.存内计算创业公司d-Matrix 的破局之道
5.堆叠式DRAM架构公司Saimemory的探索
6.其他创新探索:Groq、Tenstorrent及其他企业
7.中国台湾的非对称战略:MOSAIC计划
8.异构共存的多元化内存时代
9.结语
【湾芯展推荐】本文涉及的存储相关厂商

人工智能(AI)的爆炸性增长将半导体行业推向了一个关键的十字路口。一方面,AI模型对算力的需求似乎永无止境;另一方面,为这些强大处理器提供数据的能力却日益成为发展的瓶颈。高带宽内存(High-Bandwidth Memory, HBM)作为应对这一挑战的产物,已成为高性能AI加速器的标准配置。然而,其高昂的成本和集中的供应链也催生了一场关于其必要性的深刻辩论。
一、无法逾越的“内存墙”
在过去20年里,硬件的峰值浮点运算性能(FLOPS)增长了60,000倍,而DRAM的带宽仅增长了100倍 。对NVIDIA A100系统上GPT工作负载的性能剖析显示,内存密集型的通用矩阵向量乘法(GEMV)操作,尽管只占总浮点运算的一小部分,其延迟却可高达总生成延迟的80% 。这使得处理器性能与内存系统数据供给能力之间的鸿沟日益扩大。这一现象被称为“内存墙”(Memory Wall)。

*Source:Data from Amir Gholami
二、HBM:昂贵的性能王者

*典型的SiP封装结构
HBM通过硅中介层(interposer)和硅通孔(TSV)技术与处理器相连。这种设计提供了巨大的内存带宽(例如,NVIDIA的Blackwell B200 GPU可提供高达8 TB/s的带宽 ),并且相比传统的板上内存(如GDDR),其功耗也显著降低 。
凭借这些技术优势,HBM迅速成为高性能AI训练和推理芯片的标配。

Source
然而,HBM的成本在AI加速器的物料清单(BOM)中占据了惊人的比例。一项对NVIDIA GPU的成本分析显示,HBM内存占总成本的50%,而先进封装(如CoWoS)占30%。作为核心的逻辑裸片(GPU本身)成本仅占10% 。著名CPU架构大师、Tenstorrent公司CEO Jim Keller直言,设计出比NVIDIA更高效芯片的关键在于“舍弃HBM” 。这一观点精准地概括了驱动行业寻找替代方案的核心矛盾。
三、存内计算(PIM)成打破“内存墙”利器
面对HBM带来的经济和技术压力,业界正在积极探索一种颠覆性的替代方案——存内计算(Processing-in-Memory, PIM)。PIM旨在通过将计算单元移至数据所在之处,从根本上解决数据搬运瓶颈,有望重塑未来的计算架构。

*配备HBM-PIM和GPU的AI加速器

* PIM将计算单元直接集成到内存芯片中
三星引领行业,推出支持超大规模AI 的 HBM-PIM 和基于 CXL™ 的 PNM 技术,使用现有的内存解决方案,如果DRAM 容量和数据传输带宽无法充分支持超大规模人工智能模型,那么计算如此大量的数据可能会成为瓶颈。三星利用PIM(内存处理)和PNM(近内存处理)技术作为解决方案,应对了这些挑战。

*三星与 AMD :AMD Instinct™ Mi100 加速器中安装了 HBM-PIM
这些解决方案中的第一个是PIM 技术,它通过将部分数据计算工作从处理器转移到内存中来提高性能和能效。在没有 PIM 的系统中,处理器从内存调用并执行命令,然后将结果保存回内存(内存存储)。这需要来回移动大量数据,与处理数据相比,这会消耗更多的能量。PIM 通过减少 CPU 和内存之间的数据移动来优化此过程,从而提高 AI 加速器系统的性能和能效。对于需要高带宽内存的用户,很容易理解为什么将 HBM-PIM 付诸实践是一个很好的解决方案。
这种方法直接攻击了数据搬运这一核心瓶颈,因为数据搬运是延迟和能耗的主要来源。通过在内存中“原位”执行简单且高度并行的运算(如矩阵向量乘法),PIM极大地减少了对高功耗、高延迟的片外数据传输的依赖 。作为内存市场的领导者,三星和SK海力士正积极布局PIM技术,试图主导这一新兴领域。
在HBM成本高企和PIM生态尚在孕育的背景下,一批充满活力的创业公司正从根本上重新思考AI计算架构,试图完全绕过HBM瓶颈。
四、存内计算创业公司d-Matrix 的破局之道
d-Matrix是一家获得微软和SK海力士投资的美国创业公司,其核心技术是“数字存内计算”(Digital In-Memory Computing, DIMC)。该架构将乘法器等计算电路直接集成到片上内存(On-chip Memory)中,旨在满足LLM推理任务对海量内存带宽的需求 。
在性能方面,d-Matrix宣称其片上内存可提供高达150-300 TB/s的带宽,比HBM3/HBM4高出数十倍,同时成本和功耗更低 。其与GigaIO合作推出的最新解决方案,在处理Llama3-70B模型时,据称可达到每秒30,000个token的生成速度,交互速度比基于GPU的方案快10倍 。

d-Matrix的市场策略非常明确:专注于云端AI推理市场。公司正在通过其“Corsair”系列PCIe加速卡与OEM合作伙伴进行部署,并与GigaIO等系统集成商建立战略合作,旨在为企业提供高可扩展性、具备卓越总拥有成本(TCO)和能效的推理平台 。
五、堆叠式DRAM架构公司Saimemory的探索
Saimemory是一家备受瞩目的日本合资企业,由软银(SoftBank)、英特尔(Intel)和东京大学共同创立。其目标是开发一种全新的堆叠式DRAM架构,旨在成为HBM的直接、甚至更优越的替代品 。
该公司的技术目标极具雄心:实现比现有先进内存高出一倍以上的存储容量,将功耗降低40-50%,并大幅削减制造成本 。这项技术融合了东京大学的创新内存专利和英特尔深厚的设计经验,计划于2027年完成原型开发,并在2030年前实现商业化量产 。
Saimemory的成立具有重大的战略意义。对于日本而言,这是其重返DRAM市场、复兴国家半导体生态系统的关键一步。对于软银,它有望为其未来的AI数据中心提供一种专有的、高性价比的内存解决方案。而对于英特尔,这不仅是挑战HBM寡头垄断的机会,也是为其自有AI加速器积累下一代内存技术的战略布局 。
六、其他创新探索:Groq、Tenstorrent及其他企业
除了上述两家公司,一个更广泛的创新生态系统正在形成,它们从不同角度挑战着传统架构。
Groq: 由前谷歌TPU设计师创立,Groq开发了一种“张量流处理器”(Tensor Streaming Processor, TSP)。其核心设计理念是通过集成海量的片上SRAM来最大程度地减少对外部内存的访问,从而在LLM推理等任务中实现超低延迟 。
Tenstorrent: 在Jim Keller的领导下,Tenstorrent正在开发一种混合架构,将AI处理单元与小巧、灵活的RISC-V核心相结合,以更精细地管理内存访问模式。其明确目标就是通过避免使用HBM来设计出比NVIDIA更高效的芯片 。
光子互连: 以Celestial AI为代表的公司则从另一个维度解决问题。它们致力于开发光子互连(Photonic Interconnects)技术,利用光来传输数据,旨在“打破内存墙”,为实现更高带宽和更低能耗的数据传输开辟一条全新路径 。
对这些挑战者的分析揭示出,未来的AI内存市场并非简单的二元对立。HBM替代方案的创新版图呈现出一种“架构哲学的多样性”,而非单一技术的迭代。d-Matrix、Saimemory、Groq和Celestial AI等公司,它们并非都在解决同一个问题,而是代表了解决内存瓶颈的不同哲学思想和技术路径。
这种多样化的创新路径强烈地预示着,未来的AI计算和内存领域不会出现一个能够全面取代HBM的“唯一赢家”。相反,一个更加复杂、分散化和应用场景化的内存层级结构将会出现。
七、中国台湾的非对称战略:MOSAIC计划
面对巨头林立的市场,中国台湾采取了差异化的“非对称竞争”策略。通过整合其独特的半导体生态系统,ITRI和力积电(PSMC)联合开发MOSAIC 3D AI芯片,瞄准HBM“性能过剩且成本过高”的边缘计算和中端服务器市场。

MOSAIC计划不仅是一项技术战略,更是一项精明的产业和地缘政治策略。如果成功,它将证明,即使没有最顶尖的内存制造能力,一个地区也能通过生态系统整合和成熟制程创新,在AI硬件时代找到自己的一席之地。它将为其他国家或地区提供一个范本,展示如何利用自身独特的产业优势来对抗由资本密集型、先进制程驱动的巨头竞争模式。这一战略的成败,将最终取决于它能否构建一个足够强大和开放的合作生态系统 ,以抗衡竞争对手封闭但高效的垂直整合模式。
八、异构共存的多元化内存时代
未来已来,一个由单一内存技术主导所有AI应用的时代正在结束。取而代之的将是一个异构、多元的内存层级体系。HBM仍是顶级训练的王者,而PIM和其他新架构将在更广阔的推理和边缘市场中找到自己的位置。

九、结语
一个以单一内存解决方案主导所有高性能计算的时代正在结束。未来的AI内存版图将是一个异构且多元化的层级体系。我们将看到HBM用于训练,PIM内存用于高能效推理,专用的片上内存架构用于超低延迟应用,以及可能出现的新型堆叠DRAM和光子互连技术,它们将共存于一个系统中,并针对特定工作负载进行优化。
对于行业参与者而言,这意味着竞争的轴心正在转移。竞争不再仅仅是制造最快的芯片,而是转向系统级的协同设计、总拥有成本的优化,以及至关重要的——构建能够让这些复杂的新型硬件架构变得易于使用、并能创造价值的开放软件生态系统。能够驾驭这种复杂性的公司,将在下一轮AI硬件创新浪潮中脱颖而出。
*参考资料:
1.pubs.aip.org,Memory technology enabling future computing systems - AIP Publishing
2.semiengineering.com,Data Movement Is the Energy Bottleneck of Today's SoCs - Semiconductor Engineering
3.ibm.com,What Is Edge AI? | IBM
4.globenewswire.com,Memory and Storage Technology Research Report 2025: High Bandwidth Memory Set to Dominate DRAM Market by 2030 Amid AI Boom and 3D NAND Advancements - Long-term Forecast to 2036 - GlobeNewswire
5. xenonstack.com,Edge AI with Agentic AI for Distributed Intelligence - XenonStack
6. soitec.com,Soitec and PSMC collaborate on ultra-thin TLT technology for nm-scale 3D stacking
7. globenewswire.com,Soitec and PSMC collaborate on ultra-thin TLT technology for nm-scale 3D stacking
相关阅读
芯启未来,智创生态






