
【编者按】
本文深度剖析了AI算力爆发背后的关键技术循环与产业链变局。文章聚焦于HBM(高带宽内存)的演进、内存墙的挑战、先进封装与光互联技术的突破,以及TSMC、NVIDIA、OpenAI等巨头在其中的战略定位。通过对2026年产业拐点的前瞻,揭示了算力、带宽、功耗与封装之间的深层耦合关系。这不仅是一场技术竞赛,更是一场涉及供应链、资本与地缘政治的全面重构。适合关注AI硬件、半导体与未来算力架构的读者深入阅读。
Marvell:CXL——通过Compute Express Link扩展和共享内存
CXL概述与原理
Marvell在其博客中指出,自20世纪50年代磁性内存发明和70年代DRAM问世以来,内存领域鲜有重大突破。CXL(Compute Express Link)代表了下一个重大飞跃。

CXL设备利用现有的PCIe物理接口,为处理器的内存总线开辟并行通道,提供额外的通道和更高的数据吞吐量,以缓解拥挤内存结构的负担。
Structera A:近内存加速器
近内存加速器(Structera A)—— Marvell的Structera A是一种新型CXL近内存加速器,集成了16个Arm Neoverse V2核心,通过四个DDR5-6400通道提供200 GB/s的内存带宽,每个通道支持两个DIMM。
优势:
· 将一台Structera A插入x86服务器,可使核心数量增加25%(从64个增至80个),带宽提升50%(从400 Gbps增至600 Gbps),内存容量从2 TB扩展至6 TB,而功耗仅增加100 W。
· 每GB/s传输的能耗降低17%。
· 安装两台加速器可使核心数量增加50%,带宽翻倍,容量提升六倍。
机架级扩展:每个机架安装40台Structera A单元,可为现有服务器增加3,840个处理核心和24 Tbps的内存带宽——无需扩展数据中心占地面积,从而降低基础设施和冷却成本。
Structera X:内存扩展与DDR4重用
内存扩展控制器(Structera X)—— CXL使服务器能够连接外部内存扩展设备。Structera X支持DDR5或DDR4,带宽高达200 GB/s。DDR5版本每通道最多支持3个DIMM,容量超过6 TB;DDR4版本支持每通道3个DIMM,容量可达4 TB。

DDR4重用示例:下一代服务器可能仅支持DDR5,但仍有大量退役的DDR4 DIMM。Structera X可通过CXL连接12个DDR4 DIMM,提供6 TB容量,或在使用LZ4压缩时高达12 TB。这降低了成本,延长了现有内存的使用寿命,并减少了电子废物。

CXL的五个关键影响
1.加速DLRM和推理工作负载
CXL缓解了内存带宽瓶颈。Structera A在内存附近提供额外核心和高带宽,提高了深度学习推荐模型(DLRM)和其他推理任务的效率。
2.减少数据中心占地面积和基础设施成本
通过CXL扩展计算和内存,一个机架可实现多台服务器的容量,减少空间和冷却需求。
3.重用闲置内存
CXL通过Structera X实现DDR4内存的重用,允许每台服务器配置12个DIMM。压缩进一步提升了容量,减少了对昂贵DDR5采购的需求。
4.通过内存池提高资产利用率
CXL允许两个处理器共享一个Structera X内存扩展,形成内存池。微软估计约25%的服务器内存因绑定到单个CPU而闲置;CXL池化通过减少这种闲置容量,每年可节省5-9 TWh的数据中心电力。
5.遥测驱动操作
未来的CXL设备将包含遥测功能,以监控内存池和分布式系统,改进资源分配和预测性维护。
Marvell的观点
Marvell将CXL视为克服内存带宽和容量瓶颈的关键技术。
· Structera A为AI推理工作负载提供近内存计算和带宽。
· Structera X提供灵活的内存扩展,支持DDR5,同时实现成本效益高的DDR4重用。
· CXL的内存池化和遥测功能减少了闲置资源,提高了可持续性。
总之,这些特性实现了更可扩展、高效和灵活的AI基础设施,标志着数据中心内存系统的重大架构转变。
整合视角:Marvell的内存策略
从Marvell的演示和博客文章来看,该公司的内存架构策略可总结为以下关键支柱:
1.优化内存层次结构的每一层
· 芯片级:
Marvell利用2纳米高密度SRAM结合先进电路技术,在提供超高带宽的同时降低功耗和面积。这些SRAM块充当XPU的缓存或暂存器,提高核心利用率和效率。
· 堆叠芯片级:
Marvell提出定制HBM,重新架构HBM基础芯片和I/O接口,并与Marvell专有的芯片到芯片(D2D)技术配对。这种方法释放了计算面积,降低了功耗,并支持未来的HBM标准,实现更灵活和针对应用定制的AI加速器。
· 系统级:
通过CXL,Marvell实现近内存加速和内存扩展,使用其Structera A/X产品支持推理、训练和数据库等各种工作负载。同时,跨服务器实现内存池化和灵活资源分配。
2.降低总拥有成本(TCO)
·通过降低SRAM Vmin、削减定制HBM中的I/O功耗,以及通过CXL实现内存重用,Marvell显著降低了整体功耗,有助于降低数据中心TCO。
·CXL扩展核心数量和内存容量,无需新的物理基础设施。通过Structera X重用DDR4 DIMM进一步节省采购和处置成本。
3.定制化和模块化
·Marvell预期未来在XPU、HBM、CXL控制器和NIC方面将有更多定制化。定制HBM是这一趋势的一部分,允许芯片设计针对特定应用需求进行微调。
·通过利用小芯片和D2D技术,计算和内存可以模块化,便于升级、灵活扩展,并在功耗、面积和性能之间优化权衡。
4.以内存为中心的数据中心演进
Marvell将高密度SRAM、定制HBM和CXL架构相结合,勾勒出以内存为先的数据中心演进路线图:
· 从硅级的比特单元创新,
· 到堆叠内存中的接口定制,
· 再到系统级的跨服务器内存共享。

Marvell的信息很明确:“内存是唯一重要的”。优化策略不仅满足了AI加速器对高带宽、低功耗内存的需求,还降低了数据中心的能源使用和成本,强调了内存架构创新在未来计算基础设施中的核心作用。
我们观察到,博通、Marvell Technology和多家AI芯片供应商正积极帮助主要云服务提供商(CSP)采用和集成先进封装技术。这一努力已远超越传统封装制造——现正转变为全系统级平台协作。
这些半导体供应商不仅在封装级别支持客户进行小芯片集成,还共同开发定制内存子系统,如定制HBM基础芯片、定制SRAM和高速缓存架构。这些定制设计优化了功耗、带宽和延迟,精确契合不同云计算平台的多样化架构需求。

原文媒体:Substack
原文链接:https://tspasemiconductor.substack.com/p/the-infinite-ai-compute-loop-hbm
