AI算力产业链的重构(八):CXL技术驱动内存创新与基础设施变革

半导体产业研究 2025-11-14 17:11
AI算力产业链的重构(八):CXL技术驱动内存创新与基础设施变革图2
 

【编者按】

本文深度剖析了AI算力爆发背后的关键技术循环与产业链变局。文章聚焦于HBM(高带宽内存)的演进、内存墙的挑战、先进封装与光互联技术的突破,以及TSMC、NVIDIA、OpenAI等巨头在其中的战略定位。通过对2026年产业拐点的前瞻,揭示了算力、带宽、功耗与封装之间的深层耦合关系。这不仅是一场技术竞赛,更是一场涉及供应链、资本与地缘政治的全面重构。适合关注AI硬件、半导体与未来算力架构的读者深入阅读。

Marvell:CXL——通过Compute Express Link扩展和共享内存

CXL概述与原理

Marvell在其博客中指出,自20世纪50年代磁性内存发明和70年代DRAM问世以来,内存领域鲜有重大突破。CXL(Compute Express Link)代表了下一个重大飞跃。

AI算力产业链的重构(八):CXL技术驱动内存创新与基础设施变革图3

CXL设备利用现有的PCIe物理接口,为处理器的内存总线开辟并行通道,提供额外的通道和更高的数据吞吐量,以缓解拥挤内存结构的负担。

Structera A:近内存加速器

近内存加速器(Structera A)—— Marvell的Structera A是一种新型CXL近内存加速器,集成了16个Arm Neoverse V2核心,通过四个DDR5-6400通道提供200 GB/s的内存带宽,每个通道支持两个DIMM。

优势:

· 将一台Structera A插入x86服务器,可使核心数量增加25%(从64个增至80个),带宽提升50%(从400 Gbps增至600 Gbps),内存容量从2 TB扩展至6 TB,而功耗仅增加100 W。

· GB/s传输的能耗降低17%。

· 安装两台加速器可使核心数量增加50%,带宽翻倍,容量提升六倍。

机架级扩展:每个机架安装40台Structera A单元,可为现有服务器增加3,840个处理核心和24 Tbps的内存带宽——无需扩展数据中心占地面积,从而降低基础设施和冷却成本。

Structera X:内存扩展与DDR4重用

内存扩展控制器(Structera X)—— CXL使服务器能够连接外部内存扩展设备。Structera X支持DDR5或DDR4,带宽高达200 GB/s。DDR5版本每通道最多支持3个DIMM,容量超过6 TB;DDR4版本支持每通道3个DIMM,容量可达4 TB。

AI算力产业链的重构(八):CXL技术驱动内存创新与基础设施变革图4

DDR4重用示例:下一代服务器可能仅支持DDR5,但仍有大量退役的DDR4 DIMM。Structera X可通过CXL连接12个DDR4 DIMM,提供6 TB容量,或在使用LZ4压缩时高达12 TB。这降低了成本,延长了现有内存的使用寿命,并减少了电子废物。

AI算力产业链的重构(八):CXL技术驱动内存创新与基础设施变革图5

CXL的五个关键影响

1.加速DLRM和推理工作负载

CXL缓解了内存带宽瓶颈。Structera A在内存附近提供额外核心和高带宽,提高了深度学习推荐模型(DLRM)和其他推理任务的效率。

2.减少数据中心占地面积和基础设施成本

通过CXL扩展计算和内存,一个机架可实现多台服务器的容量,减少空间和冷却需求。

3.重用闲置内存

CXL通过Structera X实现DDR4内存的重用,允许每台服务器配置12个DIMM。压缩进一步提升了容量,减少了对昂贵DDR5采购的需求。

4.通过内存池提高资产利用率

CXL允许两个处理器共享一个Structera X内存扩展,形成内存池。微软估计约25%的服务器内存因绑定到单个CPU而闲置;CXL池化通过减少这种闲置容量,每年可节省5-9 TWh的数据中心电力。

5.遥测驱动操作

未来的CXL设备将包含遥测功能,以监控内存池和分布式系统,改进资源分配和预测性维护。

Marvell的观点

Marvell将CXL视为克服内存带宽和容量瓶颈的关键技术。

· Structera A为AI推理工作负载提供近内存计算和带宽。

· Structera X提供灵活的内存扩展,支持DDR5,同时实现成本效益高的DDR4重用。

· CXL的内存池化和遥测功能减少了闲置资源,提高了可持续性。

总之,这些特性实现了更可扩展、高效和灵活的AI基础设施,标志着数据中心内存系统的重大架构转变。

整合视角:Marvell的内存策略

Marvell的演示和博客文章来看,该公司的内存架构策略可总结为以下关键支柱:

1.优化内存层次结构的每一层

· 芯片级:

Marvell利用2纳米高密度SRAM结合先进电路技术,在提供超高带宽的同时降低功耗和面积。这些SRAM块充当XPU的缓存或暂存器,提高核心利用率和效率。

· 堆叠芯片级:

Marvell提出定制HBM,重新架构HBM基础芯片和I/O接口,并与Marvell专有的芯片到芯片(D2D)技术配对。这种方法释放了计算面积,降低了功耗,并支持未来的HBM标准,实现更灵活和针对应用定制的AI加速器。

· 系统级:

通过CXL,Marvell实现近内存加速和内存扩展,使用其Structera A/X产品支持推理、训练和数据库等各种工作负载。同时,跨服务器实现内存池化和灵活资源分配。

2.降低总拥有成本(TCO)

·通过降低SRAM Vmin、削减定制HBM中的I/O功耗,以及通过CXL实现内存重用,Marvell显著降低了整体功耗,有助于降低数据中心TCO。

·CXL扩展核心数量和内存容量,无需新的物理基础设施。通过Structera X重用DDR4 DIMM进一步节省采购和处置成本。

3.定制化和模块化

·Marvell预期未来在XPU、HBM、CXL控制器和NIC方面将有更多定制化。定制HBM是这一趋势的一部分,允许芯片设计针对特定应用需求进行微调。

·通过利用小芯片和D2D技术,计算和内存可以模块化,便于升级、灵活扩展,并在功耗、面积和性能之间优化权衡。

4.以内存为中心的数据中心演进

Marvell将高密度SRAM、定制HBM和CXL架构相结合,勾勒出以内存为先的数据中心演进路线图:

· 从硅级的比特单元创新,

· 到堆叠内存中的接口定制,

· 再到系统级的跨服务器内存共享。

AI算力产业链的重构(八):CXL技术驱动内存创新与基础设施变革图6

Marvell的信息很明确:“内存是唯一重要的”优化策略不仅满足了AI加速器对高带宽、低功耗内存的需求,还降低了数据中心的能源使用和成本,强调了内存架构创新在未来计算基础设施中的核心作用。

我们观察到,博通、Marvell Technology和多家AI芯片供应商正积极帮助主要云服务提供商(CSP)采用和集成先进封装技术。这一努力已远超越传统封装制造——现正转变为全系统级平台协作。

这些半导体供应商不仅在封装级别支持客户进行小芯片集成,还共同开发定制内存子系统,如定制HBM基础芯片、定制SRAM和高速缓存架构。这些定制设计优化了功耗、带宽和延迟,精确契合不同云计算平台的多样化架构需求。

AI算力产业链的重构(八):CXL技术驱动内存创新与基础设施变革图7

原文媒体:Substack

原文链接:https://tspasemiconductor.substack.com/p/the-infinite-ai-compute-loop-hbm

AI算力产业链的重构(八):CXL技术驱动内存创新与基础设施变革图8

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI 内存 驱动
more
双11配置推荐第三期:小内存又不是不能用!
理想回应MEGA 行驶中起火,车主发声/雷军谈K90定价质疑:内存涨价太多/苹果着手调查部分iPhone 17 Pro褪色
微软BitDistill将LLM压缩到1.58比特:10倍内存节省、2.65倍CPU推理加速
内存涨势超黄金,带飞1400亿存储巨头
高通挑战英伟达!发布768GB内存AI推理芯片,“出征”AI数据中心
【装机帮扶站】第1273期:内存价格大涨,抛开二手还有哪些便宜内存值得选?
内存巨头,大降价?
内存价格暴涨,聊聊游戏本是否要加内存
雷军回应K90价格质疑:内存涨价太多/OpenAI收购macOS AI工具Sky/车主回应MEGA上海起火:「电池包磕碰」属谣言
高通连发两款AI芯片,768GB大内存猛攻数据中心,股价飙升11%
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号