
【编者按】
本文选自SemiAnalysis,深度剖析了AMD在AI芯片领域的最新布局与挑战。文章详述了AMD通过开发者云降价、创新租赁模式(回租GPU)加速生态建设的策略,并深入对比了MI400系列采用“以太网UALink”(UALoE)替代原生UALink的权衡与潜在竞争力。最后,通过详尽的物料清单(BOM)和总体拥有成本(TCO)分析,量化展现了AMD产品在特定场景下的成本优势及其与NVIDIA的技术代差。整体呈现了一场围绕性能、成本、生态与战略的激烈AI芯片角逐战,重塑市场格局的博弈正在进行中。欢迎感兴趣的朋友订阅!
MI355X PyTorch 持续集成 (CI) 与测试
AMD 已开始着手为 MI355 芯片向 PyTorch 添加 CI 和自动化测试。请注意,目前还没有任何 MI355X 的 PR(Pull Request)被合并,但看到 AMD 从一开始就考虑开源 PyTorch MI355X CI 真是太好了。对于 Nvidia 来说,Blackwell 大规模交付已经过去六个月了,但他们尚未为开源 PyTorch 启动 CI,并且一直只专注于内部的 Blackwell CI。实际上,Meta 支付了 PyTorch CI 的大部分成本,每月支出超过 100 万美元,而 AMD 自己则为 AMD 上的开源 PyTorch CI 付费。尽管 Nvidia 迄今为止尚未为开源 PyTorch CI 捐赠有意义的资金或算力,但他们确实有计划通过捐赠大量来自 DGX Cloud 的计算积分以及捐赠从他们各种 Neocloud 提供商处租用的 GPU 容量给 Meta 开源 PyTorch 来做出贡献。
Nvidia 正在积极致力于添加开源 B200 PyTorch CI,并已承诺向 PyTorch 基金会捐赠 48 块 B200 用于 PyTorch CI 的目的。尽管每个人都希望从第 0 天起就有 CI,但在 PyTorch 中添加 Blackwell 开源 CI 晚了 6 个月总比没有好。我们对 AMD 缺乏 CI 的关注可能促使他们在这方面取得了重大进展。Nvidia 应该继续在 Blackwell 的 PyTorch CI 上投入更多资金。此外,他们的消费级 GPU 需要添加到 PyTorch 和流行推理库的 CI 中,以确保消费级 AI 的稳定性。目前,由于缺乏 CI 资源,Nvidia 消费级 GPU 在使用某些框架时会遇到一些不稳定的问题。
ROCm MLPerf 训练提交
上个月,AMD 提交了他们的首次 MLPerf Training 运行,用于单节点 Llama2 70B LoRA 微调和 BERT 训练。这是一个非常重要的发展,因为它证明了训练可以在单个 AMD 节点上运行。作为下一步,AMD 应该参与更多现实世界的训练基准测试,例如 MLPerf Llama 405B 多节点训练基准测试。我们认为他们可以在这个测试中展示有竞争力的结果。在基准测试方面,我们欣赏 AMD 如何通过为其 MLPerf 运行提供易于遵循的可复现说明来清晰地展示其解决方案何时运行良好。这与 Nvidia 的 MLPerf 提交形成对比,后者的复现非常困难。

MIG 分区正在浪费时间和工程资源
AMD 目前正在他们的一个旨在支持 GPU 分区的偏执项目上浪费大量工程资源和金钱。该项目将允许用户将单个 GPU 变成 8 个较小的 GPU。没有客户要求这个功能。Meta、OpenAI、x.AI 都没有要求这个,因为所有在线推理工作负载至少需要一个 GPU。我们认为 AMD 硬件工程师努力开发出每 GPU 拥有大量 HBM 的最先进芯片之一,却只想将这个 GPU 分成 8 部分,这是不合逻辑的。
事实上,Meta、OpenAI、x.AI 都希望与此相反,他们希望 AMD 通过使用 DeepEP 和解耦预填充(disaggregated prefill)等技术,更好地支持使用至少 16 个 GPU 的多节点推理。

MI355X 制造 – 更新的小芯片架构

AMD 利用 MI300 发布以来的两年时间完善了他们的小芯片架构。从上图中硅片可见,芯片布局已略有调整,基础有源中介层芯片 (Active Interposer Dies, AID) 从四个象限合并为两个光罩尺寸(reticle-sized)的半区。对 HBM 位置的微小调整已将结构支撑硅芯片从 HBM 位置之间移到了角落。
这对跨小芯片通信的好处是显而易见的,它消除了整个轴向上的 2.5D Infinity Fabric 先进封装(Advanced Package)链路,通过减少芯片边界穿越次数节省了功耗和面积。它还消除了 MI300 对角象限之间必须跨越芯片进行两次跳跃才能相互通信的双跳(two-hop)场景。
然而,这种安排也增加了对 3D 堆叠良率(yield)的额外重视。AMD 继续使用台积电(TSMC)的 SoIC 混合键合工艺,现在需要将两倍数量的加速器复合芯片(Accelerator Complex Dies, XCD)连接到每个基础芯片上,如果出现问题,可能会加剧良率损失和额外的硅浪费。AMD 选择这条路,说明了台积电 SoIC 流程的成熟度以及他们与 AMD 晶圆厂技术与运营团队作为 SoIC 领先客户超过五年的深厚合作关系。

虽然基础芯片仍采用台积电 N6 工艺,但已获得多项速度升级。剩余的芯片到芯片(die-to-die)链路已从 MI350 上等效 4.8TB/s 的双向带宽(bisection equivalent)升级到等效 5.5TB/s。用于纵向扩展(scale-up)的 Infinity Fabric 速度提升了 20%。更重要的是,内存控制器现在可以处理更快的 HBM3E。AMD 在 AID 和 HBM 连接上坚持使用久经考验的 CoWoS-S,并指出其封装面积(footprint)与 MI300 相同。
对于计算芯片,XCD 已从 N5 转向台积电的 N3P 节点,并采用下文详述的更新 CDNA4 架构。这次,AMD 仅在芯片上启用了 36 个计算单元(CU)中的 32 个,而 MI300 是 40 个中的 38 个。有趣的是,XCD 在 AID 上的方向发生了变化,数据键合焊盘(data bond pads)位于 AID 的中心区域。数据随后向外传输,通过 256MB 的末级内存附加缓存(Memory Attached Last Level, MALL),最后到达 HBM。
总体而言,新芯片拥有 1850 亿个晶体管,比 MI300 增加了 21%。我们估计每个 AID 大约有 230 亿个晶体管,每个 XCD 有 174 亿个晶体管。这意味着从 N5 到 N3P,晶体管预算增加了 30%。
CDNA4 微架构 (UArch)
AMD 的架构设计正逐渐从传统的 HPC 焦点转向为 AI 工作负载优化的方向。随着 CDNA 4,我们看到传统 HPC 的残余影响继续消退,因为 AMD 在架构方面更加转向 AI,尽管 CDNA4 仍然在 FP64 矩阵核心上浪费了大量芯片面积(floor area)。
CDNA 4 配备 256 个计算单元 (CUs),160 KB 的本地数据共享 (LDS – 相当于 SMEM),以及每个 CU 每个周期运行 4,096 次 FP16 运算的矩阵核心。与 CDNA 3 相比,CU 数量减少了 16%,LDS 容量增加了 1.5 倍,矩阵核心吞吐量增加了 2 倍。这些变化都是架构向具有更大阵列规模的 AI 工作负载收敛的迹象。HPC 工作负载通常受益于大量的 CU,而 AI 工作负载则受益于每个 CU 计算大型矩阵,这两种需求在功耗和面积预算上存在竞争。LDS 容量的增加表明矩阵核心速度如此之快,以至于 AMD 需要增加其二级缓冲区大小以足够快地为核心提供数据。鉴于 AMD 增加了 LDS 而不是典型的暂存缓冲区 VGPR(相当于 RMEM),我们怀疑下一代矩阵核心需要进行重大的架构更改才能继续扩展矩阵核心性能。
CDNA 4 在 FP8 上提供比 FP16 高 2 倍的吞吐量,在 FP4 上提供 4 倍的吞吐量。有趣的是,CDNA 4 的 FP6 吞吐量理论上与其 FP4 吞吐量相同,因为 FP6 和 FP4 共享数据路径。然而,由于实际环境中的功耗限制,FP6 吞吐量仍将略低于 FP4 吞吐量。这与 Nvidia Blackwell 不同,后者的 FP6 吞吐量标注与 FP8 相同。
然而,与 Nvidia 的 Blackwell 设计相比,CDNA 4 没有异步功能、数据传输加速硬件(如 sm90/sm100 TMA)、TMA 多播或专用内存(sm100 TMEM)。这导致 CDNA4 在每单位智能的皮焦耳(picoJoules per unit of intelligence)指标上比 Nvidia 的 SM100 更差。截至撰写本文时,我们仍在等待 ISA(指令集架构)的细节,以查看 MFMA 操作的变化,看看是否有等效于 WGMMA 的功能。话虽如此,CDNA 4 也表明需要这些功能来进一步提升性能,因此我们预计在 CDNA-NEXT 中会看到剧烈的架构变化。
*原文媒体:SemiAnalysis
*原文作者:Teng Hung Chen; Dylan Patel; Daniel Nishball; Wega Chu; Ivan Chiam; Patrick Zhou; Gerald Wong
*原文链接:
https://semianalysis.com/2025/06/13/amd-advancing-ai-mi350x-and-mi400-ualoe72-mi500-ual256/#
相关阅读
芯启未来,智创生态






