AMD推进AI之路(三):关键客户采用、租赁市场破局与ROCm 7跃升

半导体产业研究 2025-06-19 18:45

【编者按】

本文选自SemiAnalysis,深度剖析了AMD在AI芯片领域的最新布局与挑战。文章详述了AMD通过开发者云降价、创新租赁模式(回租GPU)加速生态建设的策略,并深入对比了MI400系列采用“以太网UALink”(UALoE)替代原生UALink的权衡与潜在竞争力。最后,通过详尽的物料清单(BOM)和总体拥有成本(TCO)分析,量化展现了AMD产品在特定场景下的成本优势及其与NVIDIA的技术代差。整体呈现了一场围绕性能、成本、生态与战略的激烈AI芯片角逐战,重塑市场格局的博弈正在进行中。欢迎感兴趣的朋友订阅!

超大规模云服务商与AI实验室采用新的AMD产品

尽管围绕MI355机架如何营销的讨论有些可笑,但我们关于总体拥有成本(TCO)以及强大的每TCO潜在性能的观点显然引起了超大规模云服务商和大型AI实验室客户的共鸣,我们看到这些客户展现出强烈的参与度和良好的订单势头。

AWS是AMD“Advancing AI”活动的冠名赞助商,并且现在将首次认真投入采购和部署AMD GPU以进行大规模租赁。

Meta,通常在涉及AMD时专注于推理用例,现在也开始在AMD上进行训练。他们是72 GPU机柜背后的关键推动力,并将采用MI355X和MI400。Meta的PyTorch工程师现在甚至也在开发AMD Torch,而不仅仅是AMD的工程师在做这项工作。

对于OpenAI,Sam Altman在AMD活动上登台亮相。OpenAI欣赏AMD在我们第一篇对AMD和Nvidia进行基准测试的文章之后行动速度快了很多。

xAI将使用这些即将推出的AMD系统进行生产推理,从而扩大AMD的存在感。过去,只有一小部分的保护推理使用AMD,大部分工作负载在Nvidia系统上运行。

GCP正在与AMD洽谈,但他们的讨论已经持续了相当一段时间。我们认为AMD应该让GCP加入他们提供给少数关键新云(Neocloud)的相同交易——即通过承诺回租算力以满足AMD内部研发需求,来引导AMD租赁产品的启动。

Oracle,在快速部署新云容量方面显然是一个开拓者,也计划部署30,000个MI355X。微软是唯一一个保持观望的超大规模云服务商,仅订购了少量MI355,不过它对部署MI400持积极态度。

这些超大规模云服务商中的许多都拥有大量的风冷数据中心,这源于其传统的数据中心设计架构,鉴于MI355X在性能/TCO方面极具吸引力的主张,他们非常乐意采用风冷的MI355X。总体而言,我们预计所有这些超大规模云服务商都将部署MI355,并且其中许多还将继续部署真正的机柜级解决方案MI400。

AMD解决其新云租赁市场的弱点

提高AMD采用率的主要挑战之一是,目前专注于AMD的新云(Neocloud)数量极少,相比之下,专注于Nvidia的新云超过一百家。这种供应稀缺以及租赁市场产品缺乏多样性导致AMD GPU租赁价格被人为抬高,侵蚀了AMD GPU的整体成本竞争力。

2025年第二季度至今,H200的现行1个月期合约租赁价格约为每小时每GPU 2.50美元,存在较大差异且低质量云的价格更低。租用MI325X的1个月合约根本不存在。租用MI300X的1个月合约定价为每小时2.50美元,这使得MI300X在租赁方面与H200相比缺乏竞争力。下面,我们列出了为了使MI300X和MI325X在租赁方面与Nvidia H200具有竞争力,其近似的1个月租赁价格需要达到的水平。该分析在很大程度上基于我们的实际推理基准测试。

对于推理推理任务(1k输入,4k输出),MI300X的1个月合约价格需要低于每小时2.10-2.40美元,才能使其在每美元性能上与H200具有竞争力。MI325X需要定价在每小时每GPU 2.75美元到3.00美元之间(取决于交互性),才能具有竞争力。这是一个没有任何AMD新云能在不经大量谈判的情况下提供的价格范围,这意味着Nvidia目前在租赁的每美元性能上胜出,部分原因是这种市场效率低下。

进入高速档——AMD正在加速发展AMD新云生态系统

直到几个月前,AMD并不十分专注于推动其产品在新云生态系统内实现更强劲的增长,也没有为GPU云提供足够的激励措施,使其愿意承担托管AMD GPU以及可能无法将其租出的风险。在过去的几个月里,AMD领导层认识到建立一个健康的新云生态系统非常重要,因为这有助于提高开发者的采用率,并有助于压低虚高的AMD GPU租赁价格。最终结果是最终用户获得更高的每美元性能,以及更多熟悉AMD并能回馈更广泛的AMD生态系统的开发者。

为此,AMD为AWS、OCI、Digital Ocean、Vultr、Tensorwave、Crusoe和其他新云提供了极佳的激励措施,以支持这些超大规模云服务商和新云采用AMD并降低其业务案例的风险。AMD达成的交易是:作为客户愿意购买更多AMD GPU的交换,AMD将以长期合约的形式回租其中很大一部分容量,用于AMD内部的软件开发目的。这类似于Nvidia如何已经从GCP、OCI、AWS、Azure、CoreWeave回租大型GPU集群以满足其庞大的内部计算需求。对于某些新云,AMD提供激励措施以完全消除投资案例的风险,即如果新云无法完全售出其容量,AMD自身将作为后盾从他们那里租用。我们知道目前有许多新云正在探索与AMD的潜在合作伙伴关系,并被提供类似的激励结构。

有了这些激励措施——可以说,这些新云通过与AMD合作,可以建立比那些仅在短期基础上租赁Nvidia集群并承担相当大的价格和占用风险的同行风险更低的业务案例。

AMD开发者云的推出也是使AMD计算能力以具有竞争力的价格普遍可用的关键策略。作为此次发布的一部分,AMD大幅降低了租用MI300X GPU的价格,使更广泛的开发者群体能够更容易地获取。不幸的是,在我们测试时,其默认配额设置为零个GPU,并且很难获得GPU配额的增加。我们建议AMD将新用户的默认配额至少设置为16个MI300X GPU,以便更有效地将开发者引入其生态系统。由于AMD开发者云按需价格设定在更合理的每小时每GPU 1.99美元,我们预计提供按需MI300服务的AMD新云可能需要将其目前每小时每GPU 3美元的高价位下调至2美元以匹配。

ROCm软件改进

AMD发布了专注于推理能力和性能的ROCm 7。在推理吞吐性能方面,AMD宣称ROCm 7相比ROCm 6平均提升3.5倍,并且在服务DeepSeek R1时,ROCm7相比Nvidia B200提升1.3倍。我们期待验证这些说法。

AMD也致力于与开放生态系统合作开发分布式推理。除了支持推理框架vLLM和SGLang外,AMD还支持编排框架llm-d(Nvidia Dynamo的替代方案),以实现分布式推理技术PD分解(PD disaggregation)。llm-d栈仍然缺少相当多能提供与Nvidia Dynamo KVCache管理器相同功能的特性。KVCache管理器非常重要,因为它能为推理工作负载带来巨大的TCO收益,在许多推理工作负载上可解锁数倍的吞吐量提升。

ROCm对内核编写库Triton的支持在过去几个版本中也得到了极大改善。ROCm去年实现了对Triton的功能性支持,而ROCm 7则专注于性能提升。我们希望AMD继续努力,并扩展对诸如FlexAttention等高级特性的支持。

最近,字节跳动Seed创建了Triton Distributed,这是一个基于Triton的库,能够实现计算与GPU通信的重叠。AMD对Triton Distributed表现出极大兴趣,并已谈及提供更多支持。然而,目前尚不清楚OpenAI(Triton的维护者)是否会接受将字节跳动的Triton Distributed特性贡献回原始Triton库。OpenAI有可能正在走自己的路,为Triton实现分布式计算-通信内核。

此外,考虑到对中国芯片出口的严格限制,字节跳动可能会减少为西方GPU开源库做贡献。话虽如此,字节跳动正在大力投资AMD,我们预计他们将租用相当数量的基于AMD的GPU容量。不过,字节跳动仍将主要处于Nvidia阵营,因为他们计算能力扩张的最大份额将来自租用基于Nvidia的容量。字节跳动的大部分计算能力要么来自云租赁,要么来自位于中国以外的大规模专用裸机集群,而且他们的大部分新云和云提供商仍然主要依赖Nvidia的计算能力。

在更底层,AMD声称他们正在整合流行的数据传输接口Mooncake Transfer Engine和专家并行通信库DeepEP。然而,截至撰写本文时,我们仍未在任何开源的ROCm仓库中看到DeepEP或Mooncake。

AMD宣布了其开发者云和开发者积分计划。除了提供申请计算资源访问的简单界面外,AMD还创建了Python包“rocm”,方便开发者安装ROCm PyTorch、ROCm库(如HipBL最后,AS)以及这些ROCm库的开发工具。所有代码已在GitHub仓库ROCm/TheRock中开源。

*原文媒体:SemiAnalysis

*原文作者:Teng Hung Chen; Dylan Patel; Daniel Nishball; Wega Chu; Ivan Chiam; Patrick Zhou; Gerald Wong

*原文链接:

https://semianalysis.com/2025/06/13/amd-advancing-ai-mi350x-and-mi400-ualoe72-mi500-ual256/#

相关阅读

· AMD推进AI之路(一):MI350X直面B200,MI400剑指机架级方案
· AMD推进AI之路(二):成本角力、生态变局与性能争议

芯启未来,智创生态

湾芯展2025与您相约!

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号