AMD推进AI之路（三）：关键客户采用、租赁市场破局与ROCm 7跃升

【编者按】

本文选自SemiAnalysis，深度剖析了AMD在AI芯片领域的最新布局与挑战。文章详述了AMD通过开发者云降价、创新租赁模式（回租GPU）加速生态建设的策略，并深入对比了MI400系列采用“以太网UALink”(UALoE)替代原生UALink的权衡与潜在竞争力。最后，通过详尽的物料清单(BOM)和总体拥有成本(TCO)分析，量化展现了AMD产品在特定场景下的成本优势及其与NVIDIA的技术代差。整体呈现了一场围绕性能、成本、生态与战略的激烈AI芯片角逐战，重塑市场格局的博弈正在进行中。欢迎感兴趣的朋友订阅！

超大规模云服务商与AI实验室采用新的AMD产品

尽管围绕MI355机架如何营销的讨论有些可笑，但我们关于总体拥有成本（TCO）以及强大的每TCO潜在性能的观点显然引起了超大规模云服务商和大型AI实验室客户的共鸣，我们看到这些客户展现出强烈的参与度和良好的订单势头。

AWS是AMD“Advancing AI”活动的冠名赞助商，并且现在将首次认真投入采购和部署AMD GPU以进行大规模租赁。

Meta，通常在涉及AMD时专注于推理用例，现在也开始在AMD上进行训练。他们是72 GPU机柜背后的关键推动力，并将采用MI355X和MI400。Meta的PyTorch工程师现在甚至也在开发AMD Torch，而不仅仅是AMD的工程师在做这项工作。

对于OpenAI，Sam Altman在AMD活动上登台亮相。OpenAI欣赏AMD在我们第一篇对AMD和Nvidia进行基准测试的文章之后行动速度快了很多。

xAI将使用这些即将推出的AMD系统进行生产推理，从而扩大AMD的存在感。过去，只有一小部分的保护推理使用AMD，大部分工作负载在Nvidia系统上运行。

GCP正在与AMD洽谈，但他们的讨论已经持续了相当一段时间。我们认为AMD应该让GCP加入他们提供给少数关键新云（Neocloud）的相同交易——即通过承诺回租算力以满足AMD内部研发需求，来引导AMD租赁产品的启动。

Oracle，在快速部署新云容量方面显然是一个开拓者，也计划部署30,000个MI355X。微软是唯一一个保持观望的超大规模云服务商，仅订购了少量MI355，不过它对部署MI400持积极态度。

这些超大规模云服务商中的许多都拥有大量的风冷数据中心，这源于其传统的数据中心设计架构，鉴于MI355X在性能/TCO方面极具吸引力的主张，他们非常乐意采用风冷的MI355X。总体而言，我们预计所有这些超大规模云服务商都将部署MI355，并且其中许多还将继续部署真正的机柜级解决方案MI400。

AMD解决其新云租赁市场的弱点

提高AMD采用率的主要挑战之一是，目前专注于AMD的新云（Neocloud）数量极少，相比之下，专注于Nvidia的新云超过一百家。这种供应稀缺以及租赁市场产品缺乏多样性导致AMD GPU租赁价格被人为抬高，侵蚀了AMD GPU的整体成本竞争力。

在2025年第二季度至今，H200的现行1个月期合约租赁价格约为每小时每GPU 2.50美元，存在较大差异且低质量云的价格更低。租用MI325X的1个月合约根本不存在。租用MI300X的1个月合约定价为每小时2.50美元，这使得MI300X在租赁方面与H200相比缺乏竞争力。下面，我们列出了为了使MI300X和MI325X在租赁方面与Nvidia H200具有竞争力，其近似的1个月租赁价格需要达到的水平。该分析在很大程度上基于我们的实际推理基准测试。

对于推理推理任务（1k输入，4k输出），MI300X的1个月合约价格需要低于每小时2.10-2.40美元，才能使其在每美元性能上与H200具有竞争力。MI325X需要定价在每小时每GPU 2.75美元到3.00美元之间（取决于交互性），才能具有竞争力。这是一个没有任何AMD新云能在不经大量谈判的情况下提供的价格范围，这意味着Nvidia目前在租赁的每美元性能上胜出，部分原因是这种市场效率低下。

进入高速档——AMD正在加速发展AMD新云生态系统

直到几个月前，AMD并不十分专注于推动其产品在新云生态系统内实现更强劲的增长，也没有为GPU云提供足够的激励措施，使其愿意承担托管AMD GPU以及可能无法将其租出的风险。在过去的几个月里，AMD领导层认识到建立一个健康的新云生态系统非常重要，因为这有助于提高开发者的采用率，并有助于压低虚高的AMD GPU租赁价格。最终结果是最终用户获得更高的每美元性能，以及更多熟悉AMD并能回馈更广泛的AMD生态系统的开发者。

为此，AMD为AWS、OCI、Digital Ocean、Vultr、Tensorwave、Crusoe和其他新云提供了极佳的激励措施，以支持这些超大规模云服务商和新云采用AMD并降低其业务案例的风险。AMD达成的交易是：作为客户愿意购买更多AMD GPU的交换，AMD将以长期合约的形式回租其中很大一部分容量，用于AMD内部的软件开发目的。这类似于Nvidia如何已经从GCP、OCI、AWS、Azure、CoreWeave回租大型GPU集群以满足其庞大的内部计算需求。对于某些新云，AMD提供激励措施以完全消除投资案例的风险，即如果新云无法完全售出其容量，AMD自身将作为后盾从他们那里租用。我们知道目前有许多新云正在探索与AMD的潜在合作伙伴关系，并被提供类似的激励结构。

有了这些激励措施——可以说，这些新云通过与AMD合作，可以建立比那些仅在短期基础上租赁Nvidia集群并承担相当大的价格和占用风险的同行风险更低的业务案例。

AMD开发者云的推出也是使AMD计算能力以具有竞争力的价格普遍可用的关键策略。作为此次发布的一部分，AMD大幅降低了租用MI300X GPU的价格，使更广泛的开发者群体能够更容易地获取。不幸的是，在我们测试时，其默认配额设置为零个GPU，并且很难获得GPU配额的增加。我们建议AMD将新用户的默认配额至少设置为16个MI300X GPU，以便更有效地将开发者引入其生态系统。由于AMD开发者云按需价格设定在更合理的每小时每GPU 1.99美元，我们预计提供按需MI300服务的AMD新云可能需要将其目前每小时每GPU 3美元的高价位下调至2美元以匹配。

ROCm软件改进

AMD发布了专注于推理能力和性能的ROCm 7。在推理吞吐性能方面，AMD宣称ROCm 7相比ROCm 6平均提升3.5倍，并且在服务DeepSeek R1时，ROCm7相比Nvidia B200提升1.3倍。我们期待验证这些说法。

AMD也致力于与开放生态系统合作开发分布式推理。除了支持推理框架vLLM和SGLang外，AMD还支持编排框架llm-d（Nvidia Dynamo的替代方案），以实现分布式推理技术PD分解（PD disaggregation）。llm-d栈仍然缺少相当多能提供与Nvidia Dynamo KVCache管理器相同功能的特性。KVCache管理器非常重要，因为它能为推理工作负载带来巨大的TCO收益，在许多推理工作负载上可解锁数倍的吞吐量提升。

ROCm对内核编写库Triton的支持在过去几个版本中也得到了极大改善。ROCm去年实现了对Triton的功能性支持，而ROCm 7则专注于性能提升。我们希望AMD继续努力，并扩展对诸如FlexAttention等高级特性的支持。

最近，字节跳动Seed创建了Triton Distributed，这是一个基于Triton的库，能够实现计算与GPU通信的重叠。AMD对Triton Distributed表现出极大兴趣，并已谈及提供更多支持。然而，目前尚不清楚OpenAI（Triton的维护者）是否会接受将字节跳动的Triton Distributed特性贡献回原始Triton库。OpenAI有可能正在走自己的路，为Triton实现分布式计算-通信内核。

此外，考虑到对中国芯片出口的严格限制，字节跳动可能会减少为西方GPU开源库做贡献。话虽如此，字节跳动正在大力投资AMD，我们预计他们将租用相当数量的基于AMD的GPU容量。不过，字节跳动仍将主要处于Nvidia阵营，因为他们计算能力扩张的最大份额将来自租用基于Nvidia的容量。字节跳动的大部分计算能力要么来自云租赁，要么来自位于中国以外的大规模专用裸机集群，而且他们的大部分新云和云提供商仍然主要依赖Nvidia的计算能力。

在更底层，AMD声称他们正在整合流行的数据传输接口Mooncake Transfer Engine和专家并行通信库DeepEP。然而，截至撰写本文时，我们仍未在任何开源的ROCm仓库中看到DeepEP或Mooncake。

AMD宣布了其开发者云和开发者积分计划。除了提供申请计算资源访问的简单界面外，AMD还创建了Python包“rocm”，方便开发者安装ROCm PyTorch、ROCm库（如HipBL最后，AS）以及这些ROCm库的开发工具。所有代码已在GitHub仓库ROCm/TheRock中开源。

*原文媒体：SemiAnalysis

*原文作者：Teng Hung Chen; Dylan Patel; Daniel Nishball; Wega Chu; Ivan Chiam; Patrick Zhou; Gerald Wong

*原文链接：

https://semianalysis.com/2025/06/13/amd-advancing-ai-mi350x-and-mi400-ualoe72-mi500-ual256/#

· AMD推进AI之路（二）：成本角力、生态变局与性能争议

芯启未来，智创生态

湾芯展2025与您相约！