
关注公众号,点击公众号主页右上角“ · · · ”,设置星标,实时关注旺材芯片最新资讯
在今天的 AI World 2025 大会上,甲骨文联合创始人兼首席技术官拉里·埃里森拿出公司支票簿,斥资与 AMD 合作,打造基于未来 Altair GPU 的集群。我们可以通过仔细阅读甲骨文的公告来推断具体是哪一款。
预计 AMD 明年将推出两款初始 Altair MI450 系列 GPU。
第一款是面向传统八路节点的独立 GPU,名为 MI450。这款 MI450 芯片实际上是一堆看起来像一个单元的芯片,就像 AMD 数据中心 GPU 历代产品一样。其计算流处理器采用台积电的 2 纳米工艺蚀刻而成,预计能够以 FP4 精度处理约 40 petaflops 的峰值计算能力,并配备令人惊叹的(至少以今天的标准来看)432 GB HBM4 显存,每个 GPU 可提供约 19.6 TB/秒的显存带宽。在八路系统板上,这将带来 FP4 3.2 exaflops 的计算能力、3.4 TB 的 HBM4 显存和 156.8 TB/秒的总带宽。
MI450 系列的第二款产品是 MI450X,它用于 AMD 与 Meta Platforms、Oracle、OpenAI 等公司合作开发的“Helios”双宽 AI 机架。这些 Helios 机架式系统旨在与 Nvidia 的“Oberon”机架式机器竞争,后者采用 Nvidia 的“Grace” CG100 Arm 服务器处理器以及当前的“Blackwell” B200 和 B300 GPU 构建。Oberon 机架还将支持 Nvidia 未来的“Vera” CPU 和“Rubin” GPU。
机架式 MI450X 可在 Helios 机架中扩展至 64 或 128 个 GPU,而配备 128 个 GPU 的版本(称为 IF128)每个 GPU 可提供 50 petaflops 的浮点运算速度。MI455X 预计至少配备 288 GB 的 HBM4 显存,具体容量取决于 AMD 的市售库存,实际容量可能更高。
Oracle 表示将在 Helios 双宽机架中部署,所以你可能会认为 Oracle 会使用 Altair GPU 的 MI450X 版本。但别这么想。Oracle可以做定制化工作,而且经常这么做,并且声称 MI450 系列版本拥有最大的 HBM 容量。因此,构成该 AI 集群的 OCI 机架将基于 MI450,而不是 MI450X,除非 Oracle 获得定制的 MI450X,其每插槽内存为 432 GB,而不是 MI450X 预期的 288 GB 或更高。我们拭目以待……
关于 Helios 机架和 MI450 系列的传闻规格也可能是错误的。
Helios 机架可容纳 72 个 GPU,以及数量未知的未来“Venice” Epyc 处理器,以及我们认为数量众多的“Vulcano” Pensando DPU。如果设计中每个 CPU 插槽对应四个 GPU 插槽,我们也不会感到惊讶,但具体细节尚未公布。这是我们过去在 HPC 站点中看到的比例,不过深入研究细节后发现,每个 GPU 计算芯片组对应一个 CPU 计算芯片组,我们期待未来统计芯片组数量,看看最终效果如何。
AMD 告诉我们,Helios 机架在 FP8 精度下可提供 1.45 exaflops 的计算能力,在 FP4 精度下可提供 2.9 exaflops 的计算能力,并配备 31 TB 的 HBM4 内存和 1.4 PB/秒的聚合带宽。甲骨文表示,机架中的每个 GPU 最多可配备三个 Vulcano DPU,每个 DPU 的带宽为 800 Gb/秒。AMD 将使用以太网 UALink (UALoE) 在整个集群内互连和共享 GPU 内存,这本质上是通过以太网运行 Infinity Fabric。很难说会使用哪家公司的以太网 ASIC,但不会是 Nvidia 的,也可能不是 Broadcom 的,所以剩下的可能是 Cisco Systems 或 Marvell 的。或者,也许可以使用 Pensando DPU 作为交换机,完全不超出 AMD 的范围。
根据这项尚未公布的交易条款,甲骨文将从 2026 年第三季度开始部署 5 万个 Altair GPU 插槽,并在 2027 年及以后逐步扩展。算一下,700 个机架相当于 50,400 个 GPU 插槽,这很可能就是这笔交易的目的。我们最好的猜测——虽然是有根据的,但略显夸张——是这 700 个机架的总成本将在 35 亿美元到 40 亿美元之间,其中包括存储和网络成本。鉴于 GPU 的匮乏以及需求是供应的数倍,我们认为甲骨文在 GPU 上不会获得任何折扣,在我们推测该公司将在这些机架中使用的高端 CPU 和 DPU 上也几乎没有获得折扣。
Oracle 和 AMD 表示,这台拥有 50,000 个 GPU 插槽的机器将消耗约 200 兆瓦的电力。
我们正在深入挖掘 Oracle 为其 OCI AI 集群创建的 Acceleron 网络架构的更多细节,该架构似乎正在使用 DPU 作为集成交换机,从而在大规模 AI 横向扩展网络中减少一层设备。我们推测 Acceleron 方法将应用于此 MI450 集群以及与其并列部署于 OCI 数据中心的 Nvidia 集群。
据我们所知,MI450 集群是通用 OCI 基础设施的一部分,并非专用于 Oracle 与模型构建公司 OpenAI 的重大合同。Oracle 客户将能够租用 MI450 集群的时间,就像他们现在可以租用今年早些时候宣布的 MI355X 集群的时间一样,该集群已于本周全面上市。
Oracle 和 AMD 扩大合作伙伴关系
2025 年 10 月 14 日,甲骨文与 AMD(纳斯达克股票代码:AMD)今日宣布,双方长期合作将进一步拓展,助力客户显著扩展其 AI 能力和计划。基于多年的共同创新,Oracle 云基础设施 (OCI) 将成为首个由 AMD Instinct™ MI450 系列 GPU 驱动的公开 AI 超级集群的发布合作伙伴。该超级集群将于 2026 年第三季度开始部署 50,000 块 GPU,并将在 2027 年及以后逐步扩展。
此次发布基于 Oracle 和 AMD 的合作,旨在向最终客户提供基于 OCI 的 AMD Instinct GPU 平台。首先,Oracle 将于 2024 年推出基于 AMD Instinct MI300X 的机型,随后将推出搭载 AMD Instinct MI355X GPU 的 OCI Compute 通用版本。这些产品将在泽塔级 OCI 超级集群中提供。
随着下一代人工智能模型的发展超越现有人工智能集群的极限,对大规模人工智能容量的需求正在加速增长。为了训练和运行这些工作负载,客户需要灵活、开放的计算解决方案,以实现极高的规模和效率。OCI 计划中的全新人工智能超级集群将采用 AMD “Helios” 机架式设计,该设计包含 AMD Instinct MI450 系列 GPU、代号为“Venice”的下一代 AMD EPYC™ CPU 以及代号为“Vulcano”的下一代 AMD Pensando™ 高级网络。这种垂直优化的机架式架构旨在为大规模人工智能训练和推理提供最高的性能、可扩展性和能效。
Oracle 云基础设施执行副总裁 Mahesh Thiagarajan 表示:“我们的客户正在构建一些全球最雄心勃勃的 AI 应用,这需要强大、可扩展且高性能的基础设施。通过将最新的 AMD 处理器创新与 OCI 安全灵活的平台以及由 Oracle Acceleron 提供支持的先进网络相结合,客户可以满怀信心地突破极限。通过与 AMD 长达十年的合作——从 EPYC 到 AMD Instinct 加速器——我们将继续携手 AMD 提供最佳性价比、开放、安全且可扩展的云基础,以满足客户对新 AI 时代的需求。”
AMD 执行副总裁兼数据中心解决方案业务部总经理 Forrest Norrod 表示:“AMD 和 Oracle 持续引领云端 AI 创新。凭借我们的 AMD Instinct GPU、EPYC CPU 和先进的 AMD Pensando 网络技术,Oracle 客户将获得强大的新功能,用于训练、微调和部署下一代 AI。AMD 和 Oracle 携手合作,通过为海量 AI 数据中心构建的开放、优化且安全的系统,加速 AI 发展。”
AMD Instinct MI450 系列 GPU 旨在提供高性能、灵活的云部署选项,并提供广泛的开源支持。这为运行当今最先进的语言模型、生成式 AI 和高性能计算工作负载的客户提供了理想的基础。借助 OCI 上的 AMD Instinct MI450 系列 GPU,客户将能够获得以下优势:
突破性的计算和内存:通过提升 AI 训练模型的内存带宽,帮助客户更快地获得结果,处理更复杂的工作负载,并减少对模型分区的需求。每个 AMD Instinct MI450 系列 GPU 将提供高达 432 GB 的 HBM4 显存和 20 TB/s 的内存带宽,使客户能够完全在内存中训练和推断比前几代产品大 50% 的模型。
AMD 优化的“Helios”机架设计:通过密集的液冷式 72 GPU 机架,支持客户规模化运营,同时优化性能密度、成本和能效。AMD“Helios”机架设计集成了 UALoE 纵向扩展连接和基于以太网的超级以太网联盟 (UEC) 横向扩展网络,以最大限度地降低延迟并最大限度地提高跨机柜和机架的吞吐量。
强大的头节点:通过加速由下一代 AMD EPYC CPU(代号“Venice”)组成的架构上的作业编排和数据处理,帮助客户最大限度地提高集群利用率并简化大规模工作流程。此外,这些 EPYC CPU 将提供机密计算功能和内置安全功能,以帮助端到端地保护敏感的 AI 工作负载。
DPU 加速融合网络:支持线速数据采集,提升性能并增强大规模 AI 和云基础架构的安全态势。DPU 加速融合网络基于完全可编程的 AMD Pensando DPU 技术构建,为数据中心提供运行新时代 AI 训练、推理和云工作负载所需的安全性和性能。
面向 AI 的横向扩展网络:通过面向未来的开放式网络结构,助力客户充分利用超高速分布式训练和优化的集体通信。每个 GPU 最多可配备三个 800 Gbps AMD Pensando “Vulcano” AI-NIC,为客户提供无损、高速且可编程的连接,并支持先进的 RoCE 和 UEC 标准。
创新的 UALink 和 UALoE 架构:帮助客户高效扩展工作负载、减少内存瓶颈,并编排包含数万亿参数的大型模型。该可扩展架构无需通过 CPU 路由,即可最大限度地减少跳数和延迟,并通过基于 UALoE 架构传输的 UALink 协议,实现机架内 GPU 之间直接的硬件一致性网络和内存共享。UALink 是一种专为 AI 加速器构建的开放高速互连标准,并得到广泛行业生态系统的支持。因此,客户能够获得在基于开放标准的基础架构上运行最苛刻的 AI 工作负载所需的灵活性、可扩展性和可靠性。
开源 AMD ROCm™ 软件堆栈:通过为客户提供开放、灵活的编程环境(包括流行的框架、库、编译器和运行时),实现快速创新、提供供应商选择的自由,并简化现有 AI 和 HPC 工作负载的迁移。
高级分区和虚拟化:通过细粒度的 GPU 和 pod 分区、SR-IOV 虚拟化和强大的多租户功能,促进资源的安全高效使用,使客户能够安全地共享集群并根据工作负载需求分配 GPU。
为了给大规模构建、训练和推理 AI 的客户带来更多选择,OCI 还宣布推出搭载 AMD Instinct MI355X GPU 的 OCI Compute。这些 GPU 将应用于泽塔级 OCI 超级集群,可扩展至 131,072 块 GPU。搭载 AMD Instinct MI355X 的机型设计兼具卓越的价值、云灵活性和开源兼容性。
来源:半导体行业观察
专心 专业 专注

分布图领取



