人工智能新资讯平台：搭载80万张GPU，甲骨文推出云端最大规模算力中心

10月20日科技区角消息，甲骨文Oracle今日宣布推出其号称 “云领域规模最大” 的人工智能超级计算机「OCI Zettascale10」。

甲骨文对外表示，这套系统将搭载80万张英伟达GPU，峰值性能可达16 zettaFLOPS。

若将总性能平均分配，每张GPU的性能约为20petaFLOPS，这一数值将与高端桌面级人工智能系统中使用的英伟达 GB300 Ultra 芯片性能大致相当。

面向大规模算力需求的网络设计

甲骨文表示，该平台是OpenAI搭建的 Stargate计划计算集群的基础，该集群旨在处理当前科研与商业领域中涌现的部分算力需求极高的人工智能工作负载。

OpenAI 基础设施与工业计算副总裁彼得・赫歇尔表示：“这种高度可扩展的定制化 RoCE 设计，能在千兆瓦级算力规模下实现全网络结构性能最大化，实现将大部分算力同时集中用于某项计算任务。”

Zettascale10 系统的核心是甲骨文 Acceleron RoCE 网络技术，该技术专为提升数据密集型人工智能运算的可扩展性与可靠性而设计。

此架构将网络接口卡用作微型交换机，通过多个独立的网络层实现GPU之间的互联。该设计将减少GPU之间的延迟，且即便某一条网络路径出现故障，任务也能继续运行。

英伟达超大规模计算副总裁伊恩・巴克表示：“OCI Zettascale10 搭载了英伟达全栈式人工智能基础设施，能够提供带动尖端 AI 研究所需的计算架构，并助力全球各类机构实现从 AI 实验阶段到产业化应用的跨越。”

甲骨文云基础设施执行副总裁马赫什・蒂亚加拉扬同时表示：“借助 OCI Zettascale10，我们将 OCI 的 Oracle Acceleron RoCE 网络架构与英伟达下一代 AI 基础设施相融合，将以无可比拟的规模提供千兆瓦级的AI 算力。”

甲骨文另外表示，上述网络架构可通过减少网络内部层级来降低成本，同时确保各节点间性能保持稳定。尤其是该系统还引入了线性可插拔光模块与接收端光学器件，在不降低带宽的前提下可减少能耗与冷却需求，可进一步优化成本控制。

尽管本次甲骨文公布的产品数据令人震惊，但其对外宣称的“16 zettaFLOPS” 性能的尚未获得独立验证。云服务性能指标会因吞吐量计算方式的不同而存在差异，且甲骨文的性能对比可能基于理论峰值，而非持续运行速率。

鉴于该系统宣称的总性能相当于80万个高端GPU的性能总和，其实际运行效率可能在很大程度上取决于网络设计与软件优化水平。

对于该配置能否达到其他主流云服务商已投入运行的顶级人工智能集群的性能水平，可能还需要观望等待进一步验证。根据计划，该系统产品将在明年上市。