从网络视角看英伟达Vera Rubin NVL72的变化

文章转载自公众号：西贝吹风

本文只做学术/技术分享，如有侵权，联系删文。

在2026年CES展会上，英伟达发布了以Vera Rubin NVL72机柜级系统为核心的Rubin平台，该平台由六款专为打造AI超级计算机而设计的全新芯片组成。相信大家这两天也看到了不少的相关报道，今天我们主要从网络的视角来分析一下Vera Rubin NVL72有哪些不同之处。在这之前，还是简单浏览一下，Vera Rubin NVL72的基本情况。

Vera Rubin NVL72概览

Vera Rubin NVL72采用了“极限协同设计”的理念，通过将六款独立芯片统一开发，实现整体系统级协同运作。这六款新芯片分别是：

NVIDIA Vera CPU：88个NVIDIA定制设计的奥林巴斯核心，针对下一代AI工厂优化，完全兼容ARM。
NVIDIA Rubin GPU：配备HBM4和新款NVIDIA Transformer引擎的高性能AI计算。
NVIDIA NVLink 6 交换机：第六代扩展型结构，提供 3.6 TB/s GPU对GPU带宽。
NVIDIA ConnectX-9：端点高吞吐量、低延迟的网络接口，用于扩展型AI。
NVIDIA BlueField-4 数据处理单元（DPU）：一个双芯片封装，结合了一颗64核NVIDIA Grace CPU用于基础设施卸载和安全；集成了NVIDIA ConnectX-9高速网络芯片，实现紧耦合数据传输。
NVIDIA Spectrum-6以太网交换机：采用CPO封装，提升效率和可靠性。

Vera Rubin NVL72与Blackwell的对比

Vera Rubin NVL72的网络相关组件简介

计算托盘

一个计算托盘含2个Superchip（每Superchip含2×Rubin GPU + 1×Vera CPU），每个计算托盘有4个Rubin GPU+2个Vera CPU，通过 NVLink-C2C 互联（1.8TB/s）。

每个计算托盘有4块ConnectX-9网卡，每块ConnectX-9网卡（包含2颗CX9的芯片，224Gbps PAM4 SerDes速率，每颗芯片800Gbps）对应一个Rubin GPU，为每个Rubin GPU提供最高1.6Tbps（2端口800Gbps）的Scale-out横向扩展能力。双端口的设计可以进行双平面的组网。

同时每个计算托盘可以配备一块BlueField-4 DPU卡，BlueField-4基础了64核Grace CPU和1颗ConnectX-9芯片，BlueField-4作为智能网卡，可以负责存储卸载、网络虚拟化等相关工作，提供2个400G接口或1个800G接口。

交换托盘（NVLink 6 Switch，用于单机柜内部Scale-up组网）

一个交换托盘含4个NVLink 6 Switch芯片，单交换托盘容量为28.8TB/s。

Spectrum-X CPO交换机（用于Scale-out组网）

NVIDlA Spectrum-X CPO交换机通过800Gbps以太网端口与ConnectX-9 SuperNIC互联，实现机柜间无阻塞扩展，支持DGX SuperPod（多机柜集群）部署。

每颗Spectrum-6芯片提供102.4 TB/s带宽，英伟达基于该款交换芯片设计了两款交换机产品，其中，SN6810提供102.4Tb/s带宽（一颗Spectrum-6芯片），128个800G端口或512个200G以太网端口。SN6800提供409.6Tb/s带宽（四颗Spectrum-6芯片），支持512个800G以太网端口或2048个200G端口。

Vera Rubin NVL72的网络扩展

介绍Vera Rubin NVL72的网络扩展前，我们先回顾一下，AI智算集群的两种扩展模式，一种是Scale-up，另一种是Scale-out。Scale-up是向上扩展（纵向扩展），增加单节点内的GPU/NPU算卡数量（也就是通常所说的超节点的大小）。Scale-out是向外扩展（横向扩展），增加节点的数量，扩大整体组网规模。

Scale-up扩展（单机柜内部互联）

我们先来看一下，上一代Blackwell Ultra NVL72的Scale-up扩展，如下图所示：

单个NVSwitch芯片与72个GPU全连接，总交换容量 = 100GB/s * 72 = 7.2TB/s

单个交换托盘，2个NVSwtich，总交换容量 = 7.2TB/s * 2 = 14.4TB/s

单个NVL72的总交换容量 = 14.4TB/s * 9 = 129.6TB/s（对外称130TB/s）

铜缆数量 = 18（托盘数量） * 4（GPU数量） * 4（GPU到NVSwtich铜缆数量） * 18（NVSwtich数量） = 5184根

Vera Rubin NVL72的Scale-up扩展，如下图所示：

单个NVSwitch连接72个GPU，总交换容量 = 100GB/s * 72 = 7.2TB/s

单个交换托盘，4个NVSwtich，总交换容量 = 7.2TB/s * 4 = 28.8TB/s

单个NVL72的总交换容量 = 28.8TB/s * 9 = 259.2TB/s（对外称260TB/s）

铜缆数量 = 18（托盘数量） * 4（GPU数量） * 2（GPU到NVSwtich铜缆数量）* 36（NVSwtich数量） = 5184根

注：GPU到每个NVSwtich的连接带宽仍为800Gbps（100GB/s），Blackwell Ultra NVL72采用的是200G PAM4 SerDes速率，所以需要4根铜缆连接，Vera Rubin NVL72采用的是400G PAM4 SerDes速率，所以需要2根铜缆连接，但是Vera Rubin NVL72的NVSwtich数量是36，比Blackwell Ultra NVL72的NVSwtich数量多一倍，因此，两种情况下用总的铜缆的数量维持不变。

另外，在本次发布中，提到了专为超大规模设计的无缆线机柜架构，这里指的是Vera Rubin NVL72的计算托盘采用模块化无缆线、无风扇、无软管托盘设计，仅通过PCB板（Middle Plane）与连接器实现内部互联，彻底摒弃内部线缆。计算托盘插入机柜时通过盲插连接器自动对接，无需人工布线，全系统仅保留两根外部液态冷却进出口管路与冷却模块连接。

下图是之前的结构，之前的系统单个计算托盘的组装非常耗时，每个线缆连接点都可能成为故障源，在数十万GPU规模下这一问题尤为突出。Vera Rubin NVL72全新设计将组装维护时间缩短至原先的1/18。

DGX SuperPOD Scale-out扩展（跨机柜互联）

本次CES上，英伟达还推出了新一代DGX SuperPOD。它把多个装有72个GPU的Rubin NVL72连接起来，形成了更大的AI计算集群。在这次的DGX SuperPOD中，共有8个Rubin NVL72机架，相当于有576个GPU，可提供 28.8 ExaFlops 的 FP4 性能和 600TB 的高速内存。这样，SuperPOD就可以处理数千个Agentic AI智能体，以及数百万token上下文，机柜之间通过新推出的两款Spectrum-X以太网交换机进行扩展。DGX SuperPOD为英伟达Rubin GPU横向 (Scale-Out) 扩展提供了蓝图。

END

从网络视角看英伟达Vera Rubin NVL72的变化图16

点击下方名片即刻关注我们