今天的大模型,早就不是“一张显卡跑天下”的时代了。
当模型参数从几十亿、几百亿,卷到千亿、万亿级别时,真正的问题已经不再是:
“单块 GPU 有多强?”
而是:
“几百张、几千张 GPU,能不能像一台机器一样协同工作?”
这才是 AI 基础设施的核心战场。
你可以把 GPU 想象成工人。一个工人再强,也搬不动一座山。真正的难点,是让几百个工人站在同一个工地上,不抢路、不撞车、不等人、不空转。
英伟达的 SuperPOD,本质上就是为这个问题设计的。
它不是简单地把 GPU 堆在机房里,而是通过 NVLink、NVSwitch、InfiniBand、RDMA 等一整套互联技术,把很多 GPU 编织成一个巨大的计算网络。
这篇文章,我们沿着英伟达三代架构往上看:
第一代:H100,如何把 256 张 GPU 连起来。
第二代:GH200,如何把 CPU 和 GPU 更紧地绑在一起。
第三代:GB200 NVL72,如何把一个机柜变成一台“超级 GPU”。
看懂这条线,你就能理解:为什么 AI 算力竞争,已经从“芯片战争”升级成了“系统战争”。
一、H100 SuperPOD:先把 256 张 GPU 变成一个团队
先从 H100 说起。
H100 是英伟达 Hopper 架构时代的代表产品,也是这一轮大模型训练浪潮里的核心硬件之一。
但 H100 真正厉害的地方,不只是单卡算力,而是它可以被组织起来。
在 DGX H100 系统里,一台服务器内部通常有 8 张 H100 GPU。
这 8 张 GPU 之间,并不是靠普通 PCIe 慢悠悠地交换数据,而是通过 NVLink 和 NVSwitch 进行高速互联。

可以这样理解:
NVLink 是 GPU 之间的高速公路。
NVSwitch 是高速公路上的立交桥。

有了它,8 张 GPU 之间可以高带宽、低延迟地互相通信。对于大模型训练来说,这件事极其重要。
因为训练一个大模型时,参数、梯度、激活值并不会老老实实待在一张卡里。它们会在 GPU 之间频繁流动。通信速度慢,GPU 就会干等。GPU 一干等,昂贵的算力就变成了机房里的暖气片。
这也是为什么,在 AI 超算里,“通信能力”几乎和“计算能力”同样重要。
到了 DGX H100 SuperPOD,英伟达进一步把这种互联从“服务器内部”扩展到了“服务器之间”。
一台 DGX H100 是 8 张 GPU。
32 台 DGX H100,就是 256 张 GPU。
这 256 张 GPU 通过 NVLink Switch System 连接起来,就形成了一个 H100 SuperPOD。

这里的关键变化是:过去 NVLink 主要解决单机内部 GPU 互联,而 H100 SuperPOD 开始把 NVLink 的能力推向跨节点连接。
也就是说,英伟达不再满足于让一台服务器内部的 8 张 GPU 高速通信,而是希望 32 台服务器里的 256 张 GPU,也能尽可能像一个整体一样协同工作。
这就是 SuperPOD 的第一层逻辑:
不是卖 GPU,而是卖“GPU 集群的组织方式”。
不过,H100 SuperPOD 也不是完美无缺。
它的瓶颈在于:单台 DGX H100 内部的 GPU 总带宽很高,但跨节点连接资源仍然有限。
也就是说,服务器内部像城市内环,车道宽、红绿灯少;服务器之间像跨城高速,虽然很快,但车道数没那么奢侈。
所以 H100 这一代的 SuperPOD,已经完成了从“单机 GPU”到“256 GPU 集群”的飞跃,但它仍然带着一个问题:
当 GPU 数量继续增加,网络还能不能撑住?
这就引出了 GH200。
二、GH200 SuperPOD:CPU 和 GPU 不再是邻居,而是室友
到了 GH200,英伟达做了一个很重要的改变:
把 Grace CPU 和 Hopper GPU 放在一起,做成 Grace Hopper Superchip。
简单说,GH200 不是单纯的一张 GPU,而是一个 CPU + GPU 的超级芯片组合。
过去,CPU 和 GPU 更像住在同一个小区的邻居。它们可以互相访问,但中间要经过 PCIe 等通道。数据搬来搬去,总有开销。
而 GH200 的思路是:
别当邻居了,直接住一屋。
Grace CPU 和 Hopper GPU 之间通过 NVLink-C2C 高速互联,CPU 和 GPU 的关系变得更紧密。

这对 AI 和 HPC 工作负载有很大意义。
很多任务不是纯计算问题,而是“计算 + 内存 + 数据搬运”的综合问题。尤其是大模型训练、推荐系统、图计算、科学计算里,数据规模大,访问模式复杂。如果 CPU 和 GPU 之间的通道太窄,就会形成“算力在前面狂奔,数据在后面骑共享单车”的尴尬局面。
GH200 要解决的,就是这个问题。
在 DGX GH200 SuperPOD 中,英伟达进一步使用 NVLink Switch System,把多个 GH200 连接起来,形成更大的 GPU 域。

这和 H100 SuperPOD 的差别在于:
H100 更像是把很多 GPU 服务器连起来。
GH200 则是先把 CPU 和 GPU 深度融合,再把这些融合后的超级芯片连起来。
这一步很关键。
因为 AI 超算的竞争,已经不是单纯比 GPU 核心数量,而是比整个系统的数据流动能力。
数据能不能快速到达 GPU?
GPU 之间能不能快速交换结果?
CPU 能不能高效参与调度和内存管理?
这些问题,决定了昂贵 GPU 的利用率。
一台 AI 超算最怕的不是没有 GPU,而是 GPU 在等数据。
GPU 一等,老板心碎,电表狂笑。
三、GH200 NVL32:把“节点”做大,把机柜变成计算单元
GH200 之后,还有一个很有意思的形态:GH200 NVL32。
它的思路是把 32 个 GH200 组织在一个更紧密的机柜级系统里。
如果说 DGX H100 的基本单元是一台 8 GPU 服务器,那么 GH200 NVL32 的思路,就是把基本单元进一步放大。

过去我们讨论 AI 集群,常常是:
一台服务器有几张卡?
一个机柜有几台服务器?
一个集群有多少个机柜?
但到了 GH200 NVL32 这一类设计,机柜本身开始变成一个重要的计算单元。
这背后的趋势很清楚:
AI 系统正在从“服务器级设计”走向“机柜级设计”。
为什么?
因为大模型太大了。
如果还按照传统服务器思路,一台一台服务器拼起来,通信路径会越来越长,网络拓扑会越来越复杂,延迟和带宽都会成为瓶颈。
所以英伟达开始把更多 GPU 放进一个更紧密的 NVLink 域里,让它们在物理距离和通信拓扑上更接近。
你可以把它理解成城市规划:
早期是一个个小区,各自独立。
后来修路,把小区连成城区。
再后来,干脆重新规划,把住宅、地铁、商业、学校一起设计。
H100 是把 GPU 连起来。
GH200 是把 CPU 和 GPU 融合起来。
GH200 NVL32 则是把机柜变成更大的计算单元。
这条路继续往前走,就到了 GB200 NVL72。
四、GB200 NVL72:一个机柜,就是一台“巨型 GPU”
GB200 是 Blackwell 时代的核心平台。
和 GH200 不同,GB200 的结构更激进:
一个 Grace CPU 搭配两个 Blackwell GPU。
也就是说,一个 GB200 Superchip 里面,是 1 个 CPU + 2 个 GPU 的组合。
到了 GB200 NVL72,英伟达直接把 36 个 Grace CPU 和 72 个 Blackwell GPU 放进一个液冷机柜级系统里。

这就是 NVL72 名字里的 “72”:
72 张 Blackwell GPU。
这已经不是普通服务器概念了。
这更像是一台机柜大小的超级计算机。
更关键的是,英伟达希望这 72 张 GPU 通过 NVLink 和 NVLink Switch System 组成一个巨大的 NVLink 域,让它们在软件和通信层面更像一个整体。

这对大模型尤其重要。
因为大模型越来越大,单卡显存不够,多卡显存也不一定够。真正需要的是一个巨大的、低延迟、高带宽的共享计算空间。
如果 72 张 GPU 能更紧密地协同,它就不再只是“72 张卡”,而更像是一块被拆成 72 个部分的巨型 GPU。
这就是 GB200 NVL72 最有想象力的地方。
它不是在回答:
“单张 GPU 多强?”
而是在回答:
“能不能把一个机柜变成一块超级芯片?”
这也是为什么英伟达强调 rack-scale architecture,也就是机柜级架构。
以前的服务器设计,是把芯片装进服务器。
现在的 AI 服务器设计,是把整个机柜当成芯片来设计。
芯片、封装、板卡、服务器、机柜、网络、液冷、电源、软件调度,全部一起协同。
这已经不是单点创新了,而是系统工程。
五、从 72 到 576:GB200 SuperPOD 的真正野心
如果说 GB200 NVL72 是一个机柜里的 72 GPU 系统,那么 GB200 SuperPOD 要做的事情,就是把多个 NVL72 进一步连接起来。
按照公开资料,一个 GB200 SuperPOD 可以扩展到 576 张 Blackwell GPU。

576 是什么概念?
它不是把 576 张卡简单塞进机房。
它的难点在于:
这些 GPU 之间如何通信?
数据如何同步?
训练任务如何切分?
某个 GPU 或链路异常时,系统如何保持稳定?
网络如何避免拥塞?
散热和供电如何支撑?
到了这个规模,AI 超算已经像一座小型城市。
GPU 是大楼。
NVLink 是地铁。
NVSwitch 是换乘站。
InfiniBand / RDMA 是城际高铁。
液冷系统是地下水网。
调度软件是城市大脑。
任何一个环节跟不上,整座城市都会堵车。
所以 GB200 SuperPOD 的意义,不只是 GPU 数量变多,而是英伟达把系统边界继续往外推了一层:
从单卡,到服务器。
从服务器,到机柜。
从机柜,到 SuperPOD。
这就是 AI 超算的演化方向。
