从 H100、GH200 到 GB200：英伟达如何把 GPU 堆成 AI 超级计算机？

今天的大模型，早就不是“一张显卡跑天下”的时代了。

当模型参数从几十亿、几百亿，卷到千亿、万亿级别时，真正的问题已经不再是：

“单块 GPU 有多强？”

而是：

“几百张、几千张 GPU，能不能像一台机器一样协同工作？”

这才是 AI 基础设施的核心战场。

你可以把 GPU 想象成工人。一个工人再强，也搬不动一座山。真正的难点，是让几百个工人站在同一个工地上，不抢路、不撞车、不等人、不空转。

英伟达的 SuperPOD，本质上就是为这个问题设计的。

它不是简单地把 GPU 堆在机房里，而是通过 NVLink、NVSwitch、InfiniBand、RDMA 等一整套互联技术，把很多 GPU 编织成一个巨大的计算网络。

这篇文章，我们沿着英伟达三代架构往上看：

第一代：H100，如何把 256 张 GPU 连起来。

第二代：GH200，如何把 CPU 和 GPU 更紧地绑在一起。

第三代：GB200 NVL72，如何把一个机柜变成一台“超级 GPU”。

看懂这条线，你就能理解：为什么 AI 算力竞争，已经从“芯片战争”升级成了“系统战争”。

一、H100 SuperPOD：先把 256 张 GPU 变成一个团队

先从 H100 说起。

H100 是英伟达 Hopper 架构时代的代表产品，也是这一轮大模型训练浪潮里的核心硬件之一。

但 H100 真正厉害的地方，不只是单卡算力，而是它可以被组织起来。

在 DGX H100 系统里，一台服务器内部通常有 8 张 H100 GPU。

这 8 张 GPU 之间，并不是靠普通 PCIe 慢悠悠地交换数据，而是通过 NVLink 和 NVSwitch 进行高速互联。

从 H100、GH200 到 GB200：英伟达如何把 GPU 堆成 AI 超级计算机？图1

可以这样理解：

NVLink 是 GPU 之间的高速公路。

NVSwitch 是高速公路上的立交桥。

从 H100、GH200 到 GB200：英伟达如何把 GPU 堆成 AI 超级计算机？图2

有了它，8 张 GPU 之间可以高带宽、低延迟地互相通信。对于大模型训练来说，这件事极其重要。

因为训练一个大模型时，参数、梯度、激活值并不会老老实实待在一张卡里。它们会在 GPU 之间频繁流动。通信速度慢，GPU 就会干等。GPU 一干等，昂贵的算力就变成了机房里的暖气片。

这也是为什么，在 AI 超算里，“通信能力”几乎和“计算能力”同样重要。

到了 DGX H100 SuperPOD，英伟达进一步把这种互联从“服务器内部”扩展到了“服务器之间”。

一台 DGX H100 是 8 张 GPU。

32 台 DGX H100，就是 256 张 GPU。

这 256 张 GPU 通过 NVLink Switch System 连接起来，就形成了一个 H100 SuperPOD。

从 H100、GH200 到 GB200：英伟达如何把 GPU 堆成 AI 超级计算机？图3

这里的关键变化是：过去 NVLink 主要解决单机内部 GPU 互联，而 H100 SuperPOD 开始把 NVLink 的能力推向跨节点连接。

也就是说，英伟达不再满足于让一台服务器内部的 8 张 GPU 高速通信，而是希望 32 台服务器里的 256 张 GPU，也能尽可能像一个整体一样协同工作。

这就是 SuperPOD 的第一层逻辑：

不是卖 GPU，而是卖“GPU 集群的组织方式”。

不过，H100 SuperPOD 也不是完美无缺。

它的瓶颈在于：单台 DGX H100 内部的 GPU 总带宽很高，但跨节点连接资源仍然有限。

也就是说，服务器内部像城市内环，车道宽、红绿灯少；服务器之间像跨城高速，虽然很快，但车道数没那么奢侈。

所以 H100 这一代的 SuperPOD，已经完成了从“单机 GPU”到“256 GPU 集群”的飞跃，但它仍然带着一个问题：

当 GPU 数量继续增加，网络还能不能撑住？

这就引出了 GH200。

二、GH200 SuperPOD：CPU 和 GPU 不再是邻居，而是室友

到了 GH200，英伟达做了一个很重要的改变：

把 Grace CPU 和 Hopper GPU 放在一起，做成 Grace Hopper Superchip。

简单说，GH200 不是单纯的一张 GPU，而是一个 CPU + GPU 的超级芯片组合。

过去，CPU 和 GPU 更像住在同一个小区的邻居。它们可以互相访问，但中间要经过 PCIe 等通道。数据搬来搬去，总有开销。

而 GH200 的思路是：

别当邻居了，直接住一屋。

Grace CPU 和 Hopper GPU 之间通过 NVLink-C2C 高速互联，CPU 和 GPU 的关系变得更紧密。

从 H100、GH200 到 GB200：英伟达如何把 GPU 堆成 AI 超级计算机？图4

这对 AI 和 HPC 工作负载有很大意义。

很多任务不是纯计算问题，而是“计算 + 内存 + 数据搬运”的综合问题。尤其是大模型训练、推荐系统、图计算、科学计算里，数据规模大，访问模式复杂。如果 CPU 和 GPU 之间的通道太窄，就会形成“算力在前面狂奔，数据在后面骑共享单车”的尴尬局面。

GH200 要解决的，就是这个问题。

在 DGX GH200 SuperPOD 中，英伟达进一步使用 NVLink Switch System，把多个 GH200 连接起来，形成更大的 GPU 域。

从 H100、GH200 到 GB200：英伟达如何把 GPU 堆成 AI 超级计算机？图5

这和 H100 SuperPOD 的差别在于：

H100 更像是把很多 GPU 服务器连起来。

GH200 则是先把 CPU 和 GPU 深度融合，再把这些融合后的超级芯片连起来。

这一步很关键。

因为 AI 超算的竞争，已经不是单纯比 GPU 核心数量，而是比整个系统的数据流动能力。

数据能不能快速到达 GPU？

GPU 之间能不能快速交换结果？

CPU 能不能高效参与调度和内存管理？

这些问题，决定了昂贵 GPU 的利用率。

一台 AI 超算最怕的不是没有 GPU，而是 GPU 在等数据。

GPU 一等，老板心碎，电表狂笑。

三、GH200 NVL32：把“节点”做大，把机柜变成计算单元

GH200 之后，还有一个很有意思的形态：GH200 NVL32。

它的思路是把 32 个 GH200 组织在一个更紧密的机柜级系统里。

如果说 DGX H100 的基本单元是一台 8 GPU 服务器，那么 GH200 NVL32 的思路，就是把基本单元进一步放大。

从 H100、GH200 到 GB200：英伟达如何把 GPU 堆成 AI 超级计算机？图6

过去我们讨论 AI 集群，常常是：

一台服务器有几张卡？

一个机柜有几台服务器？

一个集群有多少个机柜？

但到了 GH200 NVL32 这一类设计，机柜本身开始变成一个重要的计算单元。

这背后的趋势很清楚：

AI 系统正在从“服务器级设计”走向“机柜级设计”。

为什么？

因为大模型太大了。

如果还按照传统服务器思路，一台一台服务器拼起来，通信路径会越来越长，网络拓扑会越来越复杂，延迟和带宽都会成为瓶颈。

所以英伟达开始把更多 GPU 放进一个更紧密的 NVLink 域里，让它们在物理距离和通信拓扑上更接近。

你可以把它理解成城市规划：

早期是一个个小区，各自独立。

后来修路，把小区连成城区。

再后来，干脆重新规划，把住宅、地铁、商业、学校一起设计。

H100 是把 GPU 连起来。

GH200 是把 CPU 和 GPU 融合起来。

GH200 NVL32 则是把机柜变成更大的计算单元。

这条路继续往前走，就到了 GB200 NVL72。

四、GB200 NVL72：一个机柜，就是一台“巨型 GPU”

GB200 是 Blackwell 时代的核心平台。

和 GH200 不同，GB200 的结构更激进：

一个 Grace CPU 搭配两个 Blackwell GPU。

也就是说，一个 GB200 Superchip 里面，是 1 个 CPU + 2 个 GPU 的组合。

到了 GB200 NVL72，英伟达直接把 36 个 Grace CPU 和 72 个 Blackwell GPU 放进一个液冷机柜级系统里。

从 H100、GH200 到 GB200：英伟达如何把 GPU 堆成 AI 超级计算机？图7

这就是 NVL72 名字里的 “72”：

72 张 Blackwell GPU。

这已经不是普通服务器概念了。

这更像是一台机柜大小的超级计算机。

更关键的是，英伟达希望这 72 张 GPU 通过 NVLink 和 NVLink Switch System 组成一个巨大的 NVLink 域，让它们在软件和通信层面更像一个整体。

从 H100、GH200 到 GB200：英伟达如何把 GPU 堆成 AI 超级计算机？图8

这对大模型尤其重要。

因为大模型越来越大，单卡显存不够，多卡显存也不一定够。真正需要的是一个巨大的、低延迟、高带宽的共享计算空间。

如果 72 张 GPU 能更紧密地协同，它就不再只是“72 张卡”，而更像是一块被拆成 72 个部分的巨型 GPU。

这就是 GB200 NVL72 最有想象力的地方。

它不是在回答：

“单张 GPU 多强？”

而是在回答：

“能不能把一个机柜变成一块超级芯片？”

这也是为什么英伟达强调 rack-scale architecture，也就是机柜级架构。

以前的服务器设计，是把芯片装进服务器。

现在的 AI 服务器设计，是把整个机柜当成芯片来设计。

芯片、封装、板卡、服务器、机柜、网络、液冷、电源、软件调度，全部一起协同。

这已经不是单点创新了，而是系统工程。

五、从 72 到 576：GB200 SuperPOD 的真正野心

如果说 GB200 NVL72 是一个机柜里的 72 GPU 系统，那么 GB200 SuperPOD 要做的事情，就是把多个 NVL72 进一步连接起来。

按照公开资料，一个 GB200 SuperPOD 可以扩展到 576 张 Blackwell GPU。

从 H100、GH200 到 GB200：英伟达如何把 GPU 堆成 AI 超级计算机？图9

576 是什么概念？

它不是把 576 张卡简单塞进机房。

它的难点在于：

这些 GPU 之间如何通信？

数据如何同步？

训练任务如何切分？

某个 GPU 或链路异常时，系统如何保持稳定？

网络如何避免拥塞？

散热和供电如何支撑？

到了这个规模，AI 超算已经像一座小型城市。

GPU 是大楼。

NVLink 是地铁。

NVSwitch 是换乘站。

InfiniBand / RDMA 是城际高铁。

液冷系统是地下水网。

调度软件是城市大脑。

任何一个环节跟不上，整座城市都会堵车。

所以 GB200 SuperPOD 的意义，不只是 GPU 数量变多，而是英伟达把系统边界继续往外推了一层：

从单卡，到服务器。

从服务器，到机柜。

从机柜，到 SuperPOD。

这就是 AI 超算的演化方向。

扫码报名参会，现场签到有礼 + 抽奖福利，席位有限，先到先得！