从 H100、GH200 到 GB200:英伟达如何把 GPU 堆成 AI 超级计算机?

EETOP 2026-06-07 09:57

今天的大模型,早就不是“一张显卡跑天下”的时代了。

当模型参数从几十亿、几百亿,卷到千亿、万亿级别时,真正的问题已经不再是:

“单块 GPU 有多强?”

而是:

“几百张、几千张 GPU,能不能像一台机器一样协同工作?”

这才是 AI 基础设施的核心战场。

你可以把 GPU 想象成工人。一个工人再强,也搬不动一座山。真正的难点,是让几百个工人站在同一个工地上,不抢路、不撞车、不等人、不空转。

英伟达的 SuperPOD,本质上就是为这个问题设计的。

它不是简单地把 GPU 堆在机房里,而是通过 NVLink、NVSwitch、InfiniBand、RDMA 等一整套互联技术,把很多 GPU 编织成一个巨大的计算网络。

这篇文章,我们沿着英伟达三代架构往上看:

第一代:H100,如何把 256 张 GPU 连起来。

第二代:GH200,如何把 CPU 和 GPU 更紧地绑在一起。

第三代:GB200 NVL72,如何把一个机柜变成一台“超级 GPU”。

看懂这条线,你就能理解:为什么 AI 算力竞争,已经从“芯片战争”升级成了“系统战争”。


一、H100 SuperPOD:先把 256 张 GPU 变成一个团队

先从 H100 说起。

H100 是英伟达 Hopper 架构时代的代表产品,也是这一轮大模型训练浪潮里的核心硬件之一。

但 H100 真正厉害的地方,不只是单卡算力,而是它可以被组织起来。

在 DGX H100 系统里,一台服务器内部通常有 8 张 H100 GPU。

这 8 张 GPU 之间,并不是靠普通 PCIe 慢悠悠地交换数据,而是通过 NVLink 和 NVSwitch 进行高速互联。

从 H100、GH200 到 GB200:英伟达如何把 GPU 堆成 AI 超级计算机?图1

可以这样理解:

NVLink 是 GPU 之间的高速公路。

NVSwitch 是高速公路上的立交桥。

从 H100、GH200 到 GB200:英伟达如何把 GPU 堆成 AI 超级计算机?图2

有了它,8 张 GPU 之间可以高带宽、低延迟地互相通信。对于大模型训练来说,这件事极其重要。

因为训练一个大模型时,参数、梯度、激活值并不会老老实实待在一张卡里。它们会在 GPU 之间频繁流动。通信速度慢,GPU 就会干等。GPU 一干等,昂贵的算力就变成了机房里的暖气片。

这也是为什么,在 AI 超算里,“通信能力”几乎和“计算能力”同样重要。

到了 DGX H100 SuperPOD,英伟达进一步把这种互联从“服务器内部”扩展到了“服务器之间”。

一台 DGX H100 是 8 张 GPU。

32 台 DGX H100,就是 256 张 GPU。

这 256 张 GPU 通过 NVLink Switch System 连接起来,就形成了一个 H100 SuperPOD。

从 H100、GH200 到 GB200:英伟达如何把 GPU 堆成 AI 超级计算机?图3

这里的关键变化是:过去 NVLink 主要解决单机内部 GPU 互联,而 H100 SuperPOD 开始把 NVLink 的能力推向跨节点连接。

也就是说,英伟达不再满足于让一台服务器内部的 8 张 GPU 高速通信,而是希望 32 台服务器里的 256 张 GPU,也能尽可能像一个整体一样协同工作。

这就是 SuperPOD 的第一层逻辑:

不是卖 GPU,而是卖“GPU 集群的组织方式”。

不过,H100 SuperPOD 也不是完美无缺。

它的瓶颈在于:单台 DGX H100 内部的 GPU 总带宽很高,但跨节点连接资源仍然有限。

也就是说,服务器内部像城市内环,车道宽、红绿灯少;服务器之间像跨城高速,虽然很快,但车道数没那么奢侈。

所以 H100 这一代的 SuperPOD,已经完成了从“单机 GPU”到“256 GPU 集群”的飞跃,但它仍然带着一个问题:

当 GPU 数量继续增加,网络还能不能撑住?

这就引出了 GH200。


二、GH200 SuperPOD:CPU 和 GPU 不再是邻居,而是室友

到了 GH200,英伟达做了一个很重要的改变:

把 Grace CPU 和 Hopper GPU 放在一起,做成 Grace Hopper Superchip。

简单说,GH200 不是单纯的一张 GPU,而是一个 CPU + GPU 的超级芯片组合。

过去,CPU 和 GPU 更像住在同一个小区的邻居。它们可以互相访问,但中间要经过 PCIe 等通道。数据搬来搬去,总有开销。

而 GH200 的思路是:

别当邻居了,直接住一屋。

Grace CPU 和 Hopper GPU 之间通过 NVLink-C2C 高速互联,CPU 和 GPU 的关系变得更紧密。

从 H100、GH200 到 GB200:英伟达如何把 GPU 堆成 AI 超级计算机?图4

这对 AI 和 HPC 工作负载有很大意义。

很多任务不是纯计算问题,而是“计算 + 内存 + 数据搬运”的综合问题。尤其是大模型训练、推荐系统、图计算、科学计算里,数据规模大,访问模式复杂。如果 CPU 和 GPU 之间的通道太窄,就会形成“算力在前面狂奔,数据在后面骑共享单车”的尴尬局面。

GH200 要解决的,就是这个问题。

在 DGX GH200 SuperPOD 中,英伟达进一步使用 NVLink Switch System,把多个 GH200 连接起来,形成更大的 GPU 域。

从 H100、GH200 到 GB200:英伟达如何把 GPU 堆成 AI 超级计算机?图5

这和 H100 SuperPOD 的差别在于:

H100 更像是把很多 GPU 服务器连起来。

GH200 则是先把 CPU 和 GPU 深度融合,再把这些融合后的超级芯片连起来。

这一步很关键。

因为 AI 超算的竞争,已经不是单纯比 GPU 核心数量,而是比整个系统的数据流动能力。

数据能不能快速到达 GPU?

GPU 之间能不能快速交换结果?

CPU 能不能高效参与调度和内存管理?

这些问题,决定了昂贵 GPU 的利用率。

一台 AI 超算最怕的不是没有 GPU,而是 GPU 在等数据。

GPU 一等,老板心碎,电表狂笑。


三、GH200 NVL32:把“节点”做大,把机柜变成计算单元

GH200 之后,还有一个很有意思的形态:GH200 NVL32。

它的思路是把 32 个 GH200 组织在一个更紧密的机柜级系统里。

如果说 DGX H100 的基本单元是一台 8 GPU 服务器,那么 GH200 NVL32 的思路,就是把基本单元进一步放大。

从 H100、GH200 到 GB200:英伟达如何把 GPU 堆成 AI 超级计算机?图6

过去我们讨论 AI 集群,常常是:

一台服务器有几张卡?

一个机柜有几台服务器?

一个集群有多少个机柜?

但到了 GH200 NVL32 这一类设计,机柜本身开始变成一个重要的计算单元。

这背后的趋势很清楚:

AI 系统正在从“服务器级设计”走向“机柜级设计”。

为什么?

因为大模型太大了。

如果还按照传统服务器思路,一台一台服务器拼起来,通信路径会越来越长,网络拓扑会越来越复杂,延迟和带宽都会成为瓶颈。

所以英伟达开始把更多 GPU 放进一个更紧密的 NVLink 域里,让它们在物理距离和通信拓扑上更接近。

你可以把它理解成城市规划:

早期是一个个小区,各自独立。

后来修路,把小区连成城区。

再后来,干脆重新规划,把住宅、地铁、商业、学校一起设计。

H100 是把 GPU 连起来。

GH200 是把 CPU 和 GPU 融合起来。

GH200 NVL32 则是把机柜变成更大的计算单元。

这条路继续往前走,就到了 GB200 NVL72。


四、GB200 NVL72:一个机柜,就是一台“巨型 GPU”

GB200 是 Blackwell 时代的核心平台。

和 GH200 不同,GB200 的结构更激进:

一个 Grace CPU 搭配两个 Blackwell GPU。

也就是说,一个 GB200 Superchip 里面,是 1 个 CPU + 2 个 GPU 的组合。

到了 GB200 NVL72,英伟达直接把 36 个 Grace CPU 和 72 个 Blackwell GPU 放进一个液冷机柜级系统里。

从 H100、GH200 到 GB200:英伟达如何把 GPU 堆成 AI 超级计算机?图7

这就是 NVL72 名字里的 “72”:

72 张 Blackwell GPU。

这已经不是普通服务器概念了。

这更像是一台机柜大小的超级计算机。

更关键的是,英伟达希望这 72 张 GPU 通过 NVLink 和 NVLink Switch System 组成一个巨大的 NVLink 域,让它们在软件和通信层面更像一个整体。

从 H100、GH200 到 GB200:英伟达如何把 GPU 堆成 AI 超级计算机?图8

这对大模型尤其重要。

因为大模型越来越大,单卡显存不够,多卡显存也不一定够。真正需要的是一个巨大的、低延迟、高带宽的共享计算空间。

如果 72 张 GPU 能更紧密地协同,它就不再只是“72 张卡”,而更像是一块被拆成 72 个部分的巨型 GPU。

这就是 GB200 NVL72 最有想象力的地方。

它不是在回答:

“单张 GPU 多强?”

而是在回答:

“能不能把一个机柜变成一块超级芯片?”

这也是为什么英伟达强调 rack-scale architecture,也就是机柜级架构。

以前的服务器设计,是把芯片装进服务器。

现在的 AI 服务器设计,是把整个机柜当成芯片来设计。

芯片、封装、板卡、服务器、机柜、网络、液冷、电源、软件调度,全部一起协同。

这已经不是单点创新了,而是系统工程。


五、从 72 到 576:GB200 SuperPOD 的真正野心

如果说 GB200 NVL72 是一个机柜里的 72 GPU 系统,那么 GB200 SuperPOD 要做的事情,就是把多个 NVL72 进一步连接起来。

按照公开资料,一个 GB200 SuperPOD 可以扩展到 576 张 Blackwell GPU。

从 H100、GH200 到 GB200:英伟达如何把 GPU 堆成 AI 超级计算机?图9

576 是什么概念?

它不是把 576 张卡简单塞进机房。

它的难点在于:

这些 GPU 之间如何通信?

数据如何同步?

训练任务如何切分?

某个 GPU 或链路异常时,系统如何保持稳定?

网络如何避免拥塞?

散热和供电如何支撑?

到了这个规模,AI 超算已经像一座小型城市。

GPU 是大楼。

NVLink 是地铁。

NVSwitch 是换乘站。

InfiniBand / RDMA 是城际高铁。

液冷系统是地下水网。

调度软件是城市大脑。

任何一个环节跟不上,整座城市都会堵车。

所以 GB200 SuperPOD 的意义,不只是 GPU 数量变多,而是英伟达把系统边界继续往外推了一层:

从单卡,到服务器。

从服务器,到机柜。

从机柜,到 SuperPOD。

这就是 AI 超算的演化方向。


扫码报名参会,现场签到有礼 + 抽奖福利,席位有限,先到先得!

从 H100、GH200 到 GB200:英伟达如何把 GPU 堆成 AI 超级计算机?图10


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI GPU 英伟达
more
28亿GPU大单落地,算力产业加速驶入快车道
商汤国香资本合伙人李扬:GPU估值翻倍、RISC-V站上台前,资本如何锁定确定性?
1024颗GPU发力,量子化学模拟突破上限
昔日GPU霸主,今日CPU屠夫?黄仁勋亮大招
AI占比首次过半!百度Q1交卷,GPU云同比暴涨184%
国产来袭!2nm AI GPU?
RISC-V与GPU协同,开辟高性能SoC发展路径
马斯克解散xAI,22万张GPU全送给Claude,为了绞杀OpenAI他真拼了!
不加GPU,万卡集群算力暴涨15%
重庆GPU独角兽,准备IPO
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号