
英伟达最快最先进的AI GPU: Blackwell Ultra GB300,号称AI 领域的奇迹芯片,日前,英伟达发布了一篇深度解析文章,详细介绍了其最新最强的 AI 芯片 ——GB300 Blackwell Ultra。这款芯片已全面投产,并已向核心客户交付。作为 Blackwell 解决方案的延伸产品,GB300 在性能和功能上实现了重大升级。性能超 GB200 50% 并配备 288GB 内存。
如同英伟达 Super 系列是原版 RTX 游戏显卡的增强版,Ultra 系列则是其 AI 芯片的进阶版本。尽管此前的 Hopper 和 Volta 等产品线未明确推出 Ultra 型号,但从技术层面看也存在类似的增强版本。值得注意的是,Ultra 芯片虽在硬件层面更具优势,但软件更新与优化同样能为非 Ultra 芯片带来显著性能提升。
那么,Blackwell Ultra GB300 究竟有何特别?如前所述,它采用两颗整片晶圆尺寸的芯片(Reticle-sized Dies),通过英伟达 NV-HBI 高带宽接口连接,在逻辑上呈现为单颗 GPU。该 GPU 基于台积电 4NP 工艺(专为英伟达优化的 5nm 制程)打造,集成了 2080 亿个晶体管。NV-HBI 接口为两颗 GPU 芯片提供 10TB/s 的带宽,同时确保其作为单一芯片协同工作。
英伟达 Blackwell Ultra GB300 GPU 集成了 160 个流式多处理器(SM),每个 SM 包含 128 个 CUDA 核心、4 个支持 FP8/FP6/NVFP4 精度计算的第五代张量核心、256KB 张量内存(TMEM)及特殊函数单元(SFU)。整体规格达到 20480 个 CUDA 核心、640 个张量核心及 40MB TMEM。

第五代张量核心是实现 AI 计算的核心引擎,英伟达在每代 GPU 的张量核心技术上均有重大创新:
·Volta 架构:8 线程矩阵乘法累加单元(MMA),支持 FP16 训练并搭配 FP32 累加计算
·Ampere 架构:全 warp 范围 MMA 单元,引入 BF16 和 TensorFloat-32 格式
·Hopper 架构:跨 128 线程的 warp 组 MMA 单元,集成支持 FP8 的 Transformer 引擎
·Blackwell 架构:第二代 Transformer 引擎,支持 FP8/FP6/NVFP4 计算及 TMEM 存储
Blackwell Ultra 还实现了内存规格的重大升级:搭载 288GB HBM3e 显存,较前代 Blackwell GB200 的最高 192GB 提升显著。这一升级使其能够支持万亿级参数规模的 AI 模型。内存采用 8 堆叠设计,配备 16 个 512 位控制器(总带宽 8192 位),单 GPU 显存带宽达 8TB/s,具体优势包括:
·完整模型驻留:无需内存卸载即可运行 3000 亿 + 参数模型
·扩展上下文长度:为 Transformer 模型提供更大 KV 缓存容量
·提升计算效率:针对多样化工作负载优化计算 - 内存比率
Blackwell 系列的互联技术包括 NVLINK 交换机、NVLINK-C2C 连接,以及用于主机 GPU 连接的 PCIe Gen6 x16 接口。以下是 NVLINK 5 及主机端连接的关键特性:
·单 GPU 双向带宽:1.8TB/s(18 条链路 ×100GB/s)
·性能扩展:较 Hopper GPU 的 NVLink 4 提升 2 倍
·最大拓扑规模:支持 576 颗 GPU 构建无阻塞计算架构
·机架级集成:72 颗 GPU 的 NVL72 配置,总带宽达 130TB/s
·PCIe 接口:Gen6×16 通道(双向 256GB/s)
·NVLink-C2C:支持 Grace CPU-GPU 内存一致性通信(900GB/s)

得益于全新 NVFP4 标准,英伟达 Blackwell Ultra GB300 平台的密集低精度计算输出提升 50%,同时保持接近 FP8 的精度水平(差异通常小于 1%)。与 FP8 相比,NVFP4 还能将内存占用减少 1.8 倍,较 FP16 减少 3.5 倍。
Blackwell Ultra 还搭载了先进的调度管理与企业级安全特性:
·增强型 GigaThread 引擎:新一代工作调度器,优化上下文切换性能并实现 160 个 SM 间的工作负载智能分配
·多实例 GPU(MIG):支持将 GPU 划分为不同规格的 MIG 实例(如 2 个 140GB 实例、4 个 70GB 实例或 7 个 34GB 实例),实现安全多租户环境下的性能隔离
·机密计算与安全 AI:为敏感 AI 模型和数据提供硬件级可信执行环境(TEE),首次在 Blackwell 架构中集成 TEE-I/O 功能,并通过 NVLink 在线加密实现接近未加密模式的吞吐量
·高级远程证明服务(RAS)引擎:基于 AI 的可靠性监控系统,实时监测数千项参数以预测故障、优化维护计划,最大化大规模部署的系统可用性
性能效率方面,Blackwell Ultra GB300 的每兆瓦吞吐量(TPS/MW)较 Blackwell GB200 进一步提升(具体数据见下图)。
种种创新表明,英伟达凭借 Blackwell 及 Blackwell Ultra 等工程杰作稳居 AI 领域之巅。其深度软件支持与持续优化是核心竞争力,而年度硬件迭代节奏与不断加码的研发投入,将确保其在未来数年内持续引领行业。
报名即将关闭
西门子EDA大会
8月28日 上海
