深度解析最快AI芯片：性能怪兽、AI奇迹芯片！

资讯配图

英伟达最快最先进的AI GPU: Blackwell Ultra GB300，号称AI 领域的奇迹芯片，日前，英伟达发布了一篇深度解析文章，详细介绍了其最新最强的 AI 芯片 ——GB300 Blackwell Ultra。这款芯片已全面投产，并已向核心客户交付。作为 Blackwell 解决方案的延伸产品，GB300 在性能和功能上实现了重大升级。性能超 GB200 50% 并配备 288GB 内存。

资讯配图

如同英伟达 Super 系列是原版 RTX 游戏显卡的增强版，Ultra 系列则是其 AI 芯片的进阶版本。尽管此前的 Hopper 和 Volta 等产品线未明确推出 Ultra 型号，但从技术层面看也存在类似的增强版本。值得注意的是，Ultra 芯片虽在硬件层面更具优势，但软件更新与优化同样能为非 Ultra 芯片带来显著性能提升。

资讯配图

那么，Blackwell Ultra GB300 究竟有何特别？如前所述，它采用两颗整片晶圆尺寸的芯片（Reticle-sized Dies），通过英伟达 NV-HBI 高带宽接口连接，在逻辑上呈现为单颗 GPU。该 GPU 基于台积电 4NP 工艺（专为英伟达优化的 5nm 制程）打造，集成了 2080 亿个晶体管。NV-HBI 接口为两颗 GPU 芯片提供 10TB/s 的带宽，同时确保其作为单一芯片协同工作。

资讯配图

英伟达 Blackwell Ultra GB300 GPU 集成了 160 个流式多处理器（SM），每个 SM 包含 128 个 CUDA 核心、4 个支持 FP8/FP6/NVFP4 精度计算的第五代张量核心、256KB 张量内存（TMEM）及特殊函数单元（SFU）。整体规格达到 20480 个 CUDA 核心、640 个张量核心及 40MB TMEM。

第五代张量核心是实现 AI 计算的核心引擎，英伟达在每代 GPU 的张量核心技术上均有重大创新：

·Volta 架构：8 线程矩阵乘法累加单元（MMA），支持 FP16 训练并搭配 FP32 累加计算

·Ampere 架构：全 warp 范围 MMA 单元，引入 BF16 和 TensorFloat-32 格式

·Hopper 架构：跨 128 线程的 warp 组 MMA 单元，集成支持 FP8 的 Transformer 引擎

·Blackwell 架构：第二代 Transformer 引擎，支持 FP8/FP6/NVFP4 计算及 TMEM 存储

资讯配图

Blackwell Ultra 还实现了内存规格的重大升级：搭载 288GB HBM3e 显存，较前代 Blackwell GB200 的最高 192GB 提升显著。这一升级使其能够支持万亿级参数规模的 AI 模型。内存采用 8 堆叠设计，配备 16 个 512 位控制器（总带宽 8192 位），单 GPU 显存带宽达 8TB/s，具体优势包括：

·完整模型驻留：无需内存卸载即可运行 3000 亿 + 参数模型

·扩展上下文长度：为 Transformer 模型提供更大 KV 缓存容量

·提升计算效率：针对多样化工作负载优化计算 - 内存比率

资讯配图