本周在加利福尼亚州帕洛阿尔托(Palo Alto)举行的 Hot Chips 大会上,NVIDIA 专家详细介绍了 NVIDIA NVLink 和Spectrum-X 以太网技术、Blackwell 以及 CUDA 如何为全球数百万的 AI 工作流加速推理。

AI 逻辑推理和网络成为 Hot Chips 大会的首要焦点。
Hot Chips 是一个面向行业和学术界的关于处理器及系统架构的重要论坛,在太平洋时间 8 月 24 - 26 日于斯坦福大学举办,旨在展示创新成果,推动 AI 工厂发展,助力万亿美元的数据中心计算市场。
大会期间,NVIDIA 与谷歌(Google)和微软(Microsoft)等行业领导者在 8 月 24 日(星期日)一起举办了一场“授课式”会议——探讨如何为数据中心设计以机柜为单位的新架构。
此外,NVIDIA 专家还在四场会议和一场课程中详细介绍了:
NVIDIA 网络(包括 NVIDIA ConnectX-8 SuperNIC)支持机整柜和数据中心规模的 AI 逻辑推理。(由NVIDIA 负责网卡和 SoC 的首席架构师 Idan Burstein 主讲)
由 NVIDIA Blackwell 架构所支持的神经渲染的进步及推理能力的巨大飞跃——从而提供更高级别的图形和仿真功能。(由 NVIDIA 系统架构高级总监 Marc Blackstein 主讲)
基于硅光技术的 NVIDIA CPO 交换机——采用光速光纤取代铜缆,可更快地传送信息,并且功耗更低,助力打造高效、高性能的十亿瓦级 AI 工厂。本次演讲还将重点介绍 NVIDIA Spectrum-XGS 以太网,这是一种新的跨地域扩展技术,可将多个分布式数据中心组合为 AI 超级工厂。(由 NVIDIA 网络高级副总裁 Gilad Shainer 主讲)
NVIDIA GB10 超级芯片成为 NVIDIA DGX Spark 台式超级计算机的引擎。(由 NVIDIA 高级杰出工程师 Andi Skende 主讲)
这些都是 NVIDIA 的最新技术如何通过加速推理来推动各个领域和各种规模的 AI 创新的一部分。
NVIDIA 网络促进了大规模的 AI 创新
AI 逻辑推理指的是 AI 系统可以通过多个 AI 推理步骤来分析和解决复杂问题——这需要机柜级规模的性能,以便高效地提供最佳的用户体验。
如今,为 AI 工作负载提供动力的数据中心里,网络如同中枢神经系统一样——将所有组件(服务器、存储设备和其他硬件)统一连接成一个强大的计算单元。
Burstein 在 Hot Chips 大会上的报告将会深入探讨 NVIDIA 网络技术(特别是 NVIDIA ConnectX-8 SuperNIC)如何实现高速、低延迟的多 GPU 通信,并在大规模场景下提供领先的 AI 逻辑推理性能。

NVIDIA ConnectX-8 SuperNIC
作为 NVIDIA 网络平台的一部分,NVIDIA NVLink、NVLink Switch 和 NVLink Fusion 提供了纵向扩展(scale-up)连接——能够在服务器内部及跨服务器连接 GPU 和计算元件,实现超低延迟、高带宽的数据交换。
NVIDIA Spectrum-X 以太网提供了横向扩展(scale-out) 来连接整个集群,能够快速将海量数据集导入到 AI 模型中,并编排数据中心内的 GPU 到 GPU 的通信。Spectrum-XGS 跨区域扩展(scale-across)技术将 Spectrum-X 以太网的卓越性能和扩展能力扩展到多个分布式数据中心,组成十亿瓦级的智能 AI 超级工厂。

NVIDIA Spectrum-XGS 以太网连接多个分布式 AI 数据中心
作为 Spectrum-X Ethernet 的核心,CPO 交换机推升了大规模 AI 基础设施的性能和效率极限。Gilad Shainer 将在其演讲中详细介绍这一内容。
NVIDIA Blackwell NVL72——单机柜百亿亿级(Exascale)计算机——配备了 36 个 NVIDIA 超级芯片,其中每组芯片包含 2 个 NVIDIA GPU 和 1 个 NVIDIA CPU,通过目前最大的 NVLink 域实现互连。NVLink 交换机为 AI 和高性能计算工作负载提供每秒 130 TB/s的低延迟 GPU 通信。

NVIDIA 单机柜系统
NVIDIA Blackwell 架构,在推理性能方面实现了巨大的跃进。
NVIDIA GeForce RTX 5090 D v2 GPU(同样由 Blackwell 提供支持)——通过 NVIDIA DLSS 4 技术将当今游戏中的 AI 性能翻倍。
它还能够为游戏添加神经网络渲染功能,提供至高可达 10 倍的性能提升、10 倍的存储空间扩展,并将设计周期缩短 10 倍,有助于增强计算机图形和仿真中的逼真度。这不但在低功耗的情况下提供了流畅、灵敏的视觉体验,而且大大提升了游戏角色和特效的拟真度。
NVIDIA CUDA 是全球应用最广泛的计算基础设施,让用户能在任何地方利用 NVIDIA Blackwell 部署与运行AI模型。
全球已有数亿台的 GPU 运行 CUDA,从 NVIDIA Blackwell 架构规模的系统到搭载 GeForce RTX 和 NVIDIA RTX PRO 的 PC 和工作站,包括由 NVIDIA GB10 提供支持的 NVIDIA DGX Spark(在 Skende 的会议中讨论过的)也即将发布。
从算法到 AI 超级计算机
对大语言模型(LLM)的全面优化

NVIDIA DGX Spark
DGX Spark 用小巧的机身提供了强大的性能和功能,使开发者、研究人员、数据科学家和学生能够在桌面上突破生成式 AI 的界限,加速各行业的工作负载。
作为 NVIDIA Blackwell 平台的一部分,DGX Spark 支持 NVFP4,这是一种低精度数值格式,用于实现高效的代理式 AI 推理,特别是针对大语言模型(LLM)。
通过开源协作推动推理创新
NVIDIA 通过加速各种开放源代码库和框架,来加速和优化 LLM 和分布式推理的 AI 工作负载。这些平台包括NVIDIA TensorRT-LLM、NVIDIA Dynamo、TileIR、Cutlass、NVIDIA 集合通信库和 NIXL——它们都已被集成到数百万个工作流中。
为了支持开发者们能够使用自己的框架,NVIDIA 已与顶级开放框架供应商合作,为 FlashInfer、PyTorch、SGLang、vLLM 等提供模型优化。
此外,NVIDIA NIM 微服务也可用于 OpenAI 的 gpt-oss 和 Llama 4 等热门开放模型,使开发者能够轻松地在其喜欢的基础设施上,像运行自托管模型一样灵活安全地操作托管应用程序界面。
参与 NVIDIA 在 Hot Chips 大会上的活动,以了解推理和加速计算的最新进展。
点击“阅读原文”或扫描下方海报二维码,观看 NVIDIA AI 研究负责人 Sanja Fidler、Aaron Lefohn 和 Ming-Yu Liu 的特别演讲中文字幕版,了解他们如何为计算机图形和物理 AI 的下一步发展布局。
