堪称最强推理芯片！英伟达发布 Rubin CPX，实现50倍ROI！

电子发烧友网报道（文/梁浩斌）近日，英伟达在AI infra峰会上发布了专为大规模上下文推理设计的全新GPU系列Rubin CPX，性能堪称炸裂！

英伟达创始人兼CEO黄仁勋表示，“正如 RTX 革新了图形技术与物理 AI，Rubin CPX 则是首款专为大规模上下文 AI 设计的 CUDA GPU—— 在该场景下，模型可一次性基于数百万个token进行推理。”

作为基于Rubin架构的一款AI芯片，Rubin CPX采用了成本效益极高的单芯片设计，集成强大的NVFP4计算资源，其GPU专为AI推理任务优化，可以实现极高的性能和能效比。按照英伟达的说法，Rubin CPX平台可实现 30 至 50 倍的投资回报率（ROI），这意味着1亿美元的资本性支出（CAPEX）投入，能带来高达50亿美元的收入，又呼应了老黄此前的名言“买得越多赚得越多”，这不是新一代“印钞机”吗？

那么Rubin CPX是怎么实现高效AI推理的？

为什么需要Rubin CPX？

要理解Rubin CPX的作用，首先要知道分布式推理的架构原理。

AI推理过程包含两个截然不同的阶段：上下文阶段与生成阶段，这两个阶段对AI基础设施的需求存在本质差异。其中，上下文阶段受计算能力限制，需要通过高吞吐量处理来接收并分析大量输入数据，进而生成首个token输出结果。

与之不同的是，生成阶段受内存带宽限制，需依赖高速内存传输及NVLink等高速互联方案，以维持逐推理单元（token-by-token）的输出性能。

为了提高计算效率，英伟达通过分布式推理可以实现这两个阶段的独立处理，从而对计算和内存资源进行针对性优化。这一架构变革能够提升吞吐量、降低延迟，并提高整体资源利用率。

具体来说，分布式推理的流程是，文档 / 数据库 / 视频等数据输入至上下文处理器；其输出会传输至键值缓存（KV 缓存），供 GPU B 生成节点读取以生成结果。GPU A 针对长上下文处理进行了优化，而 GPU B 则在上下文阶段与生成阶段均能实现出色的总拥有成本表现。

然而，分布式架构也带来了新的复杂性层级，需要在低延迟 KV 缓存传输、大语言模型感知路由（LLM-aware Routing）及高效内存管理之间实现精准协同。英伟达 Dynamo可作为这些组件的编排层，其功能在最新的 MLPerf 推理基准测试结果中发挥了关键作用。

而分布式推理要发挥出其优势，在上下文处理阶段的效率提升尤为重要。Rubin CPX GPU就是专为解决这个阶段的计算效率的一种解决方案，目标是为高价值长上下文推理工作负载提供高吞吐量性能，同时可无缝集成至分布式基础设施中。

Vera Rubin NVL144 CPX平台：GB300 NVL72的7.5倍性能

Rubin CPX 具备30 petaFLOPs的NVFP4计算能力、128 GB的GDDR7内存、硬件级别的视频解码/编码支持，以及三倍于NVIDIA GB300的注意力机制加速性能。

比如处理视频时，AI模型每处理1小时的内容可能需要多达100 万个token，这突破了传统 GPU的计算极限。Rubin CPX在单芯片中集成了视频解码器与编码器，以及长上下文推理处理功能，从而在视频搜索、高质量生成式视频等长时长应用场景中，实现了前所未有的性能。

同时，英伟达也推出了一套集成Rubin CPX 、NVIDIA Vera CPU、Rubin GPU的完整高性能分布式服务解决方案——NVIDIA Vera Rubin NVL144 CPX。

Vera Rubin NVL144 CPX 图源：英伟达

NVIDIA Vera Rubin NVL144 CPX机架集成144个Rubin CPX GPU、144个Rubin GPU 以及36个 Vera CPU，能够实现8 exaFLOPs的NVFP4计算性能，是GB300 NVL72的7.5倍，同时还提供100 TB的高速内存和高达1.7 PB/s的内存带宽。

Vera Rubin NVL144 CPX采用了NVIDIA Quantum-X800 InfiniBand或Spectrum-X以太网技术，与NVIDIA ConnectX-9 SuperNIC配合使用，并由Dynamo平台进行管理。英伟达表示，在规模化应用中，该平台能够实现30至50倍的投资回报。

值得一提的是，对于已经订购Vera Rubin NVL144系统的用户，英伟达也提供专用的Rubin CPX 计算托盘，可以在现有的Vera Rubin NVL144系统上拓展推理能力。

根据此前英伟达的上市时间表，Rubin架构GPU预计在2026年正式上市，预计在今年9月交付客户测试。而同为Rubin架构的Rubin CPX GPU，英伟达预计会在2026年下半年上市，Vera Rubin NVL144 CPX则预计在2026年底上市。

近日英伟达宣布，年度技术大会GTC2026将会在2026年3月16日至19日举行，预计在大会上将正式推出Rubin GPU和Vera CPU两大产品。

写在最后

Rubin CPX的推出，可以说是AI推理侧的一颗“重磅炸弹”。正如黄仁勋提到的“Rubin CPX 是 AI 推理领域的 RTX”，AI算力硬件正在通过细分场景的优化，实现革命性的效率提升。同时借助Rubin CPX，英伟达开拓了算力硬件的新形式，占领长上下文推理领域的“无人区”。在视频、代码生成等用到巨量Token的领域，未来Rubin CPX可能会占据极为有利的生态位，继续筑牢英伟达在AI基建市场的护城河。

资讯配图