

效率最高可达现有旗舰机架的7.5倍。
英伟达于9月9日正式发布了一款专为处理海量上下文而打造的新型GPU——NVIDIA Rubin CPX,旨在“以前所未有的速度和效率,赋能百万级Token的软件编码、生成式视频等复杂AI任务。”
这款专用处理器将与NVIDIA Vera CPU及下一代Rubin GPU协同工作,共同构成全新的NVIDIA Vera Rubin NVL144 CPX集成平台。该平台在单个机柜内即可提供高达8 exaflops的AI算力,性能是当前NVIDIA GB300 NVL72系统的7.5倍,并配备100TB高速内存和每秒1.7 PB的内存带宽,为AI推理设定了全新基准。

NVIDIA创始人兼首席执行官黄仁勋在发布会上表示:“Vera Rubin平台将标志着AI计算前沿的又一次飞跃。正如RTX彻底改变了图形和物理AI,Rubin CPX是首款专为海量上下文AI打造的CUDA GPU,在这种场景下,模型可以一次性对数百万token的知识进行推理。”

英伟达表示,推理已成为人工智能复杂性的新前沿。现代模型正演变为能够进行多步推理、拥有持久内存和长上下文的智能体系统,使其能够处理软件开发、视频生成和深度研究等领域的复杂任务。这些工作负载对基础设施提出了前所未有的要求,在计算、内存和网络方面引入了新的挑战,需要我们从根本上重新思考如何扩展和优化推理。
在这些挑战中,为特定类别的工作负载处理海量上下文变得日益关键。例如,在软件开发中,AI系统必须对整个代码库进行推理,维护跨文件的依赖关系,并理解代码仓库级别的结构——这正将编码助手从自动补全工具转变为智能协作者。同样,长视频和研究应用要求在数百万token中保持持续的连贯性和记忆。这些需求正在挑战当前基础设施所能支持的极限。
英伟达认为,AI推理主要分为两个阶段:上下文阶段(Context Phase)和生成阶段(Generation Phase)。前者是计算密集型,需要高吞吐量处理海量输入数据;后者是内存带宽密集型,依赖高速数据传输逐个生成token。为优化效率,NVIDIA采用了“分解式推理”架构,将两个阶段交由最适合的硬件独立处理。
而NVIDIA Rubin CPX正是为加速计算密集的“上下文阶段”而设计的专用解决方案。它采用高成本效益的单片式芯片设计,提供高达30 petaflops的NVFP4精度算力,配备128GB GDDR7内存,并将注意力(attention)功能速度提升至GB300 NVL72的三倍。此外,它还在单芯片上集成了视频编解码器和长上下文推理处理功能,极大地提升了视频搜索、高清视频生成等应用的性能。

NVIDIA指出,通过这种专用硬件,企业能够以前所未有的规模创造价值,预计每投入1亿美元资本,即可带来高达50亿美元的token收入。

新平台已获得行业创新者的广泛关注。AI代码编辑器开发商Cursor表示,Rubin CPX将带来“闪电般的代码生成速度”,改变软件开发模式。生成式AI公司Runway认为,新平台是“性能上的一次重大飞跃”,将帮助创作者在视频工作中获得前所未有的速度与真实感。致力于软件工程自动化的AI研究公司Magic也指出,Rubin CPX能极大地加速其处理亿级token上下文模型的计算工作负载。
Rubin CPX将得到NVIDIA AI技术栈的全面支持,包括可高效扩展AI推理的NVIDIA Dynamo平台、NVIDIA Nemotron多模态模型系列以及包含NIM微服务的NVIDIA AI Enterprise企业级软件平台。
NVIDIA Rubin CPX平台预计将于2026年底正式上市。

在发布未来架构的同时,NVIDIA于9月9日公布的最新MLPerf Inference v5.1行业基准测试结果中,再次彰显了其在当前AI推理领域的领导地位。
本轮测试中,NVIDIA首次提交了基于全新Blackwell Ultra架构(通过GB300 NVL72系统)的成绩,并立即刷新了所有新增基准测试的性能记录,包括Llama 3.1 405B和Whisper等。
尤其是在处理高达6710亿参数的混合专家模型DeepSeek-R1时,Blackwell Ultra的单GPU性能达到了上一代Hopper架构的约5倍,实现了巨大的性能飞跃。这一成就得益于NVIDIA的全栈优化能力,包括:广泛应用NVFP4四位浮点格式进行加速、通过TensorRT-LLM等软件库实现先进的模型和KV缓存量化,以及为复杂模型开发的全新并行技术。






