英伟达AI版图再扩容：Vera CPU登场！

前言：

过去两年，市场对英伟达的理解，大多停留在[AI卖铲人]。GPU是核心，CUDA是护城河，数据中心是现金流机器。

但在2026年之后，这个叙事已经明显过时。

很多人会误判Vera CPU是英伟达[补齐CPU能力]，实际上它更接近一种重新定义CPU在AI时代的职责。

作者 | 方文三

图片来源 | 网络

Vera CPU：为Token生产而生的专用算力底座

在这场GTC大会上英伟达正式官宣的Vera CPU，Vera CPU的核心变化正是英伟达首次将服务器CPU作为独立产品推向市场。

客户无需被迫购买整套机架级解决方案，就能在自身的计算堆栈中部署这款处理器。

这款处理器搭载88个英伟达完全自研的Olympus核心，基于Armv9.2架构打造。

每个核心通过空间多线程技术可同时运行两个任务，单颗芯片最高支持176线程，同时也是行业首款支持FP8精度的CPU。

在核心的内存子系统上，Vera采用英伟达第二代低功耗内存架构，搭配LPDDR5X内存，可实现高达1.2TB/s的带宽。

相比传统通用CPU实现带宽翻倍的同时，功耗仅为后者的一半。

在最核心的AI场景性能上，Vera的综合效率是传统机架级CPU的2倍，运行速度提升50%。

在代理式AI与强化学习工作负载中，可实现AI工作负载性能翻倍，单机架CPU吞吐量提升6倍。

而在与GPU的协同上，Vera通过NVLink-C2C互连技术，可实现与Rubin GPU之间1.8TB/s的一致性带宽。

这一数值是PCIe 6.0总线带宽的7倍，打通了CPU与GPU之间的数据传输瓶颈。

当行业的重心从大模型预训练，转向规模化推理与代理式AI落地，整个算力体系的瓶颈已经不再只是GPU的浮点算力。

一个完整的代理式AI任务，从用户指令输入，到模型推理生成，再到工具调用、多步规划、结果验证。

整个链路中只有核心的张量计算在GPU上完成，其余超过60%的工作，都需要CPU来承载。

尤其是在当前AI产业的核心商业场景中，Token已经成为所有AI服务的基础计量单元。

空间多线程技术摒弃了传统SMT技术的时间片轮转模式，通过物理隔离流水线组件，让单个核心可真正同时运行两个线程。

避免了多任务场景下的资源争抢，让多租户AI工厂中的Token生成性能可预测性实现了质的飞跃。

而翻倍的内存带宽与减半的功耗，直接让单颗CPU可承载的并发Token处理规模翻倍，从底层重构了Token生产的成本曲线。

从最早的GeForce系列消费级显卡，到Tesla系列数据中心GPU，再到Hopper、Blackwell架构的AI专用GPU，英伟达的核心优势始终集中在并行计算领域。

但在完整的AI数据中心中，除了GPU的核心计算，还需要CPU承担系统控制、任务调度、数据搬运、存储管理等关键工作。

此前，英伟达的AI服务器方案中，大多采用英特尔、AMD的x86 CPU，或是与自家Grace CPU绑定的Superchip方案，始终无法实现完全的自主可控。

而Vera的出现改变了这一局面，这款CPU既可以通过NVLink-C2C与Rubin GPU深度绑定，组成Vera Rubin超级计算平台。

也可以独立发售，单独部署在CPU机架中，承担代理式AI的环境模拟、任务编排等工作。

这意味着英伟达终于拥有了一款可以覆盖全场景的自研CPU，实现了AI数据中心从计算、控制、网络到存储的全链条自研闭环。

Vera Rubin重新定义Token商业

在黄仁勋的叙事中，Token已经成为AI时代全新的大宗商品，就像工业时代的石油、电力一样，算力的价值不再以FLOPS衡量，而是以Token的生产效率与成本来定义。

黄仁勋将未来的AI服务划分为五个商业层级：免费层、中端层（每百万token约3美元）、高级层（每百万token约6美元）、高速层（每百万token约45美元）、超高速层（每百万token约150美元）。

不同层级的Token服务，对应着截然不同的商业价值，而数据中心的每一度电，都能通过这套体系直接转化为可量化的营收。

Vera Rubin是为智能体AI的全生命周期设计的，它不是一款单一的芯片，而是由7款突破性芯片、5种机架级系统组成的一台巨型AI超级计算机。

7款核心芯片包括Vera CPU、Rubin GPU、NVLink 6交换机、ConnectX-9超级网卡、BlueField-4 DPU、Spectrum-6以太网交换机，以及全新集成的Groq 3 LPU。

5种机架系统则分别对应GPU计算、CPU调度、推理加速、存储、网络五大核心场景，形成了一套端到端优化的完整计算体系。

通过Dynamo软件系统，首创了[解耦推理]模式：将AI推理过程中，需要大规模矩阵计算的Prefill（预填充）阶段，交给算力强大的Rubin GPU处理；

而对延迟极度敏感、强顺序性的Decode（解码）token生成阶段，则卸载给Groq 3 LPU执行。

Rubin GPU作为平台的算力核心，单片搭载288GB HBM4内存，带宽高达22TB/s，是Blackwell GPU的2.75倍，能够轻松承载超大语言模型与海量上下文KV缓存的存储需求；

Groq 3 LPU则凭借500MB片上SRAM与150TB/s的片上带宽，将数据访问延迟降到了极致。

两者协同之下，在最具商业价值的高端推理层级，系统性能实现了35倍的跃升，每兆瓦算力吞吐量也同步提升了35倍。

Vera CPU与Rubin GPU组成的协同体系，直接将Token生产的效率推向了新的高度。

根据英伟达官方发布的数据，Vera Rubin NVL72机架，相比上一代Blackwell平台，在实现每瓦特推理吞吐量最高提升10倍的同时，每Token成本仅为原平台的十分之一。

这种成本的下降不是单纯来自GPU算力的提升，更多来自CPU与GPU的全链路协同优化。

在传统的AI系统中，CPU与GPU之间的数据传输延迟，是影响Token生成速度的核心瓶颈之一。

同时，Vera针对代理式AI场景的优化，直接解决了Token生产中的CPU性能瓶颈。

在强化学习与智能体训练场景中，需要大量的CPU环境来模拟真实场景，验证模型生成的结果，这部分场景对CPU的并发性能与内存带宽有着极高的要求。

一座1吉瓦的AI工厂，采用传统x86+Hopper架构，每秒仅能生产200万Token；而采用Vera Rubin平台后，每秒Token生成量飙升至7亿，提升幅度达到350倍。

黄仁勋测算，同样一座1吉瓦的数据中心，采用Blackwell平台能比Hopper实现5倍的营收增长，而Vera Rubin平台能比Blackwell再带来5倍的营收提升。

这也正是他敢于提出[到2027年，全球AI算力需求至少达到1万亿美元规模]的核心底气。

结尾：

大模型技术的同质化会越来越严重，单芯片的性能差距会越来越小，AI产业的竞争，最终会落到AI工业化的能力上。

谁能实现Token的规模化、低成本、标准化生产，谁能掌控Token商业的底层规则，谁就能在AI时代占据主导地位。

部分资料参考：

华尔街见闻：《英伟达重磅布局[服务器CPU]，黄仁勋：将推出Vera CPU》

EETOP：《88核、10发射！英伟达官宣超级处理器，入局CPU赛道，挑战Intel/AMD！》

极客公园：《没人比英伟达，更懂「下一代 AI 计算」》

END

英伟达AI版图再扩容：Vera CPU登场！图6