过去两年,市场对英伟达的理解,大多停留在[AI卖铲人]。GPU是核心,CUDA是护城河,数据中心是现金流机器。
但在2026年之后,这个叙事已经明显过时。
很多人会误判Vera CPU是英伟达[补齐CPU能力],实际上它更接近一种重新定义CPU在AI时代的职责。

Vera CPU:为Token生产而生的专用算力底座
在这场GTC大会上英伟达正式官宣的Vera CPU,Vera CPU的核心变化正是英伟达首次将服务器CPU作为独立产品推向市场。
客户无需被迫购买整套机架级解决方案,就能在自身的计算堆栈中部署这款处理器。
这款处理器搭载88个英伟达完全自研的Olympus核心,基于Armv9.2架构打造。
每个核心通过空间多线程技术可同时运行两个任务,单颗芯片最高支持176线程,同时也是行业首款支持FP8精度的CPU。
在核心的内存子系统上,Vera采用英伟达第二代低功耗内存架构,搭配LPDDR5X内存,可实现高达1.2TB/s的带宽。
相比传统通用CPU实现带宽翻倍的同时,功耗仅为后者的一半。
在最核心的AI场景性能上,Vera的综合效率是传统机架级CPU的2倍,运行速度提升50%。
在代理式AI与强化学习工作负载中,可实现AI工作负载性能翻倍,单机架CPU吞吐量提升6倍。
而在与GPU的协同上,Vera通过NVLink-C2C互连技术,可实现与Rubin GPU之间1.8TB/s的一致性带宽。
这一数值是PCIe 6.0总线带宽的7倍,打通了CPU与GPU之间的数据传输瓶颈。

当行业的重心从大模型预训练,转向规模化推理与代理式AI落地,整个算力体系的瓶颈已经不再只是GPU的浮点算力。
一个完整的代理式AI任务,从用户指令输入,到模型推理生成,再到工具调用、多步规划、结果验证。
整个链路中只有核心的张量计算在GPU上完成,其余超过60%的工作,都需要CPU来承载。
尤其是在当前AI产业的核心商业场景中,Token已经成为所有AI服务的基础计量单元。
空间多线程技术摒弃了传统SMT技术的时间片轮转模式,通过物理隔离流水线组件,让单个核心可真正同时运行两个线程。
避免了多任务场景下的资源争抢,让多租户AI工厂中的Token生成性能可预测性实现了质的飞跃。
而翻倍的内存带宽与减半的功耗,直接让单颗CPU可承载的并发Token处理规模翻倍,从底层重构了Token生产的成本曲线。
从最早的GeForce系列消费级显卡,到Tesla系列数据中心GPU,再到Hopper、Blackwell架构的AI专用GPU,英伟达的核心优势始终集中在并行计算领域。
但在完整的AI数据中心中,除了GPU的核心计算,还需要CPU承担系统控制、任务调度、数据搬运、存储管理等关键工作。
此前,英伟达的AI服务器方案中,大多采用英特尔、AMD的x86 CPU,或是与自家Grace CPU绑定的Superchip方案,始终无法实现完全的自主可控。
而Vera的出现改变了这一局面,这款CPU既可以通过NVLink-C2C与Rubin GPU深度绑定,组成Vera Rubin超级计算平台。
也可以独立发售,单独部署在CPU机架中,承担代理式AI的环境模拟、任务编排等工作。
这意味着英伟达终于拥有了一款可以覆盖全场景的自研CPU,实现了AI数据中心从计算、控制、网络到存储的全链条自研闭环。

Vera Rubin重新定义Token商业
在黄仁勋的叙事中,Token已经成为AI时代全新的大宗商品,就像工业时代的石油、电力一样,算力的价值不再以FLOPS衡量,而是以Token的生产效率与成本来定义。
黄仁勋将未来的AI服务划分为五个商业层级:免费层、中端层(每百万token约3美元)、高级层(每百万token约6美元)、高速层(每百万token约45美元)、超高速层(每百万token约150美元)。
不同层级的Token服务,对应着截然不同的商业价值,而数据中心的每一度电,都能通过这套体系直接转化为可量化的营收。
Vera Rubin是为智能体AI的全生命周期设计的,它不是一款单一的芯片,而是由7款突破性芯片、5种机架级系统组成的一台巨型AI超级计算机。
7款核心芯片包括Vera CPU、Rubin GPU、NVLink 6交换机、ConnectX-9超级网卡、BlueField-4 DPU、Spectrum-6以太网交换机,以及全新集成的Groq 3 LPU。
5种机架系统则分别对应GPU计算、CPU调度、推理加速、存储、网络五大核心场景,形成了一套端到端优化的完整计算体系。

通过Dynamo软件系统,首创了[解耦推理]模式:将AI推理过程中,需要大规模矩阵计算的Prefill(预填充)阶段,交给算力强大的Rubin GPU处理;
而对延迟极度敏感、强顺序性的Decode(解码)token生成阶段,则卸载给Groq 3 LPU执行。
Rubin GPU作为平台的算力核心,单片搭载288GB HBM4内存,带宽高达22TB/s,是Blackwell GPU的2.75倍,能够轻松承载超大语言模型与海量上下文KV缓存的存储需求;
Groq 3 LPU则凭借500MB片上SRAM与150TB/s的片上带宽,将数据访问延迟降到了极致。
两者协同之下,在最具商业价值的高端推理层级,系统性能实现了35倍的跃升,每兆瓦算力吞吐量也同步提升了35倍。
Vera CPU与Rubin GPU组成的协同体系,直接将Token生产的效率推向了新的高度。
根据英伟达官方发布的数据,Vera Rubin NVL72机架,相比上一代Blackwell平台,在实现每瓦特推理吞吐量最高提升10倍的同时,每Token成本仅为原平台的十分之一。
这种成本的下降不是单纯来自GPU算力的提升,更多来自CPU与GPU的全链路协同优化。
在传统的AI系统中,CPU与GPU之间的数据传输延迟,是影响Token生成速度的核心瓶颈之一。
同时,Vera针对代理式AI场景的优化,直接解决了Token生产中的CPU性能瓶颈。
在强化学习与智能体训练场景中,需要大量的CPU环境来模拟真实场景,验证模型生成的结果,这部分场景对CPU的并发性能与内存带宽有着极高的要求。
一座1吉瓦的AI工厂,采用传统x86+Hopper架构,每秒仅能生产200万Token;而采用Vera Rubin平台后,每秒Token生成量飙升至7亿,提升幅度达到350倍。
黄仁勋测算,同样一座1吉瓦的数据中心,采用Blackwell平台能比Hopper实现5倍的营收增长,而Vera Rubin平台能比Blackwell再带来5倍的营收提升。
这也正是他敢于提出[到2027年,全球AI算力需求至少达到1万亿美元规模]的核心底气。

结尾:
大模型技术的同质化会越来越严重,单芯片的性能差距会越来越小,AI产业的竞争,最终会落到AI工业化的能力上。
谁能实现Token的规模化、低成本、标准化生产,谁能掌控Token商业的底层规则,谁就能在AI时代占据主导地位。
部分资料参考:
华尔街见闻:《英伟达重磅布局[服务器CPU],黄仁勋:将推出Vera CPU》
EETOP:《88核、10发射!英伟达官宣超级处理器,入局CPU赛道,挑战Intel/AMD!》
极客公园:《没人比英伟达,更懂「下一代 AI 计算」》
END
