英伟达AI版图再扩容:Vera CPU登场!

21ic电子网 2026-03-25 16:15
 
 
前言

过去两年,市场对英伟达的理解,大多停留在[AI卖铲人]。GPU是核心,CUDA是护城河,数据中心是现金流机器。

但在2026年之后,这个叙事已经明显过时。

很多人会误判Vera CPU是英伟达[补齐CPU能力],实际上它更接近一种重新定义CPU在AI时代的职责。

作者 | 方文三
图片来源 |  网 络 
英伟达AI版图再扩容:Vera CPU登场!图1

Vera CPU:为Token生产而生的专用算力底座

在这场GTC大会上英伟达正式官宣的Vera CPU,Vera CPU的核心变化正是英伟达首次将服务器CPU作为独立产品推向市场。

客户无需被迫购买整套机架级解决方案,就能在自身的计算堆栈中部署这款处理器。

这款处理器搭载88个英伟达完全自研的Olympus核心,基于Armv9.2架构打造。

每个核心通过空间多线程技术可同时运行两个任务,单颗芯片最高支持176线程,同时也是行业首款支持FP8精度的CPU。

在核心的内存子系统上,Vera采用英伟达第二代低功耗内存架构,搭配LPDDR5X内存,可实现高达1.2TB/s的带宽。

相比传统通用CPU实现带宽翻倍的同时,功耗仅为后者的一半。

在最核心的AI场景性能上,Vera的综合效率是传统机架级CPU的2倍,运行速度提升50%。

在代理式AI与强化学习工作负载中,可实现AI工作负载性能翻倍,单机架CPU吞吐量提升6倍。

而在与GPU的协同上,Vera通过NVLink-C2C互连技术,可实现与Rubin GPU之间1.8TB/s的一致性带宽。

这一数值是PCIe 6.0总线带宽的7倍,打通了CPU与GPU之间的数据传输瓶颈。

英伟达AI版图再扩容:Vera CPU登场!图2

当行业的重心从大模型预训练,转向规模化推理与代理式AI落地,整个算力体系的瓶颈已经不再只是GPU的浮点算力。

一个完整的代理式AI任务,从用户指令输入,到模型推理生成,再到工具调用、多步规划、结果验证。

整个链路中只有核心的张量计算在GPU上完成,其余超过60%的工作,都需要CPU来承载。

尤其是在当前AI产业的核心商业场景中,Token已经成为所有AI服务的基础计量单元。

空间多线程技术摒弃了传统SMT技术的时间片轮转模式,通过物理隔离流水线组件,让单个核心可真正同时运行两个线程。

避免了多任务场景下的资源争抢,让多租户AI工厂中的Token生成性能可预测性实现了质的飞跃。

而翻倍的内存带宽与减半的功耗,直接让单颗CPU可承载的并发Token处理规模翻倍,从底层重构了Token生产的成本曲线。

从最早的GeForce系列消费级显卡,到Tesla系列数据中心GPU,再到Hopper、Blackwell架构的AI专用GPU,英伟达的核心优势始终集中在并行计算领域。

但在完整的AI数据中心中,除了GPU的核心计算,还需要CPU承担系统控制、任务调度、数据搬运、存储管理等关键工作。

此前,英伟达的AI服务器方案中,大多采用英特尔、AMD的x86 CPU,或是与自家Grace CPU绑定的Superchip方案,始终无法实现完全的自主可控。

Vera的出现改变了这一局面,这款CPU既可以通过NVLink-C2C与Rubin GPU深度绑定,组成Vera Rubin超级计算平台。

也可以独立发售,单独部署在CPU机架中,承担代理式AI的环境模拟、任务编排等工作。

这意味着英伟达终于拥有了一款可以覆盖全场景的自研CPU,实现了AI数据中心从计算、控制、网络到存储的全链条自研闭环。

英伟达AI版图再扩容:Vera CPU登场!图3

Vera Rubin重新定义Token商业

在黄仁勋的叙事中,Token已经成为AI时代全新的大宗商品,就像工业时代的石油、电力一样,算力的价值不再以FLOPS衡量,而是以Token的生产效率与成本来定义。

黄仁勋将未来的AI服务划分为五个商业层级:免费层、中端层(每百万token约3美元)、高级层(每百万token约6美元)、高速层(每百万token约45美元)、超高速层(每百万token约150美元)。

不同层级的Token服务,对应着截然不同的商业价值,而数据中心的每一度电,都能通过这套体系直接转化为可量化的营收。

Vera Rubin是为智能体AI的全生命周期设计的,它不是一款单一的芯片,而是由7款突破性芯片、5种机架级系统组成的一台巨型AI超级计算机。

7款核心芯片包括Vera CPU、Rubin GPU、NVLink 6交换机、ConnectX-9超级网卡、BlueField-4 DPU、Spectrum-6以太网交换机,以及全新集成的Groq 3 LPU。

5种机架系统则分别对应GPU计算、CPU调度、推理加速、存储、网络五大核心场景,形成了一套端到端优化的完整计算体系。

英伟达AI版图再扩容:Vera CPU登场!图4

通过Dynamo软件系统,首创了[解耦推理]模式:将AI推理过程中,需要大规模矩阵计算的Prefill(预填充)阶段,交给算力强大的Rubin GPU处理;

而对延迟极度敏感、强顺序性的Decode(解码)token生成阶段,则卸载给Groq 3 LPU执行。

Rubin GPU作为平台的算力核心,单片搭载288GB HBM4内存,带宽高达22TB/s,是Blackwell GPU的2.75倍,能够轻松承载超大语言模型与海量上下文KV缓存的存储需求;

Groq 3 LPU则凭借500MB片上SRAM与150TB/s的片上带宽,将数据访问延迟降到了极致。

两者协同之下,在最具商业价值的高端推理层级,系统性能实现了35倍的跃升,每兆瓦算力吞吐量也同步提升了35倍。

Vera CPU与Rubin GPU组成的协同体系,直接将Token生产的效率推向了新的高度。

根据英伟达官方发布的数据,Vera Rubin NVL72机架,相比上一代Blackwell平台,在实现每瓦特推理吞吐量最高提升10倍的同时,每Token成本仅为原平台的十分之一。

这种成本的下降不是单纯来自GPU算力的提升,更多来自CPU与GPU的全链路协同优化。

在传统的AI系统中,CPU与GPU之间的数据传输延迟,是影响Token生成速度的核心瓶颈之一。

同时,Vera针对代理式AI场景的优化,直接解决了Token生产中的CPU性能瓶颈。

在强化学习与智能体训练场景中,需要大量的CPU环境来模拟真实场景,验证模型生成的结果,这部分场景对CPU的并发性能与内存带宽有着极高的要求。

一座1吉瓦的AI工厂,采用传统x86+Hopper架构,每秒仅能生产200万Token;而采用Vera Rubin平台后,每秒Token生成量飙升至7亿,提升幅度达到350倍。

黄仁勋测算,同样一座1吉瓦的数据中心,采用Blackwell平台能比Hopper实现5倍的营收增长,而Vera Rubin平台能比Blackwell再带来5倍的营收提升。

这也正是他敢于提出[到2027年,全球AI算力需求至少达到1万亿美元规模]的核心底气。

英伟达AI版图再扩容:Vera CPU登场!图5

结尾:

大模型技术的同质化会越来越严重,单芯片的性能差距会越来越小,AI产业的竞争,最终会落到AI工业化的能力上。

谁能实现Token的规模化、低成本、标准化生产,谁能掌控Token商业的底层规则,谁就能在AI时代占据主导地位。

部分资料参考:

华尔街见闻:《英伟达重磅布局[服务器CPU],黄仁勋:将推出Vera CPU》

EETOP:《88核、10发射!英伟达官宣超级处理器,入局CPU赛道,挑战Intel/AMD!》

极客公园:《没人比英伟达,更懂「下一代 AI 计算」》

END

 

英伟达AI版图再扩容:Vera CPU登场!图6

 

 

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI 英伟达
more
在谷歌与英伟达的侧翼,中国玩家正用“光速”铺设一条算力快车道
OPPO、vivo官宣调价;GTC 2026大会汇总:英伟达版“小龙虾”、DLSS 5 超分技术;苹果AirPods Max2耳机发布;阿里成立Token Hub事业群...
李飞飞World Labs获10亿美元融资,英伟达AMD罕见联手押注“空间智能”
机器人全程自主收拾客厅!390亿美元估值机器人端到端新技能,英伟达持续加注
截击英伟达!OpenClaw狂吞Token,北大系芯片黑马剑指2000 Tokens/s
汽车早餐 | 英伟达联手比亚迪、吉利等车企打造L4级自动驾驶汽车;雷军再回应停售初代SU7; 大众与小鹏第二款联合开发车型今年发布
今日看点:SpaceXAI和特斯拉预计继续订购英伟达片;腾势D9官宣搭载比亚迪第二代刀片电池
马斯克要自己做「英伟达+台积电」!宇宙芯片宏图开工,算力产能扩5000%
英伟达发布DLSS 5:黄仁勋称其为“图形学的GPT时刻”,并预示AI将重塑多行业计算范式
英伟达GTC 2026前瞻:Feynman架构首发1.6nm工艺,AI算力迈入新纪元
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号