英伟达从Ai 服务器GPU公司开始做起了CPU。
过去CPU更多像“搭配GPU用的配角”。现在不一样了。随着 AI 服务器越堆越大,GPU 之外的那一半算力CPU,开始变成瓶颈。
英伟达这条路其实走了很久。从早年的 Denver,到后来一代代 Tegra,再到数据中心的 Grace,英伟达一直没放弃。Vera 就是在这个背景下出现的,从Grace 之后,英伟达自己认真做一颗真正CPU。

Part 1
英伟达Grace 做得不差,甚至可以说超预期。很多数据中心已经在用它,尤其是在和 GPU 打包销售的场景里。Grace 核心不是英伟达自己设计的,而是基于 Arm 的 Neoverse V2。
换句话说,这套能力不是独家的。别人也能用。这在早期没什么问题,反而更稳。但一旦你想往上走,就会卡住。

英伟达这次的选择很干脆:不再用现成核心,自己做深度定义。
Vera 里的 CPU 核心叫 Olympus,基于 Arm v9.2 指令集,但架构完全自研,重新设计 CPU 内核。这么做风险不小。CPU 不是 GPU,验证周期长、bug 成本高。
但好处也很明确:
◎ 第一,性能可以按自己的需求来定。现在的数据中心,很多任务其实很“别扭”:GPU 负责并行算力,但大量调度、数据整理、长尾任务还是要靠 CPU。这部分如果跟不上,GPU 再强也会被拖住。
◎ 第二,成本结构会变。用 Arm 现成核心,需要付更高的授权费用;自己设计,只用指令集授权,成本会低一截。像 Apple、Qualcomm 早就走的是这条路。
◎ 第三,更关键的一点:差异化。整套系统(CPU+GPU+网络+软件),CPU如果是通用的,总是有一些不够极限。如果是自研核心,就可以把“系统能力”绑在一起卖。

说白了,Grace 是已经走了很大的一步,Vera 是要开始继续往前走两步。
Part 2
Vera 在设计上有个挺反直觉的地方:它看起来不像现在主流的服务器 CPU。先说最核心的一点,它把 88 个核心全部放在一个计算芯片里。
对比一下:
◎ AMD 的 EPYC:多芯片(最多16个计算Die)
◎ Intel 的 Xeon:计算+I/O 分散在多个Die
英伟达反而把“算力”集中起来,把内存和 I/O 拆出去。这带来一个直接结果:没有 NUMA。所有核心访问内存的路径是统一的,不需要跨节点通信。
这在某些场景下很有优势,比如:
◎ 数据一致性要求高
◎ 线程之间频繁通信
◎ 延迟敏感任务
但代价也不是没有。单Die做这么大,良率、成本、功耗压力都会上来。
另一个明显的变化,是它对内存带宽的“执念”。Vera 的带宽做到 1.2TB/s,这个数字在CPU里已经非常激进了。
原因也很现实:AI 任务的数据流量太大,CPU如果喂不动数据,GPU就会空转。
核心本身Olympus 走的是“宽前端”路线:
◎ 10宽解码器(比主流x86更宽)
◎ 双分支预测器
◎ 更大的缓存(L2翻倍,L3上到162MB)

这些设计的目的很统一:把单线程性能往上拉。但更有意思的是它的多线程策略。传统的 SMT 是时间片轮转,多个线程抢资源。Vera 用的是“空间多线程”:直接把资源切分,每个线程有自己的一块。
这就变成一个取舍问题:
◎ 想跑更多线程 → 每个线程性能下降
◎ 想要极致性能 → 线程数减少
这种设计其实更像在给数据中心一个“调节旋钮”,而不是固定答案。
Part 3

如果只看芯片,Vera 还是一颗 CPU。但把产品线一起看,就完全不一样了。
英伟达这次做了三件事:
◎ 把CPU做成“可独立扩展的资源”
以前你买英伟达,基本就是买 GPU。CPU 是配角。现在它直接推出 CPU 机架,一整柜 256 颗 CPU,配套内存、网络(包括 BlueField DPU)。你甚至可以只扩 CPU,不动 GPU。CPU 也可以成为一门单独的生意。
◎ 拉上整条服务器产业链
包括:Dell、Hewlett Packard Enterprise、Supermicro和Lenovo,这些厂商会做单路、双路服务器,也会做高密度机架。这一步很关键。因为英伟达过去的模式更偏“封闭系统”,现在开始往通用服务器市场渗透。
◎ 直接进入x86腹地
最敏感的一点,是 HGX NVL8 这种传统平台也开始用 Arm CPU。这意味着,Vera 不再只是“GPU的附属品”,而是要和 x86 正面竞争。
从目前披露的测试来看,Vera 在一些场景(比如流数据、SQL、长尾延迟)已经领先同代产品。
频率是多少?功耗控制如何?价格会不会太高?这些都还没公布,而在服务器市场,这些细节往往决定成败。

Vera 看起来是一颗 CPU,英伟达现在资源更多的,也需要更全面一些。现在在尝试卖整套计算平台。从 GPU 到 CPU,再到网络和软件,一层一层往上叠。AI 把整个数据中心重新洗了一遍,CPU 不再只是配角。