英伟达Vera CPU基准测试，Olympus内核实现ARM架构史上巅峰性能

Vera是英伟达新一代数据中心CPU，专为智能体人工智能及各类主流现代数据中心负载场景打造。该处理器主要搭配英伟达NVL72 Vera Rubin平台使用，作为高性能AI机架的主处理器，同时也可单独应用于纯CPU机架。英伟达此前的Grace处理器采用Arm Neoverse-V2内核，而Vera则搭载了英伟达自研的奥林匹斯（Olympus）内核。

Vera搭载88颗奥林匹斯内核，官方称其性能较上一代产品提升一倍，同时能效表现也处于行业领先水平。奥林匹斯内核兼容Armv9.2指令集架构，支持FP8精度运算，依托空间多线程技术可实现总计176线程，并搭配 LPDDR5X内存，内存带宽最高可达 1.2TB/s。相较于Grace处理器，Vera的二级缓存实现翻倍，每核容量为2MB；统一三级缓存扩容至164MB，同时支持PCIe 6.0与CXL 3.1接口规范。

智能体人工智能的发展浪潮，为AI算力中心提出了全新的CPU要求，内核运算速度要快、内存带宽需充足，且所有内核满载运行时仍能持续输出高性能。

硬件评测网站Phoronix今日发布的首轮基准测试结果显示，英伟达Vera CPU完全满足上述需求。本次公开测试聚焦该处理器的设计初衷，针对现代数据中心中的智能体人工智能负载展开评测。

Vera CPU既能提供 AI 算力工厂所需的高吞吐能力，又可优化整机平台功耗。这款产品搭载88颗英伟达自研奥林匹斯内核，内存带宽可达1.2TB/s，再辅以高速片内互联架构，在合理的功耗区间内，实现了单核性能与大内存带宽的兼备。

英伟达奥林匹斯内核：性能实现大幅突破

奥林匹斯自研内核是Vera处理器的核心。该内核全面兼容Armv9.2指令集架构，专为支撑智能体人工智能的串行计算任务打造，可高效应对分支密集型运行环境、沙箱程序、数据处理以及任务调度等工作场景。而Vera采用单片式设计，搭配宽执行内核、先进的分支预测技术以及英伟达第二代可扩展一致性互联架构，保障88颗内核之间的数据高效流转。

英伟达Vera CPU基准测试，Olympus内核实现ARM架构史上巅峰性能图4

本次测试采用单路Vera平台，其热设计功耗为450瓦，配套内存功耗低于30瓦。实测数据表明，该平台在对应功耗范围内性能表现出色，在代码编译、文件压缩、视频转码、Python、Java及数据库管理等各类主流负载中，Vera相较上一代产品均实现性能提升，而上述场景，正是智能体程序与 AI 算力工厂日常运行的典型高负载任务，包括代码编译、程序运行、数据压缩、数据库查询以及大型软件栈调度等。

Phoronix创始人兼主笔迈克尔・拉雷贝尔表示：“测试之初，我并不清楚搭载全新奥林匹斯内核的英伟达Vera实际表现如何。但测试结束后我意识到，它已然成为英特尔、超威x86_64处理器有史以来最强劲的竞争对手，这是以往所有 ARM 架构及其他非x86_64架构处理器都未曾达到的水准。”内存性能优势显著

智能体人工智能负载的性能并不单纯取决于核心数量，这类应用要求内核高利用率与持续稳定的内存带宽，因此每瓦内存性能成为衡量CPU综合能效的关键指标。

Vera搭载第二代LPDDR5X内存子系统，相比传统DDR5内存，其单位数据传输能耗大幅降低。该平台内存带宽最高可达1.2TB/s，峰值带宽是传统CPU的两倍；整套内存功耗不足30瓦，而传统DDR5内存的功耗往往超过 100 瓦。

在Phoronix开展的STREAM TRIAD内存测试中，Vera可稳定发挥出 90% 的标称峰值带宽，这一占比在该网站所有测试过的CPU中位列第一。同时，其单核心内存带宽达到传统x86处理器的四倍以上，拉雷贝尔评价道：“搭载 LPDDR5X内存的英伟达Vera，在内存性能上相较当下的英特尔至强、超威霄龙处理器拥有压倒性优势。”

峰值带宽只是一方面，AI算力中心会同时运行大量沙箱程序、工具调用与数据服务。第三方机构Prime Intellect的补充测试显示，即便并行运行的负载不断增加，Vera依旧能维持高带宽，且内存延迟始终保持低位、波动极小，完全契合智能体人工智能对性能稳定性的要求。性能代际飞跃，实测表现领跑全场

结合Phoronix的多项测试数据综合计算几何平均值，Vera相较英伟达上一代Grace CPU性能提升1.6倍，实现了跨越式的代际升级。

拉雷贝尔称：“从Grace到Vera的性能提升幅度，远超我对常规处理器代际迭代的预期。这款搭载英伟达自研奥林匹斯内核的 Vera CPU 实力强劲，其综合竞争力是以往任何 ARM 及非x86_64架构处理器都无法企及的，足以正面抗衡英特尔与超威的x86_64产品。”

在同批次参测产品中，Vera综合性能排名第一，对比最新一代128核x86处理器，整体性能领先1.5倍。这一优势也体现在各类实际开发工作中：单路 Vera 平台编译默认版 Linux 内核仅耗时 20 秒，创下该项测试的最快纪录；按单核心算力计算，其内核编译速度更是达到这款 128 核 x86 处理器的两倍。

拉雷贝尔还提到：“从几何平均性能来看，英伟达 Vera 的表现还要优于主频 5.0GHz 的超威霄龙 9575F 高频处理器，领先幅度达 10%。”

客户测试稳步推进，合作伙伴产品即将上市

据英伟达介绍，在英伟达全球人工智能技术大会（GTC）上，官方将宣布Vera已获得广泛的生态支持，合作方覆盖原生AI企业、超算中心、云服务商以及基础设施供应商，目前，英伟达已向头部人工智能企业与云服务商交付首批Vera样品，这也标志着该产品距离合作伙伴正式推出商用设备又迈出关键一步，相关产品将于今年下半年陆续上市。

另外，后续合作伙伴将推出单路、双路两种规格的Vera服务器，同时提供风冷与液冷版本，可适配从标准企业数据中心到高密度智能体AI集群等各类AI算力工厂部署场景。

英伟达Vera CPU基准测试，Olympus内核实现ARM架构史上巅峰性能图5