英伟达 Vera Rubin 中使用LPU的目的是什么?

芝能智芯 2026-03-26 08:57
芝能智芯出品

 

从2025年价值200亿美元的震撼收购,到2026年GTC大会上黄仁勋揭晓谜底,英伟达正通过将 Groq 的 LPU(语言处理器单元)整合进其最新的 Vera Rubin 平台,设计完全不同架构的芯片。

 

GPU和 Groq 的 LPU(Language Processing Unit)之间,关于“吞吐量”与“延迟”的考虑,这是一个新的答案。

 

Part 1

算力的“不可能三角”:
为什么 GPU 需要 LPU 这个外挂?

 

英伟达 Vera Rubin 中使用LPU的目的是什么?图2

 

英伟达的 GPU 帝国是建立在高吞吐量(High Throughput)之上的。凭借数以千计的 ALU 单元,GPU 极其擅长在大规模并行任务中“大力出飞砖”,整个AI的突破是依靠GPU构建起来的,但这种架构设计有一个天生的短板:高延迟。

 

英伟达 Vera Rubin 中使用LPU的目的是什么?图3

 

在 2025 年之前的 AI 世界,这并不是大问题。

 

但在 2026 年的智能体(Agentic AI)时代,情况变了:

 

 人类与机器的交互要求令牌(Token)生成速度达到每秒数百个,才能产生丝滑的即时感。

 

 智能体之间的通信需要极低的响应延迟。如果两个 AI 在协作时互相等待对方“转圈圈”,整个系统的效率会呈指数级下降。

 

英伟达 Vera Rubin 中使用LPU的目的是什么?图4

 

GPU 为了维持高吞吐,需要通过复杂的调度和缓存机制来掩盖延迟,这在处理单用户、串行化的解码(Decoding)阶段时显得力不从心。

 

简单来说,GPU 擅长一次性处理一吨货物(预填充阶段),而 LPU 则擅长以光速快递一个个小包裹(生成阶段)。英伟达单纯靠优化 GPU 架构已经无法在延迟曲线上取得质的突破。于是选择了 Groq。

 

LPU 这种“反其道而行之”的设计,牺牲吞吐量、通过海量片上 SRAM 实现极致延迟,来补齐了英伟达高端机架的最后一块短板。

 

英伟达 Vera Rubin 中使用LPU的目的是什么?图5

 

在 Vera Rubin 架构中,LPU(语言处理器单元)的引入本质上是对 AI 推理流程的一次“硬件级拆解”,通过极端本地化内存(采用 500MB 片上 SRAM 替代 HBM,实现 150TB/s 的恐怖带宽)彻底消除了访存等待,并利用确定性执行(将动态调度转为编译期静态调度)抹平了计算延迟的不确定性。

 

在实际运行中,英伟达将算力密集的 Prefill 任务留给 GPU,而将延迟敏感的串行 Decode 任务交给 LPU,精准的异构分工,可以AI 推理正式告别了通用芯片的“大锅饭”时代,跨入了极致响应的专业化阶段。

 

英伟达 Vera Rubin 中使用LPU的目的是什么?图6
英伟达 Vera Rubin 中使用LPU的目的是什么?图7

 

针对“解码阶段”的专用优化,推理分为两步: Prefill(并行,算力密集) 和 Decode(串行,延迟敏感) ,LPU专注第二步快速token生成和最小化每一步延迟 ,LPU就不是通用目的的AI芯片,在Agent时代是“token生成机器”。

 

英伟达 Vera Rubin 中使用LPU的目的是什么?图8

 

 

Part 2

LPX 机架 工业级加速器

 

收购 Groq 之后,英伟达最迅速的动作就是NVIDIA Groq 3 LPX 机架。

 

推出了这不再是实验室里的原型机,而是作为 Vera Rubin NVL72 系统的一个“暴力插件”存在的。

 

英伟达 Vera Rubin 中使用LPU的目的是什么?图9

 

内存带宽的降维打击

 

LPX 机架的核心是 LP30 芯片,它最恐怖的地方在于配备了 500MB 的片上 SRAM。虽然容量看起来不大,但其内存带宽高达 150 TB/s。

 

作为对比,传统的 HBM 显存虽然已经很快,但在 SRAM 这种“计算单元隔壁的仓库”面前,依然显得慢如蜗牛。这意味着 LPU 在执行前馈网络(FFN)等任务时,数据读取几乎没有等待时间。

 

确定性调度的艺术

 

与传统处理器依赖硬件动态调度不同,Groq 采用了静态指令调度。编译器在代码生成阶段就已经排好了所有执行时序。

 

这种“编排好的交响乐”模式,消除了指令冲突和数据等待的不确定性,使得推理过程像精密时钟一样准时。

 

异构协同的“解码专家”

 

英伟达 Vera Rubin 中使用LPU的目的是什么?图10

 

在 Vera Rubin 机架中,英伟达实施了精细的分工:

 

 Rubin GPU:负责计算密集型的“预填充”和解码中的“注意力机制”。

 

 Groq LPU:负责对延迟极度敏感的“前馈网络”执行。

 

这种“加速器之上的加速器”方案,让系统在同等速率下的吞吐量提升了 35 倍以上。

 

Part 3

路线图的野心:
物理 AI 的“底座”更迭

 

英伟达 Vera Rubin 中使用LPU的目的是什么?图11

 

英伟达对 Groq 的整合绝非一次性买卖,从 GTC 公布的路线图看,LPU 已经正式进入了英伟达的核心产品序列:

 

 2027 年(LP35):重点在于支持 NVFP4 数据格式。这是英伟达主推的低精度推理标准,能显著缓解 SRAM 的容量压力,让更小的存储空间跑出更强的性能。

 

 2028 年(LP40):这一代将彻底“归化”。它将放弃 Groq 原有的互联技术,全面接入英伟达的 NVLink 生态。这意味着 LPU 与 GPU 之间将实现真正意义上的原生高速互联,甚至可能出现 GPU+LPU 封装在一起的超级芯片。

 

有趣的是,随着 LPU 的上位,此前英伟达内部规划的 Rubin CPX(原定用于加速解码的 GDDR7 版本 GPU)已经基本宣告退场。这标志着英伟达彻底放弃了“用 GPU 解决一切”的执念,转向了更加激进的异构计算路线。

 

小结

 

正如之前在分析恩智浦和英伟达合作时提到的,机器人和智能体需要的不仅是“聪明”,更是“实时”与“可靠”。

 

英伟达通过吸收 Groq 的 LPU 技术,正在把 AI 推理从一种“概率性的信息处理”转变为一种“确定性的物理响应”。未来的高端 AI 集群将不再是清一色的 GPU,而是一个由 GPU 负责“思考”、LPU 负责“反应”的复杂有机体。

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
英伟达
more
英伟达 Vera Rubin 中使用LPU的目的是什么?
不只是卖芯片,英伟达GTC Preview全面梳理
今日看点:SpaceXAI和特斯拉预计继续订购英伟达片;腾势D9官宣搭载比亚迪第二代刀片电池
黄仁勋呼吁全球企业制定“OpenClaw战略”,英伟达推企业级平台NemoClaw
昨夜今晨全球大公司动态 | 英伟达重启面向中国的AI芯片生产;美光公布乐观营收展望
英伟达与三星或将携手,共同开发铁电NAND
逃避审查?英伟达200亿美元交易,突遭调查
英伟达聚焦AI推理瓶颈,LPU芯片与片上通信革新提速千倍
英特尔至强6处理器获英伟达重用,成DGX Rubin NVL8系统核心CPU
黄仁勋抢吃龙虾:英伟达新核弹10倍算力提升,OpenClaw自由了
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号