英伟达聚焦AI推理瓶颈,LPU芯片与片上通信革新提速千倍

科技区角 2026-03-23 20:00

【区角快讯】如果说过去几年人工智能发展的重心在于模型训练,那么当前产业焦点已全面转向推理阶段。在上周举行的GTC 2026大会上,英伟达正式推出全新LPU(语言处理单元)芯片,旨在重构AI推理的性能边界。



大会期间,英伟达首席科学家比尔·达利(Bill Dally)与谷歌首席科学家杰夫·迪恩(Jeff Dean)展开深度对话,详细阐述了公司在AI推理底层技术上的突破方向。达利明确指出,当前制约推理效率的核心瓶颈并非算力本身,而是通信开销。

为解决这一问题,英伟达正研发基于片上通信的静态调度机制,该方案将彻底消除传统路由所需的排队与仲裁环节,使数据传输速度逼近物理极限——光速。现有芯片从一角传至对角通常需数百纳秒,而新架构可将延迟压缩至仅30纳秒。

在片外通信方面,行业过去持续提升带宽至400Gbps乃至800Gbps,却因此引入复杂的信号处理与纠错逻辑。达利提出,若将速率适度降至200Gbps,仅保留序列化延迟,数据传输可在几个时钟周期内完成,大幅简化系统设计。

他进一步预测,在正确架构支撑下,未来AI推理有望实现单用户每秒1万至2万个Token的生成速度。相较之下,目前主流大模型推理普遍低于每秒100 Token,超过60 Token/s已属高速范畴。

达利以NVFP4精度为例说明能效差异:一次乘加运算能耗约为10飞焦,而从HBM4外部读取数据则高达15皮焦,相差逾千倍。若改用SRAM缓存,读取能耗可同步降至10飞焦,与计算能耗持平。

不过,SRAM并非无代价方案。其高昂的芯片成本限制了容量规模——本次发布的LPU30仅集成500MB片上SRAM,远低于Rubin GPU所搭载的288GB HBM4。这决定了LPU必须与GPU协同工作,形成异构推理架构。

随着AI应用从“训练驱动”迈向“推理驱动”,专用加速器与通信架构的协同优化,正成为算力基础设施升级的关键路径。

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI 芯片 英伟达
more
OPPO、vivo官宣调价;GTC 2026大会汇总:英伟达版“小龙虾”、DLSS 5 超分技术;苹果AirPods Max2耳机发布;阿里成立Token Hub事业群...
机器人全程自主收拾客厅!390亿美元估值机器人端到端新技能,英伟达持续加注
截击英伟达!OpenClaw狂吞Token,北大系芯片黑马剑指2000 Tokens/s
汽车早餐 | 英伟达联手比亚迪、吉利等车企打造L4级自动驾驶汽车;雷军再回应停售初代SU7; 大众与小鹏第二款联合开发车型今年发布
逃避审查?英伟达200亿美元交易,突遭调查
辟谣!美光Q2将供英伟达HBM4
Memories.ai携手英伟达打造AI视觉记忆基础设施,剑指可穿戴设备与机器人市场
在谷歌与英伟达的侧翼,中国玩家正用“光速”铺设一条算力快车道
黄仁勋抢吃龙虾:英伟达新核弹10倍算力提升,OpenClaw自由了
英伟达:6G通信标准要AI-Native!
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号