北京时间4月24日凌晨,在谷歌年度云端与AI技术盛会「Google Cloud Next '26」谷歌第八代张量处理单元(TPU)的正式亮相。谷歌宣布,将彻底改变此前TPU“训练与推理一体化”的设计模式,推出分别针对AI训练与推理任务的两款专用芯片——TPU 8t与TPU 8i,这一战略调整既是对AI产业发展趋势的精准响应,也是其在AI硬件领域向行业龙头英伟达发起挑战的最新举措。
多年来,谷歌一直致力于研发可同时承担AI模型训练与推理工作的一体化芯片,而此次第八代TPU的“双芯片、一系统”设计,标志着其AI硬件路线的重大转向。谷歌高级副总裁兼AI与基础设施首席技术官Amin Vahdat在博客中表示:“随着AI代理的兴起,我们认为行业将从针对训练和服务各自需求专门优化的芯片中受益。”谷歌云执行长Thomas Kurian则在盛会上进一步阐述,AI产业正迈入「代理式企业(Agentic Enterprise)」新时代,第八代TPU的推出正是为了支撑这一转型,让AI代理从单纯的聊天工具,升级为具备感知、推理并采取行动以推动实质成果的自主AI代理。

两款新芯片各有侧重、精准适配不同AI工作负载。其中,作为“训练效能引擎”的TPU 8t经过专项优化,核心目标是提升大规模AI模型的训练效率,可将前沿模型的开发时间从数个月缩短至数周。为实现这一突破,谷歌通过系统级设计,平衡了极致的运算吞吐量、共享记忆体和芯片间带宽,同时兼顾最佳能源效率和高产能的运算时间。性能方面,TPU 8t在同等价格下,性能达到了去年11月发布的第七代Ironwood TPU的2.8倍,每瓦性能较上一代提升124%;在规模扩展上,TPU 8t最多可将9600块芯片组合为单一超级计算节点,并通过JAX与Pathways框架将分布式训练扩展至单一集群超过100万块TPU芯片,其全新的Virgo网络架构更将数据中心网络带宽较上一代提升最高4倍,芯片间互联带宽提升2倍。
而作为“推理引擎”的TPU 8i,则专为驱动理想的代理式AI用户体验而打造,核心优势在于低延迟和高并发,能够让用户在委派任务给AI代理后立即获得回应,无需漫长等待。这款芯片的一大亮点的是片上存储的大幅升级,内建384MB的SRAM(静态随机存取记忆体),容量较上一代Ironwood提升3倍,同时结合288GB的高频宽记忆体,可将模型使用中的工作集完全保存在芯片上,有效打破“内存墙”瓶颈,减少处理器空闲等待时间。此外,TPU 8i采用全新的Boardfly互联拓扑,将任意两芯片间的最大通信跳数从16跳压缩至7跳,网络直径缩减56%,全对全通信延迟改善最高50%,完美适配混合专家模型和推理模型中频繁的跨芯片令牌路由需求。性能上,TPU 8i较上一代提升80%,每瓦性能提升117%,两款芯片的协同设计让第八代TPU整体成本效能较前代提升达80%,意味着企业能以相同成本服务近乎双倍的客户量,助力其实现获利成长。
此次谷歌拆分TPU功能,背后是全球AI芯片产业的激烈竞争与发展趋势的推动。当前,全球大多数顶尖科技公司都在布局定制化AI半导体开发,以最大限度提升效率、适配专属应用场景:苹果多年来一直在自研iPhone芯片中集成神经网络引擎AI组件;微软于今年1月发布了第二代AI芯片;上周,Meta也宣布正与博通合作开发多个版本的AI处理器。谷歌在这一领域起步较早,2015年便开始使用自研处理器运行AI模型,2018年正式向云客户开放TPU租赁服务,而亚马逊AWS也在同年推出用于AI推理的Inferentia芯片,并于2020年发布训练专用的Trainium处理器。
值得注意的是,尽管科技巨头们纷纷加码自研AI芯片,但目前尚无任何一家能够取代英伟达的行业主导地位,谷歌也并未将新TPU的性能与英伟达产品直接对比。不过,两者的竞争已在技术路线上形成呼应:今年3月,英伟达曾大力宣传即将推出的Groq 3 LPU芯片,该芯片依托其以200亿美元收购Groq公司获得的技术,同样主打低延迟推理,且大量采用SRAM;而谷歌TPU 8i也以SRAM为核心优化方向,与英伟达形成直接的技术对标。据悉,英伟达的Groq 3 LPU集成了500MB SRAM,提供高达150TB/s的带宽,而谷歌TPU 8i的384MB SRAM则精准适配推理模型的KV缓存占用需求,各有优势。
目前,谷歌TPU的市场认可度正持续提升。据谷歌透露,Citadel Securities已基于TPU开发了量化研究软件,美国能源部旗下17家国家实验室均在使用基于TPU构建的AI协同科学家软件,Anthropic更是承诺将使用数吉瓦级别的谷歌TPU算力。DA Davidson分析师去年9月曾估算,TPU业务与Google DeepMind AI集团的总价值约为9000亿美元,展现出巨大的市场潜力。此外,第八代TPU均运行在谷歌自研的Axion ARM CPU平台上,由第四代液冷技术提供支持,同时延续了第七代的软件体系,支持JAX、PyTorch、Keras及vLLM等主流框架,原生PyTorch对TPU的支持也已进入预览阶段,用户可直接迁移模型无需修改代码,进一步降低了企业的使用门槛。
谷歌表示,TPU 8t与TPU 8i两款芯片预计于今年晚些时候正式推出。此次第八代TPU的发布,不仅是谷歌AI硬件战略的重要升级,更折射出云端巨头加速布局AI算力基础设施的紧迫感——在AI代理成为产业新风口的当下,谁能掌握更高效、更精准的算力支撑,谁就能在下一代企业转型与产业升级中抢占主导权。而谷歌的“双芯片”策略,既顺应了AI训练与推理任务日益分化的趋势,也为全球AI芯片产业的发展提供了新的思路,未来其与英伟达的竞争,以及在全球AI算力赛道的布局,值得持续关注。