谷歌发布两款第八代TPU：拆分训练与推理，全面硬钢英伟达GPU霸权！

北京时间4月24日凌晨，在谷歌年度云端与AI技术盛会「Google Cloud Next '26」谷歌第八代张量处理单元（TPU）的正式亮相。谷歌宣布，将彻底改变此前TPU“训练与推理一体化”的设计模式，推出分别针对AI训练与推理任务的两款专用芯片——TPU 8t与TPU 8i，这一战略调整既是对AI产业发展趋势的精准响应，也是其在AI硬件领域向行业龙头英伟达发起挑战的最新举措。

多年来，谷歌一直致力于研发可同时承担AI模型训练与推理工作的一体化芯片，而此次第八代TPU的“双芯片、一系统”设计，标志着其AI硬件路线的重大转向。谷歌高级副总裁兼AI与基础设施首席技术官Amin Vahdat在博客中表示：“随着AI代理的兴起，我们认为行业将从针对训练和服务各自需求专门优化的芯片中受益。”谷歌云执行长Thomas Kurian则在盛会上进一步阐述，AI产业正迈入「代理式企业（Agentic Enterprise）」新时代，第八代TPU的推出正是为了支撑这一转型，让AI代理从单纯的聊天工具，升级为具备感知、推理并采取行动以推动实质成果的自主AI代理。

两款新芯片各有侧重、精准适配不同AI工作负载。其中，作为“训练效能引擎”的TPU 8t经过专项优化，核心目标是提升大规模AI模型的训练效率，可将前沿模型的开发时间从数个月缩短至数周。为实现这一突破，谷歌通过系统级设计，平衡了极致的运算吞吐量、共享记忆体和芯片间带宽，同时兼顾最佳能源效率和高产能的运算时间。性能方面，TPU 8t在同等价格下，性能达到了去年11月发布的第七代Ironwood TPU的2.8倍，每瓦性能较上一代提升124%；在规模扩展上，TPU 8t最多可将9600块芯片组合为单一超级计算节点，并通过JAX与Pathways框架将分布式训练扩展至单一集群超过100万块TPU芯片，其全新的Virgo网络架构更将数据中心网络带宽较上一代提升最高4倍，芯片间互联带宽提升2倍。

而作为“推理引擎”的TPU 8i，则专为驱动理想的代理式AI用户体验而打造，核心优势在于低延迟和高并发，能够让用户在委派任务给AI代理后立即获得回应，无需漫长等待。这款芯片的一大亮点的是片上存储的大幅升级，内建384MB的SRAM（静态随机存取记忆体），容量较上一代Ironwood提升3倍，同时结合288GB的高频宽记忆体，可将模型使用中的工作集完全保存在芯片上，有效打破“内存墙”瓶颈，减少处理器空闲等待时间。此外，TPU 8i采用全新的Boardfly互联拓扑，将任意两芯片间的最大通信跳数从16跳压缩至7跳，网络直径缩减56%，全对全通信延迟改善最高50%，完美适配混合专家模型和推理模型中频繁的跨芯片令牌路由需求。性能上，TPU 8i较上一代提升80%，每瓦性能提升117%，两款芯片的协同设计让第八代TPU整体成本效能较前代提升达80%，意味着企业能以相同成本服务近乎双倍的客户量，助力其实现获利成长。

此次谷歌拆分TPU功能，背后是全球AI芯片产业的激烈竞争与发展趋势的推动。当前，全球大多数顶尖科技公司都在布局定制化AI半导体开发，以最大限度提升效率、适配专属应用场景：苹果多年来一直在自研iPhone芯片中集成神经网络引擎AI组件；微软于今年1月发布了第二代AI芯片；上周，Meta也宣布正与博通合作开发多个版本的AI处理器。谷歌在这一领域起步较早，2015年便开始使用自研处理器运行AI模型，2018年正式向云客户开放TPU租赁服务，而亚马逊AWS也在同年推出用于AI推理的Inferentia芯片，并于2020年发布训练专用的Trainium处理器。

值得注意的是，尽管科技巨头们纷纷加码自研AI芯片，但目前尚无任何一家能够取代英伟达的行业主导地位，谷歌也并未将新TPU的性能与英伟达产品直接对比。不过，两者的竞争已在技术路线上形成呼应：今年3月，英伟达曾大力宣传即将推出的Groq 3 LPU芯片，该芯片依托其以200亿美元收购Groq公司获得的技术，同样主打低延迟推理，且大量采用SRAM；而谷歌TPU 8i也以SRAM为核心优化方向，与英伟达形成直接的技术对标。据悉，英伟达的Groq 3 LPU集成了500MB SRAM，提供高达150TB/s的带宽，而谷歌TPU 8i的384MB SRAM则精准适配推理模型的KV缓存占用需求，各有优势。

目前，谷歌TPU的市场认可度正持续提升。据谷歌透露，Citadel Securities已基于TPU开发了量化研究软件，美国能源部旗下17家国家实验室均在使用基于TPU构建的AI协同科学家软件，Anthropic更是承诺将使用数吉瓦级别的谷歌TPU算力。DA Davidson分析师去年9月曾估算，TPU业务与Google DeepMind AI集团的总价值约为9000亿美元，展现出巨大的市场潜力。此外，第八代TPU均运行在谷歌自研的Axion ARM CPU平台上，由第四代液冷技术提供支持，同时延续了第七代的软件体系，支持JAX、PyTorch、Keras及vLLM等主流框架，原生PyTorch对TPU的支持也已进入预览阶段，用户可直接迁移模型无需修改代码，进一步降低了企业的使用门槛。

谷歌表示，TPU 8t与TPU 8i两款芯片预计于今年晚些时候正式推出。此次第八代TPU的发布，不仅是谷歌AI硬件战略的重要升级，更折射出云端巨头加速布局AI算力基础设施的紧迫感——在AI代理成为产业新风口的当下，谁能掌握更高效、更精准的算力支撑，谁就能在下一代企业转型与产业升级中抢占主导权。而谷歌的“双芯片”策略，既顺应了AI训练与推理任务日益分化的趋势，也为全球AI芯片产业的发展提供了新的思路，未来其与英伟达的竞争，以及在全球AI算力赛道的布局，值得持续关注。