【内容目录】
1.系统比性能更为重要
2.TPU互联-芯片间互联ICI技术
3.结语
【湾芯展推荐】本文涉及的相关厂商

Google TPU(图源:Google )
系统比性能更为重要
细究算力硬件的发展史从开始的单芯片算力到大显存再到多卡互联的大模型时代,硬件厂商先从CPU的主频开始不断提升单核心频率和核心数量,然后转到由GPU主导的浮点数运算,不断提升单卡显存与带宽,而如今的大模型则更加注重于整个集群的系统性能,Google的全新TPUv7直接“炸场”,不仅自家的Gemini 3 Pro在使用,Anthropic 的 Claude 4.5 Opus 的训练和推理也在使用,而且Google开始向多家公司出售TPU算力芯片卡,直接撼动了英伟达的霸主地位,AI算力集群要“变天”了。

主流大模型使用量(图源:OpenRouter )
业界知名OpenRouter上11月底统计数据显示,Google的Gemini 3 Pro在短短的10天左右一跃成为第四名,热度和占比还在持续上升中,根据最新消息,Meta正与谷歌就2027年在其数据中心使用价值数十亿美元AI芯片TPU进行初步交流,而且越来越多的潜在客户(SSI、xAI、OAI)向Google抛出橄榄枝。可以说,TPUv7是一个转折点,其单芯片FP8算力约为 4.6 PetaFLOPS,略高于 NVIDIA GB200 的 4.5 PetaFLOPS,并且配备了192GB 的 HBM3e 高带宽内存,内存带宽也达到了 7.4 TB/s ;按理说单卡性能追平英伟达2024年旗舰卡,本会招来落后等贬义评价,但是Google这一次却被一种资本真金白银的看好(涨),其真正的杀手锏是芯片组的拓展能力(Scale-up)。
Google强调“系统比性能更重要”,大模型不光是面对复杂海量的数据训练,更重要的是应用层面的推理,处理用户的亿万请求其实不需要高算力的芯片卡,其优势在于极致的规模化效率和陈本控制。并且Google内部非常重视算力设备的可靠性、易用性和可维护性,在稳定和性能间毫无疑问的选择了前者,让系统满负荷运转意味着更高的硬件故障率,这会对系统停机时间和热备件的总体拥有成本(TCO)产生实际影响。
并且在面对海量搜索需求和广告推荐业务中,Google发现GPU一直强调的峰值理论浮点数算力(FLOPS)其实并没有那么实用,因为不会一套系统不会一直保持高速的计算状态。现阶段的大模型时代(LLM)Google 的芯片设计哲学也遵循了这一点,最近两代TPU——TPUv6 Trillium(Ghostlite)和TPUv7 Ironwood(Ghostfish),在看之前的TPU v4和v5则更显“落后”。

Google TPU对比(图源:Google )
2022年发布的TPUv4仅有275TFLOPs,hiatus略逊于英伟达两年前发布的H100,然后经历了四代迭代(v5e、v5p、v6)来到了TPUv7和GB200勉强打平。根据SemiAnalysis介绍,Google在TPU量产初期就发布新品,内部迭代速度很快。TPUv6采用和TPUv5p相同的N5制程工艺节点,硅片裸晶面积相同,但是加大了Systolic array(脉动阵列:一种特殊的计算架构),从128x128升级成256x256,这样一来其峰值理论浮点运算能力提升了近两倍。

Google TPU vs Nvidia GPU(图源:SemiAnalysis )
与 GB200 相比,TPUv7(Ironwood) 的浮点运算性能和显存带宽仅略有不足,容量方面则与 GB200 相同,均采用 8 芯 HBM3E 显存,但与配备 288GB 12 芯 HBM3E 显存的 GB300 相比,容量差距仍然很大。但是应用厂商可不会光比纸面上的理论性能差距,其更重视实际性能与总拥有成本 (TCO) 的比值。通过估算TPUv7 系统的总拥有成本比购买 NVIDIA GB200 服务器方案低约 44%,这样一来算力厂商在部署算力时,前置的资本支出可以大幅缩减,这对于需要耗资数十亿美元购买算力的科技巨头来说,是一个无法忽视的诱惑。
对于商业来讲,算力只不过是大模型竞赛中商品,成本和利润才是根本所在,从经济效应来讲,Google的TPU所构建的算力系统才是其优势所在。TPU最显著的特点之一是它可以通过ICI协议实现极其庞大的规模扩展,堪称“暴力美学”的扩展能力,可以将最多9216个TPUv7(Ironwood芯片组)组成一个Pod(阵列)。并且其TPU的硬件机架设计NVLink72也简单得多,使用光纤链接TPU扩展,其自研的光电路交换机(Optical Circuit Switch, OCS)也是一大亮点,并且主动式全液冷加垂直供电等诸多优化,使得TPUv7的算力集群更具有TCO的性价比,自然也更有竞争力。

Google TPU Rack subsystems(图源:Google )
TPU互联-芯片间互联ICI技术
传统的网络交换机是基于电信号的(EPS,Electrical Packet Switch),对于铜缆链接是电平信号在低损耗的铜缆中传输,在需要高带宽低时延的AI算力集群上,通常都是将电信号转化为光信号,然后经过光缆传输到目标后再转为电信号,这样既耗电又延迟大。
而Google 的ICI技术则结合铜缆与光缆连接的精髓,其构建了4x4x4的三维TPUs阵列放入一个机架中,并且通过电气相互连接,每个TPU以3D环面相互连接,则单一TPU共有上下左右前后六个逻辑“邻居”电气互联。4x4x4 立方体内部的连接通过铜缆实现,而立方体外部的连接(包括环绕到立方体另一侧的连接以及与相邻 4x4x4 立方体的连接)则使用光收发器和光通信系统 (OCS)。

Google TPU 4x4x4 system(图源:Google )
这样一来我们可以通过计算一个4x4x4的立方体阵列有多少个TPU位于点线面上就可以知道使用了多少OCS和搭配比例,其拥有8个位于角落的TPUs,24个位于边线上的TPUs和24个位于面上的TPUs,其比例为每个TPUv7连接 1.5 个光收发器和1.25个铜缆互联。

Google TPU 4x4x4 Cube(图源:SemiAnalysis )
不光是ICI的互联设计巧妙,Google自研的光电路交换机 (OCS)同样惊艳,在项目代号Apollo的计划中,Google自研了利用3D MEMS(微机电系统)反射镜阵列纯光学交换的光路交换机,利用反射镜来重定向入射光束,可以直接将编码后的数据光信息流传输到目标端口;并且开发了一项名为“Circulators”(环形器)的双线传输技术,并实现了在同一根光纤上同时发送和接收信号,直接将所需的光纤数量减半,大幅降低了布线成本和复杂度。
在OCS中其数据传输带宽与波长无关,并且能够兼容任何交换机和光纤,比如说厂商需要将一台配备 100G 收发器的交换机连接到一台配备 800G 收发器的交换机,OCS可以直接配置,因为其转发的是光信号,而不是数据包。由于其不解码,不进行信号转化所以其直接绕过“光-电-光”这一传统的模式,直接端到端映射信息流,所以使用寿命和能耗都比EPS更有优势。并且在算力芯片升级或者互联带宽增加时,OCS可以无需更换,厂商可以在多个升级周期中重复使用,因此总资本支出约为标准 EPS 的 70%。

Google TPU(图源:Google )
而Circulators(环形器)则巧妙的将收发器处的 Tx 和 Rx 光纤束合并到发送到 OCS 交换机的单根光纤束上,形成双向链路。进一步减少了系统开支,据Google预计虽然OCS系统在初期的资本投入为EPS系统的3.5倍,但是如果OCS能使用4代更新周期,则总投入成本将会节省6倍左右。

Google Circulators(图源:Google )
结语
Google通过先前的Apollo开发出兼容性极强的OCS光路交换机,并且基于这套纯光路交换机构建了系统和成本优势巨大的TPUs集群,将作为其撼动英伟达GPU霸主地位最强大的利刃。
*参考资料
1.《TPUv7: Google Takes a Swing at the King》
2.《Google OCS Apollo: The >$3 Billion Game-Changer in Datacenter Networking》
3.《Mission Apollo: Landing Optical Circuit Switching at Datacenter Scale》
文末福利:免费获取最全的行业资料信息汇总!
文末也给看到这的读者们发福利啦,深芯盟编辑近期分析了光学行业产业链,Yolo的最新分析报告也免费分享给读者朋友们,欢迎大家点赞和转发,我们下期再见。

关注本公众号并回复关键词:OIF,就可以领取每期给大家分享的行业资料啦!

