国产TPU大突破：7nm已实验室回片

电子发烧友网报道（文/黄山明）如今，AI已被全球广泛认定为未来发展的核心驱动力，不仅是科技前沿，更是重塑经济、社会、产业乃至人类生活方式的关键力量。而在AI技术蓬勃发展的背后，依靠的是算法、数据、算力三大支柱，硬件则是算力的唯一载体，也是数据处理、算法落地的物理基础。

在过去，AI的算法硬件主要依靠GPU与CPU，但随着AI技术的发展，传统GPU的弊端开始显现，市场需要一种更高能效比、更低延迟且部署成本更经济的大规模产品，此时TPU开始逐渐在市场中崭露头角。

从GPU到TPU

说起GPU，相信大多数人都不会陌生。作为专为图形渲染设计的芯片，它拥有数千个并行计算核心，能同时处理大量简单任务，这种特性与深度学习的海量矩阵运算需求完美契合。因此早在2011年，就有AI研究者发现英伟达的GPU能够处理深度学习的巨大计算需求，谷歌、斯坦福等企业与机构随即开始采用。

而在此之前，AI发展的最大瓶颈并非算法，而是神经网络运算效率低下——训练一次模型需要数周甚至数月，模型稍大就“跑不动”。

到了2012年，多伦多大学的Alex Krizhevsky用两块GTX 580 GPU训练出AlexNet，在ImageNet图像识别大赛中，将准确率从74%飙升至85%，震惊业界。这是深度学习首次碾压传统方法，以至于后来黄仁勋直言：“没有GTX 580，就没有今天的英伟达，也没有现代的AI。”

不过在2013年，谷歌却面临了一场算力危机：若1亿安卓用户每天使用3分钟语音搜索，现有数据中心的算力将无法应对，需要翻倍扩建。传统CPU/GPU在处理神经网络的大规模矩阵运算时，效率极低且功耗极高。

显然，GPU解决了“能否实现AI”的问题，但面对AI应用中成本过高、能耗过大以及难以规模化的痛点却无能为力。2015年，第一代TPU（v1）在谷歌数据中心悄然部署，2016年5月于Google I/O大会正式亮相，此时该芯片已内部使用一年多。

TPU（Tensor Processing Unit，张量处理单元）并不像GPU那样追求通用性，而是专为神经网络运算设计，舍弃了所有多余功能的专用芯片。因此，TPU在AI发展中解决了上述核心痛点，在成本、能效与可预测性上均优于GPU。

具体来说，TPU采用脉动阵列（systolic array）结构，将矩阵乘法/累加操作做成硬连线流水线，数据在阵列内部流动过程中完成计算，几乎省去了传统GPU需反复读写共享缓存或显存的步骤。谷歌第六代Trillium与第七代Ironwood的实测数据显示，在同等7nm工艺下，TPU的每瓦AI算力达到GPU的1.4–2.0倍；若与2018年的初代TPU相比，能效提升了近30倍。

此外，由于片上高带宽内存（HBM）距离计算单元更近，且省去了图形渲染所需的大量控制逻辑，TPU在批量推理场景下的延迟普遍比GPU低15–40%；在谷歌搜索、推荐、Claude等线上业务中，相同模型下TPU的P99延迟显著优于GPU。

成本优势更为显著：当部署到9000+芯片的Pod级别集群时，TPU配合光电路交换（OCS）可进一步降低30%的网络功耗，整机柜成本比同规模GPU集群低40–60%。Anthropic、Meta等企业选择与谷歌合作，正是看中其长期推理成本可比GPU方案低4倍以上。

中国的TPU之路

制造TPU并非易事。TPU并非单纯的芯片，而是一套包含专用架构设计、配套软件栈与编译器支持（例如谷歌的XLA、TensorFlow/JAX集成）、大规模互联和集群调度能力，以及针对深度学习训练与推理的整体工程解决方案。

这种整体系统设计相比通用GPU更难拆解学习，需要跨领域的技术积累，绝非研发出单块芯片就能完成——TPU的背后，是谷歌多年针对AI任务优化的技术沉淀。

在TPU领域，中国起步较晚。直到2019年，谷歌TPU核心架构师杨龚轶凡回国创办中昊芯英，国内才首次出现专注于研发真正意义上张量处理器的创业公司。

2021年，在北京大学、清华大学等高校团队的配合下，中昊芯英完成了自研指令集、脉动阵列RTL设计和12nm物理设计，并在流片前夕获得10亿元融资。

2023年，首颗训练级TPU“刹那®”一次流片成功，其算力可达A100的1.5倍，功耗降低30%，单位成本仅为A100的42%，且实现量产交付，这也让中国首次拥有了可商用的TPU芯片。

2024年，基于“刹那”打造的千卡集群“泰则®”在长三角、京津冀两地区上线，实测可稳定训练千亿参数模型；太极股份、浙数文化、艾布鲁等上市公司先后入股，形成了“芯片+系统+云运营商”的小型生态。

今年，天津移动TPU智算中心正式点亮，标志着国产TPU完成“单卡→整机柜→智算中心”的三级跳，开始对外提供商业化算力服务。官方数据显示，在同等精度下，其推理成本比GPU低40–60%。

值得注意的是，除了具备与运营商、智算中心协同部署的能力，中昊芯英不仅专注于芯片研发，还在构建支撑国产大模型运行的软硬件栈，并在行业生态中逐步建立合作，推动产品从单一芯片向完整算力服务能力升级。

此前，中昊芯英创始人杨龚轶凡表示，目前国内实现高性能TPU AI芯片量产与交付的企业主要是中昊芯英。同时，该公司也是少数已实现盈利的AI芯片企业，盈利主要源于国家对国产化进程的支持，以及创新带来的高性价比产品结构。

据了解，中昊芯英保持着“一年一芯、一年两栈”的研发节奏，第二代7nm芯片已在实验室回片，配套软件栈同步开发，预计2026年Q2实现规模出货；软件侧则按季度滚动发版，持续新增PyTorch 2.x新算子与MoE并行策略支持。

这不仅是中国在高性能AI处理器领域的突破性成果之一，更对减少国外AI算力产品依赖、增强自主可控能力具有战略意义，同时也为国内AI算力生态建设提供了实质性推动。

总结

TPU的发展历程，本质上是AI算力需求与硬件供给之间矛盾不断突破的过程。从最初解决算力危机的专用推理芯片，到支撑大模型训练的AI超算，再到如今面向生成式AI的推理引擎，TPU的发展始终围绕性能、能效与架构创新持续突破。正是TPU提供的超算级算力，让大语言模型、多模态生成等前沿AI技术成为可能，推动AI从实验室研究走向产业落地与消费级应用。

随着中昊芯英等国内企业推出真正的高性能TPU芯片，其核心价值不在于短期能否完全超越英伟达或谷歌，而在于为国内AI算力提供了一条可自主掌控的高端发展路径，推动国产算力生态的完善——包括算力集群部署、模型适配、本地数据中心落地等。这种战略意义，远大于单纯的单项性能优势。

国产TPU大突破：7nm已实验室回片图1