国产TPU大突破:7nm已实验室回片

电子发烧友网 2025-12-30 07:00
电子发烧友网报道(文/黄山明)如今,AI已被全球广泛认定为未来发展的核心驱动力,不仅是科技前沿,更是重塑经济、社会、产业乃至人类生活方式的关键力量。而在AI技术蓬勃发展的背后,依靠的是算法、数据、算力三大支柱,硬件则是算力的唯一载体,也是数据处理、算法落地的物理基础。
 
在过去,AI的算法硬件主要依靠GPU与CPU,但随着AI技术的发展,传统GPU的弊端开始显现,市场需要一种更高能效比、更低延迟且部署成本更经济的大规模产品,此时TPU开始逐渐在市场中崭露头角。
 

从GPU到TPU

说起GPU,相信大多数人都不会陌生。作为专为图形渲染设计的芯片,它拥有数千个并行计算核心,能同时处理大量简单任务,这种特性与深度学习的海量矩阵运算需求完美契合。因此早在2011年,就有AI研究者发现英伟达的GPU能够处理深度学习的巨大计算需求,谷歌、斯坦福等企业与机构随即开始采用。
 
而在此之前,AI发展的最大瓶颈并非算法,而是神经网络运算效率低下——训练一次模型需要数周甚至数月,模型稍大就“跑不动”。
 
到了2012年,多伦多大学的Alex Krizhevsky用两块GTX 580 GPU训练出AlexNet,在ImageNet图像识别大赛中,将准确率从74%飙升至85%,震惊业界。这是深度学习首次碾压传统方法,以至于后来黄仁勋直言:“没有GTX 580,就没有今天的英伟达,也没有现代的AI。”
 
不过在2013年,谷歌却面临了一场算力危机:若1亿安卓用户每天使用3分钟语音搜索,现有数据中心的算力将无法应对,需要翻倍扩建。传统CPU/GPU在处理神经网络的大规模矩阵运算时,效率极低且功耗极高。
 
显然,GPU解决了“能否实现AI”的问题,但面对AI应用中成本过高、能耗过大以及难以规模化的痛点却无能为力。2015年,第一代TPU(v1)在谷歌数据中心悄然部署,2016年5月于Google I/O大会正式亮相,此时该芯片已内部使用一年多。
 
TPU(Tensor Processing Unit,张量处理单元)并不像GPU那样追求通用性,而是专为神经网络运算设计,舍弃了所有多余功能的专用芯片。因此,TPU在AI发展中解决了上述核心痛点,在成本、能效与可预测性上均优于GPU。
 
具体来说,TPU采用脉动阵列(systolic array)结构,将矩阵乘法/累加操作做成硬连线流水线,数据在阵列内部流动过程中完成计算,几乎省去了传统GPU需反复读写共享缓存或显存的步骤。谷歌第六代Trillium与第七代Ironwood的实测数据显示,在同等7nm工艺下,TPU的每瓦AI算力达到GPU的1.4–2.0倍;若与2018年的初代TPU相比,能效提升了近30倍。
 
此外,由于片上高带宽内存(HBM)距离计算单元更近,且省去了图形渲染所需的大量控制逻辑,TPU在批量推理场景下的延迟普遍比GPU低15–40%;在谷歌搜索、推荐、Claude等线上业务中,相同模型下TPU的P99延迟显著优于GPU。
 
成本优势更为显著:当部署到9000+芯片的Pod级别集群时,TPU配合光电路交换(OCS)可进一步降低30%的网络功耗,整机柜成本比同规模GPU集群低40–60%。Anthropic、Meta等企业选择与谷歌合作,正是看中其长期推理成本可比GPU方案低4倍以上。
 

中国的TPU之路

制造TPU并非易事。TPU并非单纯的芯片,而是一套包含专用架构设计、配套软件栈与编译器支持(例如谷歌的XLA、TensorFlow/JAX集成)、大规模互联和集群调度能力,以及针对深度学习训练与推理的整体工程解决方案。
 
这种整体系统设计相比通用GPU更难拆解学习,需要跨领域的技术积累,绝非研发出单块芯片就能完成——TPU的背后,是谷歌多年针对AI任务优化的技术沉淀。
 
在TPU领域,中国起步较晚。直到2019年,谷歌TPU核心架构师杨龚轶凡回国创办中昊芯英,国内才首次出现专注于研发真正意义上张量处理器的创业公司。
2021年,在北京大学、清华大学等高校团队的配合下,中昊芯英完成了自研指令集、脉动阵列RTL设计和12nm物理设计,并在流片前夕获得10亿元融资。
 
2023年,首颗训练级TPU“刹那®”一次流片成功,其算力可达A100的1.5倍,功耗降低30%,单位成本仅为A100的42%,且实现量产交付,这也让中国首次拥有了可商用的TPU芯片。
 
2024年,基于“刹那”打造的千卡集群“泰则®”在长三角、京津冀两地区上线,实测可稳定训练千亿参数模型;太极股份、浙数文化、艾布鲁等上市公司先后入股,形成了“芯片+系统+云运营商”的小型生态。
 
今年,天津移动TPU智算中心正式点亮,标志着国产TPU完成“单卡→整机柜→智算中心”的三级跳,开始对外提供商业化算力服务。官方数据显示,在同等精度下,其推理成本比GPU低40–60%。
 
值得注意的是,除了具备与运营商、智算中心协同部署的能力,中昊芯英不仅专注于芯片研发,还在构建支撑国产大模型运行的软硬件栈,并在行业生态中逐步建立合作,推动产品从单一芯片向完整算力服务能力升级。
 
此前,中昊芯英创始人杨龚轶凡表示,目前国内实现高性能TPU AI芯片量产与交付的企业主要是中昊芯英。同时,该公司也是少数已实现盈利的AI芯片企业,盈利主要源于国家对国产化进程的支持,以及创新带来的高性价比产品结构。
 
据了解,中昊芯英保持着“一年一芯、一年两栈”的研发节奏,第二代7nm芯片已在实验室回片,配套软件栈同步开发,预计2026年Q2实现规模出货;软件侧则按季度滚动发版,持续新增PyTorch 2.x新算子与MoE并行策略支持。
 
这不仅是中国在高性能AI处理器领域的突破性成果之一,更对减少国外AI算力产品依赖、增强自主可控能力具有战略意义,同时也为国内AI算力生态建设提供了实质性推动。
 

总结

TPU的发展历程,本质上是AI算力需求与硬件供给之间矛盾不断突破的过程。从最初解决算力危机的专用推理芯片,到支撑大模型训练的AI超算,再到如今面向生成式AI的推理引擎,TPU的发展始终围绕性能、能效与架构创新持续突破。正是TPU提供的超算级算力,让大语言模型、多模态生成等前沿AI技术成为可能,推动AI从实验室研究走向产业落地与消费级应用。
 
随着中昊芯英等国内企业推出真正的高性能TPU芯片,其核心价值不在于短期能否完全超越英伟达或谷歌,而在于为国内AI算力提供了一条可自主掌控的高端发展路径,推动国产算力生态的完善——包括算力集群部署、模型适配、本地数据中心落地等。这种战略意义,远大于单纯的单项性能优势。
 

国产TPU大突破:7nm已实验室回片图1

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
7nm
more
28亿一台, 全球首台 High-NA EUV 光刻机来袭,精度突破0.7nm
第四家国产GPU公司冲刺上市!国内首发7nm显卡
半导体靶材,如何左右7nm以下制程?
7nm光刻机未现身!新凯来亮相2款EDA、1台示波器和16款“山系”设备,万里眼CEO公开发声:聚焦解决西方“卡脖子”技术!
同样是三星7nm,为什么Power11晶体管密度提高了50%?
国际分析师:中国芯片制造成功超越了7nm,这已经是他们的极限,5nm无法完成
杭州GPU黑马融资近10亿!7nm AI芯片已量产
国产自主7nm AI芯片启用!逐步取代英伟达!
7nm以下先进制程,大增!
龙芯官宣下代架构:媲美x86 7nm;商务部回应:若牺牲中方利益绝不接受;英特尔高层再洗牌
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号