

出品|搜狐科技
作者|郑松毅
“我们不是在别人的赛道上追赶,而是在开辟新的方向。”这是汪福全整场分享反复重申的核心论断。
当下AI行业迎来爆发式增长,带动全球Token需求量连年暴涨,而国内算力产业却深陷多重困局。一方面海外高端GPU供给受限,采购门槛持续抬高,国内AI企业常年面临“一卡难求”。
另一方面,传统2D芯片、HBM方案难以突破“内存墙”,数据反复搬运带来高额能耗与成本。不少国内芯片企业只能沿着海外GPU的成熟路线复刻追赶,但在先进制程、软件生态的壁垒下举步维艰。
算苗科技从2019年便笃定押注3D混合键合这条少有人看好的路线,团队沉下心打磨上万片3D堆叠晶圆,熬过产业链不成熟、良率攻关等重重难关。在多数企业还在观望3D技术可行性时,他们已经逐步建起国产供应链体系,走出一条不依赖海外先进制程、区别于英伟达的全新3D TokenPU技术路径,为国产算力提供了换道超车的全新解法。
6月17日,算苗科技在北京举办媒体沟通会,正式官宣国内首颗面向大模型推理出的3D TokenPU芯片A4E于6月15日流片。
截至目前,这条突围路线逐渐被资本市场认可,已先后完成多轮融资,研发人员占比超80%。今年7月,企业还将启动新一轮融资,持续加码芯片迭代与高端人才扩充。
会上,围绕3D堆叠技术、国产算力突围、量产商业化落地等话题,算苗科技CEO汪福全与搜狐科技等媒体围坐在一起展开深度对话。
以下为本次对话精编:
媒体:此次A4E流片,对国内AI算力行业有着怎样的意义?
汪福全:这是国产云端大算力芯片的一次关键突破。过去国内高端算力芯片两头受制:要么仰仗海外先进制程、受限HBM内存供货,要么照搬传统2D GPU架构,始终跨不过“内存墙”。
A4E依托国产成熟制程、本土供应链体系完成3D混合堆叠流片,证明了不用死磕顶尖先进制程,凭借架构创新,也能对标全球顶级云端AI芯片。
媒体:芯片什么时间能量产?
汪福全:A4E刚刚流片,进度顺利的话,明年同期就能规模量产。第二代A4S计划明年春节前后流片,整体性能实现翻倍提升。
媒体:算苗自研的TokenPU到底是什么?和英伟达GPU、市面各类NPU核心区别在哪?
汪福全:GPU诞生于PC图像游戏时代,是那个时代优秀的并行处理架构,但并非为大模型时代海量Token处理量身打造——能耗高、成本高、可维护性挑战很大。而市面上多数NPU瞄准手机终端等轻量化场景,扛不住云端海量推理负载。
TokenPU是大模型时代原生的计算架构,专为贴合AI大模型底层逻辑,语言文本、图片、视频乃至未来世界模型,所有信息最终都会转化为Token运算,TokenPU为此做了全链路优化。
媒体:行业长期认定英伟达CUDA生态是难以翻越的高墙,您怎么看?算苗凭什么弱化这道壁垒?
汪福全:过去GPU时代,软件生态是英伟达最硬的护城河,但现在行业底层逻辑彻底变了。如今全球日均要生成500至600万亿Token,每一个Token背后都是实打实的电力与算力的消耗,单位Token使用成本已成为超越软件生态的客户第一考量。
一方面,3D堆叠能带来碾压级能效优势,单Token运营成本大幅降低。再加上海外高端GPU 采购受限,并且随时存在断供风险,国内模型企业主动拥抱国产算力的意愿走强。CUDA已不是不可突破的壁垒,供应链稳定、极致性价比正在重新定义行业选择标准。
媒体:前阵子华为在普及“韬定律”时也提到过3D堆叠技术,这个技术直击AI芯片什么痛点?对比传统技术路线优势在哪?
汪福全:大模型参数规模越做越大,运算时数据要在内存和计算单元之间反复搬运,也就是让业内头痛的“内存墙”,芯片大半能耗、延迟全都耗在数据搬运上。
传统HBM是2.5D封装,GPU与HBM通过标准总线互联。而3D混合键合直接把存储晶圆垂直叠在逻辑芯片上方,传输距离从毫米级到微米级,压缩上千倍;互联的bump与TSV的数量达到上百万个,是GPU与HBM的标准总线的上千倍。因此,3D方案在线宽与总线方面都有了极大的改善,彻底释放带宽、减少传输延迟。
媒体:近期市场Token价格持续走高,3D TokenPU能否从根源压低AI使用成本?
汪福全:Token涨价核心根源是算力供给跟不上爆炸式需求,电力消耗是最大成本项。美国百万Token成本约0.6美元,国内电价较低但使用人口多,算力缺口持续推高服务价格。
现阶段来看,3D堆叠是唯一成熟的可大规模量产落地的降本路线,其他像存算一体、光计算等新技术离产业落地和量产还较远。依托国内电力优势,等 A4E大规模出货后,行业硬件、电力成本会下探。但如果Token需求增速持续超过算力扩容速度,价格仍有上涨可能。
媒体:如今不少企业扎堆布局3D芯片,算苗担心被同行追赶超越吗?
汪福全:国内入局3D设计的企业已有一些,但从人才储备、经验积累和技术验证和供应链的磨合等方面看,我们的壁垒很难短期被复制。3D堆叠资金、人才、工程落地门槛极高,且研发周期很长,很难出现恶性内卷。
媒体:国内先进制程存在短板,依靠3D堆叠架构创新,我们和海外高端芯片的技术代差未来三五年会如何?
汪福全:单纯比拼先进制程,我们短期内确实存在差距,但3D堆叠是换道超车路线。海外厂商靠先进制程叠加HBM拉高算力,我们绕开制程短板,用立体堆叠提升访存带宽与算力密度。
我觉得大家可以乐观点,不用悲观。依靠国内芯片产业链持续成熟,搭配持续创新的架构,不久的未来,我们完全有能力、有机会、有条件,依靠创新的中国方案,解决这个时代的算力饥渴问题。


运营编辑 | 孟莎莎


