对话算苗科技CEO汪福全：英伟达CUDA已不是高不可攀的壁垒，Token使用成本是用户第一考量

出品｜搜狐科技

作者｜郑松毅

“我们不是在别人的赛道上追赶，而是在开辟新的方向。”这是汪福全整场分享反复重申的核心论断。

当下AI行业迎来爆发式增长，带动全球Token需求量连年暴涨，而国内算力产业却深陷多重困局。一方面海外高端GPU供给受限，采购门槛持续抬高，国内AI企业常年面临“一卡难求”。

另一方面，传统2D芯片、HBM方案难以突破“内存墙”，数据反复搬运带来高额能耗与成本。不少国内芯片企业只能沿着海外GPU的成熟路线复刻追赶，但在先进制程、软件生态的壁垒下举步维艰。

算苗科技从2019年便笃定押注3D混合键合这条少有人看好的路线，团队沉下心打磨上万片3D堆叠晶圆，熬过产业链不成熟、良率攻关等重重难关。在多数企业还在观望3D技术可行性时，他们已经逐步建起国产供应链体系，走出一条不依赖海外先进制程、区别于英伟达的全新3D TokenPU技术路径，为国产算力提供了换道超车的全新解法。

6月17日，算苗科技在北京举办媒体沟通会，正式官宣国内首颗面向大模型推理出的3D TokenPU芯片A4E于6月15日流片。

截至目前，这条突围路线逐渐被资本市场认可，已先后完成多轮融资，研发人员占比超80%。今年7月，企业还将启动新一轮融资，持续加码芯片迭代与高端人才扩充。

会上，围绕3D堆叠技术、国产算力突围、量产商业化落地等话题，算苗科技CEO汪福全与搜狐科技等媒体围坐在一起展开深度对话。

以下为本次对话精编：

媒体：此次A4E流片，对国内AI算力行业有着怎样的意义？

汪福全：这是国产云端大算力芯片的一次关键突破。过去国内高端算力芯片两头受制：要么仰仗海外先进制程、受限HBM内存供货，要么照搬传统2D GPU架构，始终跨不过“内存墙”。

A4E依托国产成熟制程、本土供应链体系完成3D混合堆叠流片，证明了不用死磕顶尖先进制程，凭借架构创新，也能对标全球顶级云端AI芯片。

媒体：芯片什么时间能量产？

汪福全：A4E刚刚流片，进度顺利的话，明年同期就能规模量产。第二代A4S计划明年春节前后流片，整体性能实现翻倍提升。

媒体：算苗自研的TokenPU到底是什么？和英伟达GPU、市面各类NPU核心区别在哪？

汪福全：GPU诞生于PC图像游戏时代，是那个时代优秀的并行处理架构，但并非为大模型时代海量Token处理量身打造——能耗高、成本高、可维护性挑战很大。而市面上多数NPU瞄准手机终端等轻量化场景，扛不住云端海量推理负载。

TokenPU是大模型时代原生的计算架构，专为贴合AI大模型底层逻辑，语言文本、图片、视频乃至未来世界模型，所有信息最终都会转化为Token运算，TokenPU为此做了全链路优化。

媒体：行业长期认定英伟达CUDA生态是难以翻越的高墙，您怎么看？算苗凭什么弱化这道壁垒？

汪福全：过去GPU时代，软件生态是英伟达最硬的护城河，但现在行业底层逻辑彻底变了。如今全球日均要生成500至600万亿Token，每一个Token背后都是实打实的电力与算力的消耗，单位Token使用成本已成为超越软件生态的客户第一考量。

一方面，3D堆叠能带来碾压级能效优势，单Token运营成本大幅降低。再加上海外高端GPU 采购受限，并且随时存在断供风险，国内模型企业主动拥抱国产算力的意愿走强。CUDA已不是不可突破的壁垒，供应链稳定、极致性价比正在重新定义行业选择标准。

媒体：前阵子华为在普及“韬定律”时也提到过3D堆叠技术，这个技术直击AI芯片什么痛点？对比传统技术路线优势在哪？

汪福全：大模型参数规模越做越大，运算时数据要在内存和计算单元之间反复搬运，也就是让业内头痛的“内存墙”，芯片大半能耗、延迟全都耗在数据搬运上。

传统HBM是2.5D封装，GPU与HBM通过标准总线互联。而3D混合键合直接把存储晶圆垂直叠在逻辑芯片上方，传输距离从毫米级到微米级，压缩上千倍；互联的bump与TSV的数量达到上百万个，是GPU与HBM的标准总线的上千倍。因此，3D方案在线宽与总线方面都有了极大的改善，彻底释放带宽、减少传输延迟。

媒体：近期市场Token价格持续走高，3D TokenPU能否从根源压低AI使用成本？

汪福全：Token涨价核心根源是算力供给跟不上爆炸式需求，电力消耗是最大成本项。美国百万Token成本约0.6美元，国内电价较低但使用人口多，算力缺口持续推高服务价格。

现阶段来看，3D堆叠是唯一成熟的可大规模量产落地的降本路线，其他像存算一体、光计算等新技术离产业落地和量产还较远。依托国内电力优势，等 A4E大规模出货后，行业硬件、电力成本会下探。但如果Token需求增速持续超过算力扩容速度，价格仍有上涨可能。

媒体：如今不少企业扎堆布局3D芯片，算苗担心被同行追赶超越吗？

汪福全：国内入局3D设计的企业已有一些，但从人才储备、经验积累和技术验证和供应链的磨合等方面看，我们的壁垒很难短期被复制。3D堆叠资金、人才、工程落地门槛极高，且研发周期很长，很难出现恶性内卷。

媒体：国内先进制程存在短板，依靠3D堆叠架构创新，我们和海外高端芯片的技术代差未来三五年会如何？

汪福全：单纯比拼先进制程，我们短期内确实存在差距，但3D堆叠是换道超车路线。海外厂商靠先进制程叠加HBM拉高算力，我们绕开制程短板，用立体堆叠提升访存带宽与算力密度。

我觉得大家可以乐观点，不用悲观。依靠国内芯片产业链持续成熟，搭配持续创新的架构，不久的未来，我们完全有能力、有机会、有条件，依靠创新的中国方案，解决这个时代的算力饥渴问题。

对话算苗科技CEO汪福全：英伟达CUDA已不是高不可攀的壁垒，Token使用成本是用户第一考量图3

对话算苗科技CEO汪福全：英伟达CUDA已不是高不可攀的壁垒，Token使用成本是用户第一考量图4

运营编辑 | 孟莎莎

对话算苗科技CEO汪福全：英伟达CUDA已不是高不可攀的壁垒，Token使用成本是用户第一考量图5

对话算苗科技CEO汪福全：英伟达CUDA已不是高不可攀的壁垒，Token使用成本是用户第一考量图6

对话算苗科技CEO汪福全：英伟达CUDA已不是高不可攀的壁垒，Token使用成本是用户第一考量图10