当3.68亿月活用户的指尖每一次触碰屏幕,背后都是算力的无声燃烧。豆包的爆发式增长,让字节跳动站在了算力供需的十字路口。
字节与天数智芯围绕5万颗AI推理芯片展开洽谈,意义在于国产GPU终于走到大模型应用的生产现场。

豆包收费之后,算力变成「单位经济模型」
豆包正在从免费增长阶段进入付费验证阶段,当AI应用以免费方式争夺用户时,算力成本更多被视为获客投入,一旦开始收费算力就会进入产品毛利模型。
豆包专业版的收费设计,已经把「额度」作为产品边界,标准、加强、高级套餐的差别,本质上是不同用户对模型调用能力的购买。
对于字节来说,决定业务能否跑通的是每一次任务执行的算力成本能否被压进合理区间。
这正是国产推理芯片的机会窗口,大模型应用厂商需要一个更健康的算力组合:一部分承担极限性能,一部分承担规模化推理,一部分承担边缘和垂类场景,一部分作为供应链韧性储备。
多供应商结构能降低采购风险,也能在价格谈判、部署节奏和资源调度上提供更大空间,这也要求从模型、芯片、框架、调度、缓存、量化、服务端架构到商业定价一起优化。
与此同时,豆包大模型日均Token处理量突破140万亿的规模,正在将字节推向国内推理算力消耗的第一梯队。
面对持续走高的算力账单与海外芯片供应的不确定性,字节早已启动算力供应链的重构,其中最核心的动作便是训练与推理体系的分治。
在字节的算力版图里,华为昇腾与寒武纪高端芯片承担超大规模模型预训练、基座模型迭代等重负载任务,追求极致的集群训练效率与多卡互联能力。
而海量的线上C端推理、轻量化模型部署、边缘节点算力供给,则交给性价比更高、供应更稳定的推理专用芯片。
天数智芯的智铠系列正是切入了后者的空白地带,成为字节第三家国产GPU供应商。
训练和推理分治的供应链布局,是AI算力走向工业化分工的显性标志。
字节用两条供应链分别匹配两类需求,既保障了前沿模型研发的进度,又在日常业务中摊薄了算力成本,同时分散了单一供应商的断供风险。

拿下五万颗订单,天数智芯突围
天数智芯能够进入字节的核心供应链,核心筹码在于其坚持的通用GPU路线,以及智铠系列针对推理场景的深度优化。
与专用ASIC推理芯片不同,智铠系列基于标准通用GPGPU架构设计,拥有完整的可编程能力与通用计算指令集,能够快速适配不断迭代的大模型算法,无需针对单一场景重新流片。
从公开参数来看,智铠100加速卡搭载32GB HBM2E高带宽显存,FP16峰值算力达96 TFLOPS,INT8量化算力达192 TOPS,板级功耗控制在300W,显存带宽与访存延迟均针对大模型推理的内存密集型特征做了专项调校。
对于字节这类拥有上百种推理负载的互联网厂商而言,通用架构意味着更低的迁移成本。
现有基于CUDA开发的推理框架与算子,能够通过编译层快速适配,无需推倒重来,大幅缩短了上线周期。
通用GPU的推理价值,在大模型快速迭代的周期里被持续放大,大模型架构从纯Decoder走向MoE、多模态融合,推理负载的计算特征一直在变化,专用芯片很容易在半年内就出现架构过时的问题。
而通用GPU凭借可编程性,能够通过软件优化持续释放性能,跟上模型迭代的节奏,这也是字节选择智铠系列作为海量推理主力供给的重要原因。

推理比训练更像一门生意,二线厂商迎窗口期
从商业化角度看,推理才是更长期、更高频、更贴近现金流的战场。
训练像修高速公路,一次投入巨大,周期集中,考验的是峰值能力、集群通信、稳定训练和大规模并行。
推理像城市交通,每秒都在发生,永远有高峰、低谷、拥堵、绕行和调度。
推理芯片的核心竞争力并不只看理论算力,还要看单位请求成本、响应速度、batch调度效率、显存利用率、KV Cache管理、量化支持、算子适配、框架兼容、故障恢复和运维工具链。
在真实推理场景里,客户很少愿意为单一芯片重写大量业务代码,国产芯片要进入大厂,必须尽可能降低迁移成本,让原本围绕CUDA、PyTorch、推理引擎和模型服务框架搭建的工程体系能够平滑过渡。
国产GPU不一定一上来就要在所有场景正面对标英伟达最强卡,先在可控业务边界里跑稳、跑久、跑出成本优势,反而更符合产业落地逻辑。
AI产业的算力重心正在从训练侧快速向推理侧迁移,2026年国内AI推理GPU市场规模预计接近六千亿元,两年复合增长率接近四成,推理算力已经成为AI算力投入的核心增量来源。
相比于训练市场被少数头部厂商垄断的格局,推理市场场景分散、需求多元、对性价比敏感度更高,给了二线国产厂商更多突围空间。
当前国内推理算力市场正在形成分层竞争的格局,华为昇腾凭借完整的生态与集群能力,占据高端训练与高端推理市场的主导地位;寒武纪依托多年的技术积累,在中高端推理与行业私有化部署中站稳脚跟。
而天数智芯、摩尔线程等通用GPU厂商,则凭借更灵活的架构与更优的性价比,冲击海量通用推理市场。
随着头部互联网厂商的订单陆续落地,第二梯队厂商的产能与技术迭代速度会进入正向循环,梯队之间的差距会逐步缩小。

国产GPU新阶段,多路线共存+生态决胜
国产GPU很难靠单点突破完成整体替代,更现实的路径是在特定场景、特定负载、特定客户体系里逐步占据份额。
推理是最适合国产芯片打开局面的方向之一,训练大模型对芯片性能、集群通信和软件成熟度要求极高,客户容错空间很小。
推理场景则更加多元,可以按照模型大小、任务类型、延迟要求、成本敏感度进行拆分,只要某类国产芯片在某些任务上做到稳定、便宜、够用,就有机会被纳入大厂的异构算力池。
未来的大模型基础设施,大概率不会是一种芯片包打天下。云端训练、高并发推理、端侧AI、边缘视觉、企业私有化部署、行业小模型、Agent任务调度,会对应不同芯片形态。
GPU、ASIC、NPU、CPU混合调度将长期共存,国产GPU企业真正要争夺的是在这张异构算力版图中占住足够关键的位置。

结尾:
当国产GPU跑过亿级用户的流量考验,中国算力的自主之路才算真正踩实了路基。五万颗订单不是终点,而是国产推理芯片进入实战周期的起点。
接下来的一到两年,会有更多本土芯片跨过规模化门槛,在真实业务的淬炼中,构建起属于中国的算力产业生态。
部分资料参考:21世纪经济报道:《5万GPU芯片大采购背后:国产巨头天数智芯浮出水面》,第一财经:《字节跳动加量采购国产芯片,互联网大厂竞速搭建算力护城河》,国盛证券:《天数智芯:GPU代际稳步演进,商业落地渐入节奏》,长江证券:《天数智芯深度研究:时来天地皆同力,国产GPU主力爆发在即》
END

往期精选:

请点下【♡】给小编加鸡腿
