国产AI芯片三剑客:华为昇腾、寒武纪与海光信息的技术解构与互联网巨头算力采购策略

半导体产业研究 2026-04-02 18:27

 

一、2026年国产AI芯片算力架构分化

随着大模型参数从千亿向万亿迈进,预计到2026年国内AI芯片市场规模将激增至600亿美元,现正步入“大规模商用支撑”的深水区,这不再是单纯的“实验性替代”,而是基于算力主权底座的系统级重构。

华为昇腾、寒武纪与海光信息已构成国产算力的三大核心支点。然而,市场整体依然受限于严重的供需错配——“需求大于供应”仍是核心瓶颈,且瓶颈已从单纯的晶圆产能转移至先进制程良率、HBM3e供应以及服务器整机配套组件(机头)的结构性短缺。

二、AI芯片硬件架构对比

驱动华为昇腾、寒武纪与海光选择不同技术路径的核心逻辑在于以下三个维度:

·生态兼容性:是选择构建自主“护城河”,还是寄生于现有成熟生态实现“即插即用”?

·算力PPA效率:在有限的逻辑面积内,如何平衡性能(Performance)、功耗(Power)与成本(Area)?

·供应链韧性:如何在全球协作受阻的背景下,确保从掩膜到封装的全链路自主化?

基于此,市场形成了差异鲜明的竞争格局:华为(垂直整合的算力主权)寒武纪(算法驱动的专用加速)海光(借力打力的兼容桥梁)

华为昇腾(Ascend)走的是一条从指令集到软件栈全自研的道路。在意识到通用GPU架构在处理大规模Transformer矩阵运算时的冗余后,华为坚决推进了以“3D Cube”为核心的达芬奇架构。

1.核心解析:3D Cube 的“暴力美学”

传统的CUDA核心更像是一组精密的短兵器,适合处理复杂的计算逻辑;而达芬奇架构的3D Cube则是一台巨大的“联合收割机”。它专为矩阵运算设计,通过高密度的ALU阵列在单时钟周期内完成大规模张量运算,极大地提升了Transformer模型中常见的数据吞吐效率。

2.工程代价:60%的逻辑面积跨度

由于制程工艺受限于等效7nm(N+2),为了追赶英伟达H100的性能,华为采用了双die封装(Chiplet)技术。这种“合二为一”的策略虽然让910C在FP16算力上达到了800 TFLOPS,但也导致其逻辑面积比H100大了约60%。这意味着更严苛的功耗管理与散热挑战——这正是为了争取时间而付出的物理空间成本。

3.CANN 与 MindSpore 的全栈锁合CANN(异构计算架构)

作为昇腾的底层基石,其拥有1400+高性能算子,类似于连接硬件与模型的“高速公路”。 MindSpore(昇思)通过与芯片的深度耦合,实现垂直调优,构建了国产AI领域最稳固的闭环生态。

昇腾系列核心参数演进

国产AI芯片三剑客:华为昇腾、寒武纪与海光信息的技术解构与互联网巨头算力采购策略图2

华为通过 HCCS 协议解决了大规模集群的通信瓶颈,而与此同时,寒武纪则在利用领域专用架构(DSA)的灵活性寻找突破。

寒武纪是国内最具代表性的 DSA(领域专用架构)践行者。其核心竞争力在于MLU原生架构

·AI专用指令集:寒武纪从底层剔除了大量与图形渲染相关的电路,将晶体管密度全额投射在AI运算上,理论能效比极高。

·稀疏化计算技术:这是寒武纪的王牌。它能在硬件层级自动识别并跳过神经网络中的零值运算,实现“只干活,不空转”,这对于大模型的推理加速至关重要。

寒武纪的 590 系列已在互联网大厂(如字节跳动)的“搜广推”业务中大规模验证,而经过深度优化的 690 系列号称能达到 H100 80% 以上的性能。

海光深算(DCU)系列选择了最现实的 GPGPU 路径。其核心逻辑是:“如果你不能打败 CUDA,那就加入它。”

·极致兼容的“即插即用”:通过 DTK 软件栈,海光实现了对 ROCm 及 CUDA 生态的高效转化。开发者几乎无需重构代码,即可将业务迁移至海光平台。

·FP64 双精度王牌:海光是国产阵营中罕见具备强大 FP64 双精度浮点能力(~10 TFLOPS)的厂商。这让它在 HPC(高性能计算)与 AI 的交叉赛道(如 AI for Science)中拥有独特身位。

在万亿参数模型训练需求(需求量是推理的5-6倍)的倒逼下,硬件性能的量化评估已从单卡算力转向集群互联效率。

国产AI芯片三剑客:华为昇腾、寒武纪与海光信息的技术解构与互联网巨头算力采购策略图3

软件生态:DeepSeek效应与“软带硬”逻辑

在AI领域,“软件决定上限”。开发者对CUDA的依赖正被两种路径瓦解:

·华为 CANN/MindSpore (闭合生态): 华为通过“昇腾原生”策略,将910C/950的硬件潜力压榨至极致。在政务与运营商市场,华为已建立起不可逾越的防御墙。

·寒武纪 Neuware (专业适配): 寒武纪的战略高点在于“DeepSeek效应”。若DeepSeek V5等下一代模型基于寒武纪690进行训练,下游推理将无需额外适配。这种从训练端锁死推理端的逻辑,是寒武纪对抗华为全栈整合的最强武器。

·海光 DTK (生态寄生): 海光走的是“极速兼容”路线,但由于缺乏对模型厂商的深度适配,其发展节奏与行业趋势出现脱节。

国产AI芯片三剑客:华为昇腾、寒武纪与海光信息的技术解构与互联网巨头算力采购策略图4

训练需求是推理的5-6倍。谁能率先在预训练场景(Pre-training)实现稳定部署,谁就能通过模型权重文件锁死后续的推理市场(Inference),从而建立长期生态溢价。

三、互联网巨头采购策略剖析

2026年的市场不再是简单的“买家市场”,而是复杂的供应链协同。

·字节跳动:国产化供应链的领头羊。 其策略为“三方制衡”:寒武纪主导搜广推业务(排名第一);华为(910C/950)支撑豆包大模型的推理与训练;自研芯片则专门针对豆包应用的算力扩展进行深度优化,这预示着大厂终将收回算力主权。

·阿里巴巴/腾讯: 阿里平头哥PPU已占据其50%需求,对华为、寒武纪的采购多用于政务云等外部场景。腾讯采购策略高度多元化,已向昆仑芯下达订单,对国产芯片的稳定性要求极为苛刻。

·运营商与超算中心: 这是华为的绝对领地。预计2026年超算中心将贡献近百万张卡的采购量,华为凭借Atlas 900架构和超节点方案占据主导。

互联网大厂在“自研、采购、多元化”间寻求微妙平衡。为规避维护成本激增,各大厂普遍遵循“三供应商原则”,即核心供应商不超过3家。

·字节跳动:SeeDance驱动的巨量需求

o采购规模: 字节2026年年度板卡需求超200万张,其中国产化部分接近100万张,年度国产芯片订单锁定在50-60万颗。

o核心逻辑:SeeDance应用而非豆包,已成为2026年字节算力增长的绝对驱动力。寒武纪是其头号供应商(占比超50%),华为约占三分之一。字节正在积极推进针对豆包优化的自研芯片,以实现特定业务的能效闭环。

·阿里巴巴:平头哥的“半壁江山”

o占比: 自研平头哥PPU在其内部采购中稳占42%-43%份额。

o平衡: 尽管自研能力强,但平头哥在政务场景渗透有限。因此在政务云标包中,阿里会差性化采购华为或寒武纪(已订购590系列),并将海光列为稳定性测试供应商。

·腾讯:多元化博弈与保守转向

o转向: 对混元大模型前景持保留态度,导致其预训练投入审慎。2026年国产卡采购目标仅约5万张,重点转向昆仑芯,用于支持腾讯会议、微信AI等内部小型应用,分散对华为的依赖。

2026年的国产算力矩阵已形成明确的职能分工:

·国家级/区域级超算中心:优先选择华为昇腾。

o理由: 凭借鲲鹏+昇腾的纵向整合及万卡集群部署经验,是保障“算力主权”的不二之选。

·互联网大模型训练/搜广推:寒武纪思元系列。

o理由: ASIC架构在垂直场景下的极致能效比,以及与DeepSeek等前沿算法的深度原生适配。

·存量业务低成本迁移:海光深算系列。

o理由: 兼容性高,但需注意稳定性风险,仅建议用于非核心推理业务的平滑过渡。

互联网巨头正通过“自研+外购”双轮驱动,芯片厂商的护城河将取决于其“工程执行力”。华为稳守底座,寒武纪突围训练场景,海光若无法解决稳定性问题,则面临被昆仑芯、平头哥进一步蚕食的风险。国产AI芯片正从“制造之争”转向“系统工程之争”。

国产AI芯片三剑客:华为昇腾、寒武纪与海光信息的技术解构与互联网巨头算力采购策略图5

 

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI 采购 芯片 华为 寒武纪
more
75万颗!华为AI芯片950PR爆单
AI算力狂飙的下一站:CPO
OpenAI收购科技播客TBPN,首次进军媒体领域
Meta 自研 AI 推理芯片:四代路线图深度解读
2026年中国AI芯片产业链图谱及投资布局分析
独家专访Feeling AI创始人戴勃:我想让世界模型更有“活人感”|甲子光年
一位建筑师想用AI重构一个北美“小红书”
2025芯片上市企业业绩出炉,AI赛道全线爆发
甲骨文全球裁员 3 万人,多为 AI 可替代职位;雷军将在今晚直播拆车;OpenAI 股票被曝转售市场滞销 | 极客早知道
IBM与Arm联手打造双架构企业计算平台,聚焦AI与关键任务负载
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号