透视华为在算力战略下的系统性布局。 作者 | Hardy 华为昇腾910C至970的迭代遵循“三年四代”战略规划(2025-2028),形成清晰的技术跃迁路径,核心围绕“算力密度、场景适配、国产化自主”推进。 01. 产品向“基础夯实、 场景分化、性能跃升”三段式演进 1. 昇腾910C(2025)—— 国产化算力基石 作为第三代昇腾的开篇之作,910C并非全新设计,而是通过双昇腾910B芯片合封(Chiplet技术)实现算力倍增,快速填补国内千亿参数模型训练的算力空白。 面对DeepSeek等开源大模型带来的算力冲击,华为以成熟架构快速迭代,2025年Q1量产落地后,通过Atlas 800T A3超节点实现300+套规模部署,服务20+行业客户,完成 “从可用到好用” 的市场验证。 局限性明显:SIMD单一架构、缺乏低精度优化、依赖外部HBM,难以满足大模型推理细分场景与成本控制需求,为950系列的场景化分化埋下伏笔。 2. 昇腾 950PR/DT(2026)—— 场景化细分突破 首次采用“同核心+差异化配置” 策略,950PR与950DT共享950 Die核心架构,仅通过自研HBM内存(HiBL 1.0/HiZQ 2.0)和软件优化实现场景分化,这是华为芯片迭代从 “大一统” 到 “精准适配” 的关键转变。 引入FP8/FP4低精度格式,FP8算力达1PFLOPS,自研HiF8格式解决“低精度+高保真”矛盾,精度接近FP16; 950PR采用低成本HiBL 1.0内存,定价较竞品低30%,降低推理场景门槛;950PR适配Atlas 350标卡,950DT瞄准超节点服务器,覆盖“边缘推理、云端训练”全链路。 3. 昇腾960/970(2027-2028)—— 超大规模算力跃升 遵循“规格翻倍” 原则,960相比950系列实现算力、内存容量、带宽的全面翻倍,970再翻一番,形成 “每代性能倍增” 的迭代节奏。 960支持自研HiF4格式(业界最优4bit精度),适配千亿参数模型;970以8 PFLOPS(FP4)算力和4TB/s互联带宽,瞄准万亿参数MoE架构,呼应AGI时代的算力需求。 970首次采用N+3工艺,660mm²四Die封装设计,能效比较910C提升 30%,破解 “算力提升伴随功耗激增” 的行业难题。 02. 架构演进:从“单一高效”到 “双模兼容”的生态重构 昇腾系列的架构创新贯穿迭代全程,核心围绕“计算效率、编程兼容性、场景适配性” 三大目标,形成清晰的技术传承与突破脉络: 1. 架构核心突破:SIMD→SIMD/SIMT双编程模型 910C的SIMD架构:专注向量计算效率,适合大规模连续数据处理(如模型训练的矩阵运算),但对碎片化数据(如推理Decode阶段的token生成)支持不足,内存访问颗粒度512字节,离散访问效率较低。 950及后续的双模型创新: SIMD保留高效向量处理能力,适配“大块数据流水线运算”; 新增SIMT模型,支持灵活调度碎片化数据,内存访问颗粒度缩减至128字节,离散访问效率提升4倍; 双模型无缝切换,实现“训练 + 推理” 全场景高效适配,解决传统AI芯片“训练强推理弱”或“推理强训练弱”的痛点。 2. 生态兼容架构:ASIC+GPGPU双生子设计 950系列起引入“双生子”架构策略:ASIC版本(昇腾Core)深度适配华为CANN生态,最大化硬件效率;GPGPU版本兼容CUDA生态,降低客户迁移成本(尤其针对原英伟达用户)。 这一架构设计并非技术妥协,而是华为“生态开放”战略的体现 —— 配合CANN编译器开源、MindSpore框架开源,形成“硬件兼容 + 软件开放”的双重保障,加速产业落地。 3. 存储互联架构:自研HBM破解“访存瓶颈” 910C的外部HBM依赖:128GB容量、3.2TB/s带宽,虽能满足千亿参数模型需求,但成本高、供应链受限; 950系列的自研HBM突破:HiBL 1.0(成本优化)与 HiZQ 2.0(性能优化)双方案,首次实现HBM国产化自主,950DT的HiZQ 2.0带宽达4TB/s,超越同期业界水平; 960/970的存储跃升:288GB HBM容量+最高14.4TB/s带宽,配合2.2TB/s-4TB/s互联带宽,支持多芯片集群线性扩展,950系列超节点性能可超越英伟达2027年NVL576系统。 03. 芯片间核心关系: “代际传承+同代互补”的生态协同 五款芯片并非孤立存在,而是形成“基础层、场景层、高端层”的三级协同体系,支撑华为“超节点+集群”的算力战略: 1. 代际传承关系 950-970均延续“达芬奇架构”核心,在计算单元、指令集层面保持兼容性,确保基于910C开发的应用可平滑迁移至新一代芯片,降低生态迁移成本;950的低精度格式(FP8/HiF8)、双编程模型等核心技术,在960/970中进一步优化,仅通过工艺升级、封装扩展实现性能跃升,避免 “推倒重来” 的研发浪费; 从910C的CloudMatrix 384超节点,到950的Atlas 950 SuperCluster(50万卡级),再到960的Atlas 960 SuperCluster(百万卡级),芯片迭代与超节点集群演进同步,形成 “芯片、集群、应用” 的端到端优化。 2. 同代互补关系:950PR与950DT的场景协同 作为同代双芯片,950PR与950DT形成 “推理分工 + 训练互补” 的协同模式。950PR聚焦推理Prefill阶段(长上下文输入处理)和推荐业务(计算密集型),950DT侧重推理Decode阶段(token生成)和训练场景(访存密集型),二者组合可覆盖大模型全流程推理需求; 3. 高低端衔接关系:覆盖全算力需求谱系 入门级:910C作为成熟产品,持续服务政务、金融等通用 AI 场景,提供高性价比的 “训练 + 推理” 一体化解决方案; 中端:950系列聚焦推理细分场景,通过成本优化与性能升级,成为产业规模化落地的核心引擎; 高端:960/970瞄准超大规模模型与AGI研发,打造国产顶尖算力平台,突破海外技术垄断。 04. 迭代战略本质: 以“架构创新”对冲“工艺短板” 华为昇腾系列的迭代逻辑,本质是在半导体制造工艺受限的背景下,通过架构创新、场景分化、生态协同实现算力突围: SIMD/SIMT双模型、自研HBM、Chiplet封装等架构创新,弥补了N+2/N+3工艺与国际先进工艺的差距,使970的FP4算力(8PFLOPS)接近英伟达Blackwell B300(15PFLOPS); 放弃“一款芯片通吃所有场景” 的传统思路,通过950系列的场景分化,在推理细分市场形成差异化优势,避免与海外巨头正面竞争;从芯片到框架、编译器、应用套件的全栈开源开放,形成“硬件-软件-应用” 的生态闭环,构建难以复制的产业壁垒。 05. 核心参数总览表 (数据来源:全联接大会 2025 + 行业研报,仅供参考,具体以发布产品参数为准) 06. 关键维度深度解析 1. 算力演进:从 “规模提升” 到 “精度优化” 昇腾910C:作为第三代昇腾开篇之作,以800TFLOPS(FP16)算力奠定基础,采用双昇腾910B芯片合封设计,适配CloudMatrix 384超节点集群,可支撑千亿参数模型训练。 950系列突破:首次引入FP8/FP4低精度格式,算力跃升至1PFLOPS(FP8),华为自研HiF8格式实现“低精度+高保真”平衡,精度接近FP16,解决大模型训练中的算力与精度矛盾。 960/970迭代逻辑:遵循“每代算力翻倍” 原则,970最终实现8PFLOPS(FP4)算力,配合N+3工艺优化,能效比较910C提升30%以上,适配动态稀疏计算与MoE架构。 2. 架构创新:SIMD/SIMT 双模型适配多元场景 910C沿用SIMD架构,专注高效向量计算;950及后续型号新增SIMT编程模型,支持“大块向量流水线处理 + 碎片化数据灵活调度”,内存访问颗粒度从512字节缩减至128字节,离散内存访问效率提升4倍。 同时提供ASIC(昇腾Core)和GPGPU双生子型号,分别适配CANN生态和CUDA兼容生态,降低客户迁移成本。 3. 存储与互联:破解大模型 “访存瓶颈” 950系列首次采用华为自研HBM方案,950PR的HiBL 1.0侧重成本控制,950DT的HiZQ 2.0强化带宽(4TB/s),适配训练场景的高访存需求;960/970通过容量翻倍(288GB)和带宽飙升(最高14.4TB/s),彻底解决万亿参数模型的内存限制。 从910C的784GB/s到970的4TB/s,互联带宽提升5倍,支持多芯片集群线性扩展,950系列超节点可超越英伟达2027年NVL576系统性能。 4. 场景分化:精准匹配不同AI业务需求 昇腾910C:通用性强,覆盖“训练 + 推理” 全场景,当前已广泛应用于政务、金融等行业的AI基础设施建设。 950PR/DT分工:PR聚焦推理Prefill阶段(如视频推荐、实时交互),DT侧重推理Decode阶段(如对话生成)和训练任务,通过差异化内存配置(128GB vs 144GB)适配不同访存需求。 960/970:瞄准超大规模场景,960支持288GB超大内存,适配千亿参数模型;970以4TB/s互联带宽和8PFLOPS算力,成为MoE等下一代AI架构的核心支撑。 07. 技术亮点与行业意义 全栈优化:从芯片(昇腾)、框架(MindSpore)、算子库(CANN)、应用(ModelArts),形成端到端优化,950系列向量算力占比提升30%,任务调度延迟降低50%。 国产化突破:N+2/N+3工艺自主可控,HBM内存摆脱对外依赖,HiBL/HiZQ系列自研存储技术填补国内空白,互联架构打破英伟达 NVLink 垄断。 成本优势:950PR定价约10万元/卡(重点客户8万元),较同性能竞品低30%;960/970通过多Die封装提升良率,进一步降低大规模部署成本。 综上,昇腾910C-970的迭代并非简单的性能堆砌,而是华为在算力战略下的系统性布局:以910C奠定基础,以950系列实现场景突破,以960/970冲刺顶尖算力,最终形成覆盖全场景、全算力等级的国产AI芯片生态,为中国人工智能产业的可持续发展提供核心支撑。