华为昇腾系列AI芯片:演进路径、架构、生态和详细参数对比

芯东西 2026-04-08 18:00

华为昇腾系列AI芯片:演进路径、架构、生态和详细参数对比图1华为昇腾系列AI芯片:演进路径、架构、生态和详细参数对比图2

透视华为在算力战略下的系统性布局。
作者 |  Hardy
华为昇腾910C至970的迭代遵循“三年四代”战略规划(2025-2028),形成清晰的技术跃迁路径,核心围绕“算力密度、场景适配、国产化自主”推进。
 
01.
产品向“基础夯实、
场景分化、性能跃升”三段式演进

 

1. 昇腾910C(2025)—— 国产化算力基石
作为第三代昇腾的开篇之作,910C并非全新设计,而是通过双昇腾910B芯片合封(Chiplet技术)实现算力倍增,快速填补国内千亿参数模型训练的算力空白。
面对DeepSeek等开源大模型带来的算力冲击,华为以成熟架构快速迭代,2025年Q1量产落地后,通过Atlas 800T A3超节点实现300+套规模部署,服务20+行业客户,完成 “从可用到好用” 的市场验证。
局限性明显:SIMD单一架构、缺乏低精度优化、依赖外部HBM,难以满足大模型推理细分场景与成本控制需求,为950系列的场景化分化埋下伏笔。
2. 昇腾 950PR/DT(2026)—— 场景化细分突破
首次采用“同核心+差异化配置” 策略,950PR与950DT共享950 Die核心架构,仅通过自研HBM内存(HiBL 1.0/HiZQ 2.0)和软件优化实现场景分化,这是华为芯片迭代从 “大一统” 到 “精准适配” 的关键转变。
引入FP8/FP4低精度格式,FP8算力达1PFLOPS,自研HiF8格式解决“低精度+高保真”矛盾,精度接近FP16;
950PR采用低成本HiBL 1.0内存,定价较竞品低30%,降低推理场景门槛;950PR适配Atlas 350标卡,950DT瞄准超节点服务器,覆盖“边缘推理、云端训练”全链路。
3. 昇腾960/970(2027-2028)—— 超大规模算力跃升
遵循“规格翻倍” 原则,960相比950系列实现算力、内存容量、带宽的全面翻倍,970再翻一番,形成 “每代性能倍增” 的迭代节奏。
960支持自研HiF4格式(业界最优4bit精度),适配千亿参数模型;970以8 PFLOPS(FP4)算力和4TB/s互联带宽,瞄准万亿参数MoE架构,呼应AGI时代的算力需求。
970首次采用N+3工艺,660mm²四Die封装设计,能效比较910C提升 30%,破解 “算力提升伴随功耗激增” 的行业难题。
 
02.
架构演进:从“单一高效”到
“双模兼容”的生态重构

 

昇腾系列的架构创新贯穿迭代全程,核心围绕“计算效率、编程兼容性、场景适配性” 三大目标,形成清晰的技术传承与突破脉络:
1. 架构核心突破:SIMD→SIMD/SIMT双编程模型
910C的SIMD架构:专注向量计算效率,适合大规模连续数据处理(如模型训练的矩阵运算),但对碎片化数据(如推理Decode阶段的token生成)支持不足,内存访问颗粒度512字节,离散访问效率较低。
950及后续的双模型创新:
    • SIMD保留高效向量处理能力,适配“大块数据流水线运算”;
    • 新增SIMT模型,支持灵活调度碎片化数据,内存访问颗粒度缩减至128字节,离散访问效率提升4倍;
    • 双模型无缝切换,实现“训练 + 推理” 全场景高效适配,解决传统AI芯片“训练强推理弱”或“推理强训练弱”的痛点。
    2. 生态兼容架构:ASIC+GPGPU双生子设计
    950系列起引入“双生子”架构策略:ASIC版本(昇腾Core)深度适配华为CANN生态,最大化硬件效率;GPGPU版本兼容CUDA生态,降低客户迁移成本(尤其针对原英伟达用户)。
    这一架构设计并非技术妥协,而是华为“生态开放”战略的体现 —— 配合CANN编译器开源、MindSpore框架开源,形成“硬件兼容 + 软件开放”的双重保障,加速产业落地。
    3. 存储互联架构:自研HBM破解“访存瓶颈”
    910C的外部HBM依赖:128GB容量、3.2TB/s带宽,虽能满足千亿参数模型需求,但成本高、供应链受限;
    950系列的自研HBM突破:HiBL 1.0(成本优化)与 HiZQ 2.0(性能优化)双方案,首次实现HBM国产化自主,950DT的HiZQ 2.0带宽达4TB/s,超越同期业界水平;
    960/970的存储跃升:288GB HBM容量+最高14.4TB/s带宽,配合2.2TB/s-4TB/s互联带宽,支持多芯片集群线性扩展,950系列超节点性能可超越英伟达2027年NVL576系统。
     
    03.
    芯片间核心关系:
    “代际传承+同代互补”的生态协同

     

    五款芯片并非孤立存在,而是形成“基础层、场景层、高端层”的三级协同体系,支撑华为“超节点+集群”的算力战略:
    1. 代际传承关系
    950-970均延续“达芬奇架构”核心,在计算单元、指令集层面保持兼容性,确保基于910C开发的应用可平滑迁移至新一代芯片,降低生态迁移成本;950的低精度格式(FP8/HiF8)、双编程模型等核心技术,在960/970中进一步优化,仅通过工艺升级、封装扩展实现性能跃升,避免 “推倒重来” 的研发浪费;
    从910C的CloudMatrix 384超节点,到950的Atlas 950 SuperCluster(50万卡级),再到960的Atlas 960 SuperCluster(百万卡级),芯片迭代与超节点集群演进同步,形成 “芯片、集群、应用” 的端到端优化。
    2. 同代互补关系:950PR与950DT的场景协同
    作为同代双芯片,950PR与950DT形成 “推理分工 + 训练互补” 的协同模式。950PR聚焦推理Prefill阶段(长上下文输入处理)和推荐业务(计算密集型),950DT侧重推理Decode阶段(token生成)和训练场景(访存密集型),二者组合可覆盖大模型全流程推理需求;
    3. 高低端衔接关系:覆盖全算力需求谱系
    入门级:910C作为成熟产品,持续服务政务、金融等通用 AI 场景,提供高性价比的 “训练 + 推理” 一体化解决方案;
    中端:950系列聚焦推理细分场景,通过成本优化与性能升级,成为产业规模化落地的核心引擎;
    高端:960/970瞄准超大规模模型与AGI研发,打造国产顶尖算力平台,突破海外技术垄断。
     
    04.
    迭代战略本质:
    以“架构创新”对冲“工艺短板”

     

    华为昇腾系列的迭代逻辑,本质是在半导体制造工艺受限的背景下,通过架构创新、场景分化、生态协同实现算力突围:
    SIMD/SIMT双模型、自研HBM、Chiplet封装等架构创新,弥补了N+2/N+3工艺与国际先进工艺的差距,使970的FP4算力(8PFLOPS)接近英伟达Blackwell B300(15PFLOPS);
    放弃“一款芯片通吃所有场景” 的传统思路,通过950系列的场景分化,在推理细分市场形成差异化优势,避免与海外巨头正面竞争;从芯片到框架、编译器、应用套件的全栈开源开放,形成“硬件-软件-应用” 的生态闭环,构建难以复制的产业壁垒。
     
    05.
    核心参数总览表

     

    华为昇腾系列AI芯片:演进路径、架构、生态和详细参数对比图3
    (数据来源:全联接大会 2025 + 行业研报,仅供参考,具体以发布产品参数为准)
     
    06.
    关键维度深度解析

     

    1. 算力演进:从 “规模提升” 到 “精度优化”
    昇腾910C:作为第三代昇腾开篇之作,以800TFLOPS(FP16)算力奠定基础,采用双昇腾910B芯片合封设计,适配CloudMatrix 384超节点集群,可支撑千亿参数模型训练。
    950系列突破:首次引入FP8/FP4低精度格式,算力跃升至1PFLOPS(FP8),华为自研HiF8格式实现“低精度+高保真”平衡,精度接近FP16,解决大模型训练中的算力与精度矛盾。
    960/970迭代逻辑:遵循“每代算力翻倍” 原则,970最终实现8PFLOPS(FP4)算力,配合N+3工艺优化,能效比较910C提升30%以上,适配动态稀疏计算与MoE架构。
    2. 架构创新:SIMD/SIMT 双模型适配多元场景
    910C沿用SIMD架构,专注高效向量计算;950及后续型号新增SIMT编程模型,支持“大块向量流水线处理 + 碎片化数据灵活调度”,内存访问颗粒度从512字节缩减至128字节,离散内存访问效率提升4倍
    同时提供ASIC(昇腾Core)和GPGPU双生子型号,分别适配CANN生态和CUDA兼容生态,降低客户迁移成本。
    3. 存储与互联:破解大模型 “访存瓶颈”
    950系列首次采用华为自研HBM方案,950PR的HiBL 1.0侧重成本控制,950DT的HiZQ 2.0强化带宽(4TB/s),适配训练场景的高访存需求;960/970通过容量翻倍(288GB)和带宽飙升(最高14.4TB/s),彻底解决万亿参数模型的内存限制。
    从910C的784GB/s到970的4TB/s,互联带宽提升5倍,支持多芯片集群线性扩展,950系列超节点可超越英伟达2027年NVL576系统性能。
    4. 场景分化:精准匹配不同AI业务需求
    昇腾910C:通用性强,覆盖“训练 + 推理” 全场景,当前已广泛应用于政务、金融等行业的AI基础设施建设。
    950PR/DT分工:PR聚焦推理Prefill阶段(如视频推荐、实时交互),DT侧重推理Decode阶段(如对话生成)和训练任务,通过差异化内存配置(128GB vs 144GB)适配不同访存需求。
    960/970:瞄准超大规模场景,960支持288GB超大内存,适配千亿参数模型;970以4TB/s互联带宽和8PFLOPS算力,成为MoE等下一代AI架构的核心支撑。
     
    07.
    技术亮点与行业意义

     

    全栈优化:从芯片(昇腾)、框架(MindSpore)、算子库(CANN)、应用(ModelArts),形成端到端优化,950系列向量算力占比提升30%,任务调度延迟降低50%。
    国产化突破:N+2/N+3工艺自主可控,HBM内存摆脱对外依赖,HiBL/HiZQ系列自研存储技术填补国内空白,互联架构打破英伟达 NVLink 垄断。
    成本优势:950PR定价约10万元/卡(重点客户8万元),较同性能竞品低30%;960/970通过多Die封装提升良率,进一步降低大规模部署成本。
    综上,昇腾910C-970的迭代并非简单的性能堆砌,而是华为在算力战略下的系统性布局:以910C奠定基础,以950系列实现场景突破,以960/970冲刺顶尖算力,最终形成覆盖全场景、全算力等级的国产AI芯片生态,为中国人工智能产业的可持续发展提供核心支撑。

    声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
    AI 芯片 华为
    more
    红果短剧强化AI内容治理,一季度下架违规漫剧超1700部
    传易烊千玺方就 AI「偷脸」维权,红果下架作品;华为 2026 新问界 M9 曝光;阿耳忒弥斯 2 号宇航员破最远飞行纪录 | 极客早知道
    新石器无人车发布AI智能体NeoClaw 可一句话管理无人车
    华为AI眼镜实拍首曝,何刚预告新品即将亮相
    谷歌悄然推出离线优先语音转写应用“Google AI Edge Eloquent”,剑指专业转录市场
    三星中国将大调整:只保留手机和存储部门,其余全撤;携程集团启动无理由事假管理实验:员工可无理由请假;美国AI三巨头封杀中国模型蒸馏
    Anthropic发布“强到不敢公开”的Claude Mythos Preview,联合12家巨头启动Project Glasswing应对AI安全新挑战
    霍尔木兹危机触发AI产业结构性压力测试:能源、材料与资本三重冲击下的估值重估
    Adobe推新AI工具“Student Spaces”,聚焦学生群体打造一站式学习平台
    AI 时代,「共享算力」是新码农们的小黄车
    Copyright © 2025 成都区角科技有限公司
    蜀ICP备2025143415号-1
      
    川公网安备51015602001305号