最全！一文看懂华为昇腾芯片和超节点最新演进路线

电子发烧友网报道（文/李弯弯）9月18日，在华为全联接大会2025上，华为副董事长、轮值董事长徐直军表示，尽管DeepSeek开创的模式大幅减少了算力需求，但迈向AGI和物理AI，算力始终是关键，尤其是对中国人工智能发展而言。此次大会上，徐直军公布了未来三年昇腾芯片演进路线（Ascend 950、Ascend 960、Ascend 970将陆续推出）、鲲鹏处理器升级规划，并同时发布了多款超节点和集群产品，以及面向超节点的新型互联协议灵衢。

未来三年，将陆续推出三个系列共四款昇腾芯片

徐直军表示，算力的基础在于芯片，昇腾芯片作为华为AI算力战略的基础，自2018年发布Ascend 310芯片、2019年发布Ascend 910芯片以来，不断迭代升级。到2025年，Ascend 910C芯片随Atlas 900超节点规模部署，已被大家熟知。

面向未来，华为对昇腾芯片有着明确的规划。未来三年至2028年，华为将开发和规划三个系列芯片，包括Ascend 950系列（含Ascend 950PR和Ascend 950DT两颗芯片）、Ascend 960、Ascend 970系列，更多具体芯片也在规划中。

徐直军介绍，Ascend 950系列芯片正在开发且即将推出。该系列芯片架构上，Ascend 950 PR和Ascend 950 DT共用Ascend 950 Die。与前一代相比，实现了多方面根本性提升。新增支持业界标准FP8/MXFP8/MXFP4等低数值精度数据格式，算力分别达1P和2P，提升训练效率和推理吞吐，还特别支持华为自研的HiF8，在保持FP8高效的同时，精度接近FP16。向量算力大幅提升，通过提升向量算力占比、采用创新的新同构设计（支持SIMD/SIMT双编程模型，SIMD能像流水线处理“大块”向量，SIMT便于处理“碎片化”数据）、将内存访问颗粒度从512字节减至128字节，实现更精细的内存访问，更好支持离散且不连续的内存访问。互联带宽相比Ascend 910C提升2.5倍，达2TB/s。结合推理不同阶段需求，自研两种HBM，HiBL 1.0和HiZQ 2.0，与Ascend 950 Die合封构成不同芯片。

其中，Ascend 950PR面向推理Prefill阶段和推荐业务场景。随着Agent快速发展，输入上下文变长，首Token输出阶段计算资源占用增多；电子商务、内容平台、社交媒体等业务对推荐算法准确度和时延要求提高，计算能力需求增大。推理Prefill阶段和推荐算法计算密集，对计算并行能力要求高，对内存访问带宽需求相对低，通过分级内存解决方案，对本地内存容量需求也不高。Ascend 950PR采用华为自研的低成本HBM HiBL 1.0，相比高性能、高价格的HBM3e/4e，能大幅降低推理Prefill阶段和推荐业务投资。该芯片将于2026年一季度推出，首先支持标卡和超节点服务器产品形态。

Ascend 950DT更注重推理Decode阶段和训练场景。由于这两个阶段对互联带宽和访存带宽要求高，华为开发了HiZQ 2.0，使内存容量达144GB，内存访问带宽达4TB/s，互联带宽提升至2TB/s，同时支持FP8/MXFP8/MXFP4/HiF8数据格式，将于2026年Q4推出。

规划中的Ascend 960在算力、内存访问带宽、内存容量、互联端口数等规格上相比Ascend 950翻倍，大幅提升训练、推理等场景性能，还支持华为自研的HiF4数据格式，这是业界最优的4bit精度实现，能进一步提升推理吞吐，推理精度优于业界FP4方案，将于2027年四季度推出。

规划中的Ascend 970规格还在讨论中，总体方向是在各项指标上大幅升级，全面升级训练和推理性能。初步考虑相比Ascend 960，FP4算力、FP8算力、互联带宽全面翻倍，内存访问带宽至少增加1.5倍，计划在2028年四季度推出。

徐直军表示，总体上，华为将以几乎一年一代算力翻倍的速度，围绕更易用、更多数据格式、更高带宽等方向持续演进昇腾芯片，满足AI算力不断增长的需求。相比Ascend 910B/910C，从Ascend 950开始的主要变化包括引入SIMD/SIMT新同构提升编程易用性；支持更丰富数据格式；支持更大互联带宽；支持更大算力；内存容量逐渐加倍，内存访问带宽翻两番。

发布多款超节点和集群产品，并公布鲲鹏处理器演进路线

在大型AI算力基础设施建设技术方向上，超节点已成为主导性产品形态和AI基础设施建设新常态。超节点如同能学习、思考、推理的计算机，物理上由多台机器组成，逻辑上以一台机器学习、思考、推理。随着算力需求增长，超节点规模持续快速增大。

今年3月，华为正式推出Atlas 900超节点，满配支持384卡，384颗Ascend 910C芯片能像一台计算机工作，最大算力达300 PFLOPS，目前仍是全球算力最大的超节点。华为云基于Atlas 900超节点构建的CloudMatrix384超节点是常见云服务实例。Atlas 900超节点自上市以来，累计部署超300套，服务20多个客户，涵盖互联网、电信、制造等多个行业，开启了华为AI超节点的征程。

结合已推出或正在研发的昇腾芯片，徐直军在大会上发布了多款超节点和集群产品。

第一款新产品是Atlas 950超节点，基于Ascend 950DT打造。它支持8192张基于Ascend 950DT的昇腾卡，是Atlas 900超节点的20多倍。满配由128个计算柜、32个互联柜，共160个机柜组成，占地面积约1000平方米，柜间采用全光互联。总算力大幅提升，FP8算力达8E FLOPS，FP4算力达16E FLOPS，互联带宽达16PB/s，超过全球互联网峰值带宽10倍有余，将于2026年四季度上市。

相比英伟达同样明年下半年上市的NVL144，Atlas 950超节点优势明显，卡规模是其56.8倍，总算力是其6.7倍，内存容量是其15倍，达1152TB，互联带宽是其62倍，达16.3PB/s。即使与英伟达计划2027年上市的NVL576相比，Atlas 950超节点在各方面依然领先。算力、内存容量、内存访问速度、互联带宽等能力增强，为大模型训练性能和推理吞吐带来显著提升。相比Atlas 900超节点，Atlas 950超节点训练性能提升17倍，达4.91M TPS，推理性能提升26.5倍，达19.6M TPS。

第二款超节点产品是Atlas 960超节点，基于Ascend 960打造，最大可支持15488卡。由176个计算柜，44个互联柜，共220个机柜组成，占地面积约2200平方米，将于2027年四季度上市。伴随卡的规模升级，Atlas 960超节点优势进一步增强。基于Ascend 960，其总算力、内存容量、互联带宽在Atlas 950基础上再翻倍。FP8总算力将达30E FLOPS，FP4总算力将达60 EFLOPS，内存容量达4460TB，互联带宽达34PB/s。大模型训练和推理性能相比Atlas 950超节点，将分别提升3倍和4倍以上，达15.9M TPS和80.5M TPS。华为对为人工智能长期快速发展提供可持续且充裕算力充满信心。

在大会上，徐直军也谈到鲲鹏处理器的演进路线。他表示，超节点不仅在AI领域有巨大价值，在通用计算领域同样能带来变革。鲲鹏处理器围绕支持超节点，向更多核、更高性能等方向持续演进，通过自研双线程灵犀核方便支持更多线程。2026年Q1，华为将推出Kunpeng 950处理器，有两个版本，分别是96核/192线程和192核/384线程，支持通用计算超节点，安全方面新增四层隔离，成为鲲鹏首颗实现机密计算的数据中心处理器。2028年Q1，鲲鹏处理器将在芯片微架构、先进封装技术等领域突破关键技术，再次推出两个版本，高性能版本96核/192线程，单核性能提升50%+，面向AI host、数据库等场景；高密版本不少于256核/512线程，面向虚拟化、容器、大数据、数仓等场景。

基于Kunpeng 950打造的TaiShan 950超节点是全球首个通用计算超节点，这也是徐直军在此次大会上发布的第三款超节点产品。TaiShan 950超节点最大支持16节点，32个处理器，最大内存48TB，同时支持内存、SSD、DPU池化。这款产品不仅是通用计算领域技术升级，还能帮助金融系统破解核心难题。当前大型机、小型机替换核心挑战是数据库分布式改造，基于TaiShan 950超节点打造的GaussDB多写架构，无需改造，性能提升2.9倍，可平滑替代大型机、小型机上的传统数据库。TaiShan 950加上分布式GaussDB有望取代各种应用场景的大型机、小型机以及Oracle的Exadata数据库服务器。在更广泛场景中，TaiShan 950超节点表现也很亮眼，虚拟化环境内存利用率提升20%，Spark大数据场景实时数据处理时间缩短30%，将于2026年一季度上市。

此外，华为还发布了集群产品Atlas 950 SuperCluster 50万卡集群，由64个Atlas 950超节点互联组成，将1万多机柜中的52万多片昇腾950DT组成整体，FP8总算力可达524 EFLOPS，上市时间与Atlas 950超节点同步，即2026年Q4。在集群组网上，支持UBoE与RoCE两种协议，UBoE承载UB协议在以太网上，让客户利用现有以太交换机，相比传统RoCE，UBoE组网静态时延更低、可靠性更高，交换机和光模块数量更节省，因此推荐UBoE。相比当前世界上最大的集群xAI Colossus，Atlas 950 SuperCluster规模是其2.5倍，算力是其1.3倍，是全世界最强算力集群，能高效稳定支持人工智能持续创新。

2027年Q4，华为还将基于Atlas 960超节点，同步推出Atlas 960 SuperCluster，集群规模提升至百万卡级，FP8总算力达到2 ZFLOPS，FP4总算力达到4 ZFLOPS，同样支持UBoE与RoCE两种协议，在UBoE协议加持下，性能与可靠性更优，静态时延和网络无故障时间优势进一步扩大，继续推荐UBoE组网，将持续加速客户应用创新，探索智能水平新高。

发布面向超节点的互联协议灵衢，并开放灵衢2.0技术规范

大规模超节点推动智算和通算能力达到新高度，也对互联技术提出重大挑战。华为在定义和设计Atlas 950、Atlas 960两个超节点技术规格时，遇到两方面难题。一是如何实现长距离且高可靠互联，大规模超节点机柜多，柜间联接距离长，当前电互联和光互联技术无法满足需求，电互联高速时联接距离短，光互联无法满足可靠性需求。二是如何实现大带宽且低时延互联，当前跨柜卡间互联带宽低，与超节点需求差距达5倍，跨柜卡间时延大，与Atlas 950/960设计需求仍有24%差距，且逼近物理极限，提升难度大。

华为凭借三十多年技术积累，通过系统性创新解决这些问题。为解决长距离且高可靠问题，在互联协议各层引入高可靠机制，在光路引入百纳秒级故障检测和保护切换，重新定义和设计光器件、光模块和互联芯片，使光互联可靠性提升100倍，互联距离超200米，实现电的可靠和光的距离。为解决大带宽且低时延问题，突破多端口聚合与高密封装技术，以及平等架构和统一协议，实现TB级超大带宽，2.1微秒超低时延。

为满足Atlas 950/960超节点互联技术要求，实现万卡超节点像一台计算机工作，华为开创超节点架构和新型互联协议，支撑万卡级超节点架构。万卡级超节点架构具备总线级互联、平等协同、全量池化、协议归一、大规模组网、高可用性六大特征。华为将这一面向超节点的新型互联协议命名为“灵衢”，英文名称UB（UnifiedBus）。

徐直军在大会上正式发布灵衢、UnifiedBus这一面向超节点的互联协议，并宣布开放灵衢2.0技术规范。灵衢研究始于2019年，因先进工艺不可获得，需从多芯片突破，将更多计算资源联接在一起。基于灵衢1.0的Atlas 900超节点自2025年3月交付，已商用部署300多套，技术得到充分验证。灵衢2.0在灵衢1.0基础上丰富功能、优化性能、提升规模，具备开放条件。华为开放灵衢2.0技术规范，欢迎产业界伙伴基于灵衢研发产品和部件，共建开放生态。

灵衢既为超节点而生，也是构建算力集群产品最优互联技术。此次发布的Atlas 950 SuperCluster和Atlas 960 SuperCluster集群产品都基于灵衢互联协议，展现了华为在AI基础设施领域的全面布局和创新能力。

资讯配图