最全!一文看懂华为昇腾芯片和超节点最新演进路线

电子发烧友网 2025-09-20 00:00
电子发烧友网报道(文/李弯弯)9月18日,在华为全联接大会2025上,华为副董事长、轮值董事长徐直军表示,尽管DeepSeek开创的模式大幅减少了算力需求,但迈向AGI和物理AI,算力始终是关键,尤其是对中国人工智能发展而言。此次大会上,徐直军公布了未来三年昇腾芯片演进路线(Ascend 950、Ascend 960、Ascend 970将陆续推出)、鲲鹏处理器升级规划,并同时发布了多款超节点和集群产品,以及面向超节点的新型互联协议灵衢

资讯配图

未来三年,将陆续推出三个系列共四款昇腾芯片

徐直军表示,算力的基础在于芯片,昇腾芯片作为华为AI算力战略的基础,自2018年发布Ascend 310芯片、2019年发布Ascend 910芯片以来,不断迭代升级。到2025年,Ascend 910C芯片随Atlas 900超节点规模部署,已被大家熟知。

面向未来,华为对昇腾芯片有着明确的规划。未来三年至2028年,华为将开发和规划三个系列芯片,包括Ascend 950系列(含Ascend 950PR和Ascend 950DT两颗芯片)、Ascend 960、Ascend 970系列,更多具体芯片也在规划中。

徐直军介绍,Ascend 950系列芯片正在开发且即将推出。该系列芯片架构上,Ascend 950 PR和Ascend 950 DT共用Ascend 950 Die。与前一代相比,实现了多方面根本性提升。新增支持业界标准FP8/MXFP8/MXFP4等低数值精度数据格式,算力分别达1P和2P,提升训练效率和推理吞吐,还特别支持华为自研的HiF8,在保持FP8高效的同时,精度接近FP16。向量算力大幅提升,通过提升向量算力占比、采用创新的新同构设计(支持SIMD/SIMT双编程模型,SIMD能像流水线处理“大块”向量,SIMT便于处理“碎片化”数据)、将内存访问颗粒度从512字节减至128字节,实现更精细的内存访问,更好支持离散且不连续的内存访问。互联带宽相比Ascend 910C提升2.5倍,达2TB/s。结合推理不同阶段需求,自研两种HBM,HiBL 1.0和HiZQ 2.0,与Ascend 950 Die合封构成不同芯片。

其中,Ascend 950PR面向推理Prefill阶段和推荐业务场景。随着Agent快速发展,输入上下文变长,首Token输出阶段计算资源占用增多;电子商务、内容平台、社交媒体等业务对推荐算法准确度和时延要求提高,计算能力需求增大。推理Prefill阶段和推荐算法计算密集,对计算并行能力要求高,对内存访问带宽需求相对低,通过分级内存解决方案,对本地内存容量需求也不高。Ascend 950PR采用华为自研的低成本HBM HiBL 1.0,相比高性能、高价格的HBM3e/4e,能大幅降低推理Prefill阶段和推荐业务投资。该芯片将于2026年一季度推出,首先支持标卡和超节点服务器产品形态。

Ascend 950DT更注重推理Decode阶段和训练场景。由于这两个阶段对互联带宽和访存带宽要求高,华为开发了HiZQ 2.0,使内存容量达144GB,内存访问带宽达4TB/s,互联带宽提升至2TB/s,同时支持FP8/MXFP8/MXFP4/HiF8数据格式,将于2026年Q4推出。

规划中的Ascend 960在算力、内存访问带宽、内存容量、互联端口数等规格上相比Ascend 950翻倍,大幅提升训练、推理等场景性能,还支持华为自研的HiF4数据格式,这是业界最优的4bit精度实现,能进一步提升推理吞吐,推理精度优于业界FP4方案,将于2027年四季度推出。

规划中的Ascend 970规格还在讨论中,总体方向是在各项指标上大幅升级,全面升级训练和推理性能。初步考虑相比Ascend 960,FP4算力、FP8算力、互联带宽全面翻倍,内存访问带宽至少增加1.5倍,计划在2028年四季度推出。

徐直军表示,总体上,华为将以几乎一年一代算力翻倍的速度,围绕更易用、更多数据格式、更高带宽等方向持续演进昇腾芯片,满足AI算力不断增长的需求。相比Ascend 910B/910C,从Ascend 950开始的主要变化包括引入SIMD/SIMT新同构提升编程易用性;支持更丰富数据格式;支持更大互联带宽;支持更大算力;内存容量逐渐加倍,内存访问带宽翻两番。

发布多款超节点和集群产品,并公布鲲鹏处理器演进路线

在大型AI算力基础设施建设技术方向上,超节点已成为主导性产品形态和AI基础设施建设新常态。超节点如同能学习、思考、推理的计算机,物理上由多台机器组成,逻辑上以一台机器学习、思考、推理。随着算力需求增长,超节点规模持续快速增大。

今年3月,华为正式推出Atlas 900超节点,满配支持384卡,384颗Ascend 910C芯片能像一台计算机工作,最大算力达300 PFLOPS,目前仍是全球算力最大的超节点。华为云基于Atlas 900超节点构建的CloudMatrix384超节点是常见云服务实例。Atlas 900超节点自上市以来,累计部署超300套,服务20多个客户,涵盖互联网、电信、制造等多个行业,开启了华为AI超节点的征程。

结合已推出或正在研发的昇腾芯片,徐直军在大会上发布了多款超节点和集群产品。

资讯配图
第一款新产品是Atlas 950超节点,基于Ascend 950DT打造。它支持8192张基于Ascend 950DT的昇腾卡,是Atlas 900超节点的20多倍。满配由128个计算柜、32个互联柜,共160个机柜组成,占地面积约1000平方米,柜间采用全光互联。总算力大幅提升,FP8算力达8E FLOPS,FP4算力达16E FLOPS,互联带宽达16PB/s,超过全球互联网峰值带宽10倍有余,将于2026年四季度上市。

相比英伟达同样明年下半年上市的NVL144,Atlas 950超节点优势明显,卡规模是其56.8倍,总算力是其6.7倍,内存容量是其15倍,达1152TB,互联带宽是其62倍,达16.3PB/s。即使与英伟达计划2027年上市的NVL576相比,Atlas 950超节点在各方面依然领先。算力、内存容量、内存访问速度、互联带宽等能力增强,为大模型训练性能和推理吞吐带来显著提升。相比Atlas 900超节点,Atlas 950超节点训练性能提升17倍,达4.91M TPS,推理性能提升26.5倍,达19.6M TPS。

资讯配图
第二款超节点产品是Atlas 960超节点,基于Ascend 960打造,最大可支持15488卡。由176个计算柜,44个互联柜,共220个机柜组成,占地面积约2200平方米,将于2027年四季度上市。伴随卡的规模升级,Atlas 960超节点优势进一步增强。基于Ascend 960,其总算力、内存容量、互联带宽在Atlas 950基础上再翻倍。FP8总算力将达30E FLOPS,FP4总算力将达60 EFLOPS,内存容量达4460TB,互联带宽达34PB/s。大模型训练和推理性能相比Atlas 950超节点,将分别提升3倍和4倍以上,达15.9M TPS和80.5M TPS。华为对为人工智能长期快速发展提供可持续且充裕算力充满信心。

在大会上,徐直军也谈到鲲鹏处理器的演进路线。他表示,超节点不仅在AI领域有巨大价值,在通用计算领域同样能带来变革。鲲鹏处理器围绕支持超节点,向更多核、更高性能等方向持续演进,通过自研双线程灵犀核方便支持更多线程。2026年Q1,华为将推出Kunpeng 950处理器,有两个版本,分别是96核/192线程和192核/384线程,支持通用计算超节点,安全方面新增四层隔离,成为鲲鹏首颗实现机密计算的数据中心处理器。2028年Q1,鲲鹏处理器将在芯片微架构、先进封装技术等领域突破关键技术,再次推出两个版本,高性能版本96核/192线程,单核性能提升50%+,面向AI host、数据库等场景;高密版本不少于256核/512线程,面向虚拟化、容器、大数据、数仓等场景。

基于Kunpeng 950打造的TaiShan 950超节点是全球首个通用计算超节点这也是徐直军在此次大会上发布的第三款超节点产品TaiShan 950超节点最大支持16节点,32个处理器,最大内存48TB,同时支持内存、SSD、DPU池化。这款产品不仅是通用计算领域技术升级,还能帮助金融系统破解核心难题。当前大型机、小型机替换核心挑战是数据库分布式改造,基于TaiShan 950超节点打造的GaussDB多写架构,无需改造,性能提升2.9倍,可平滑替代大型机、小型机上的传统数据库。TaiShan 950加上分布式GaussDB有望取代各种应用场景的大型机、小型机以及Oracle的Exadata数据库服务器。在更广泛场景中,TaiShan 950超节点表现也很亮眼,虚拟化环境内存利用率提升20%,Spark大数据场景实时数据处理时间缩短30%,将于2026年一季度上市。

资讯配图
此外,华为还发布了集群产品Atlas 950 SuperCluster 50万卡集群,由64个Atlas 950超节点互联组成,将1万多机柜中的52万多片昇腾950DT组成整体,FP8总算力可达524 EFLOPS,上市时间与Atlas 950超节点同步,即2026年Q4。在集群组网上,支持UBoE与RoCE两种协议,UBoE承载UB协议在以太网上,让客户利用现有以太交换机,相比传统RoCE,UBoE组网静态时延更低、可靠性更高,交换机和光模块数量更节省,因此推荐UBoE。相比当前世界上最大的集群xAI Colossus,Atlas 950 SuperCluster规模是其2.5倍,算力是其1.3倍,是全世界最强算力集群,能高效稳定支持人工智能持续创新。

资讯配图
2027年Q4,华为还将基于Atlas 960超节点,同步推出Atlas 960 SuperCluster,集群规模提升至百万卡级,FP8总算力达到2 ZFLOPS,FP4总算力达到4 ZFLOPS,同样支持UBoE与RoCE两种协议,在UBoE协议加持下,性能与可靠性更优,静态时延和网络无故障时间优势进一步扩大,继续推荐UBoE组网,将持续加速客户应用创新,探索智能水平新高。

发布面向超节点的互联协议灵衢,并开放灵衢2.0技术规范

大规模超节点推动智算和通算能力达到新高度,也对互联技术提出重大挑战。华为在定义和设计Atlas 950、Atlas 960两个超节点技术规格时,遇到两方面难题。一是如何实现长距离且高可靠互联,大规模超节点机柜多,柜间联接距离长,当前电互联和光互联技术无法满足需求,电互联高速时联接距离短,光互联无法满足可靠性需求。二是如何实现大带宽且低时延互联,当前跨柜卡间互联带宽低,与超节点需求差距达5倍,跨柜卡间时延大,与Atlas 950/960设计需求仍有24%差距,且逼近物理极限,提升难度大。

华为凭借三十多年技术积累,通过系统性创新解决这些问题。为解决长距离且高可靠问题,在互联协议各层引入高可靠机制,在光路引入百纳秒级故障检测和保护切换,重新定义和设计光器件、光模块和互联芯片,使光互联可靠性提升100倍,互联距离超200米,实现电的可靠和光的距离。为解决大带宽且低时延问题,突破多端口聚合与高密封装技术,以及平等架构和统一协议,实现TB级超大带宽,2.1微秒超低时延。

为满足Atlas 950/960超节点互联技术要求,实现万卡超节点像一台计算机工作,华为开创超节点架构和新型互联协议,支撑万卡级超节点架构。万卡级超节点架构具备总线级互联、平等协同、全量池化、协议归一、大规模组网、高可用性六大特征。华为将这一面向超节点的新型互联协议命名为“灵衢”,英文名称UB(UnifiedBus)。

徐直军在大会上正式发布灵衢、UnifiedBus这一面向超节点的互联协议,并宣布开放灵衢2.0技术规范。灵衢研究始于2019年,因先进工艺不可获得,需从多芯片突破,将更多计算资源联接在一起。基于灵衢1.0的Atlas 900超节点自2025年3月交付,已商用部署300多套,技术得到充分验证。灵衢2.0在灵衢1.0基础上丰富功能、优化性能、提升规模,具备开放条件。华为开放灵衢2.0技术规范,欢迎产业界伙伴基于灵衢研发产品和部件,共建开放生态。

灵衢既为超节点而生,也是构建算力集群产品最优互联技术。此次发布的Atlas 950 SuperCluster和Atlas 960 SuperCluster集群产品都基于灵衢互联协议,展现了华为在AI基础设施领域的全面布局和创新能力。

资讯配图

声明:本文由电子发烧友原创,转载请注明以上来源。如需入群交流,请添加微信elecfans999,投稿爆料采访需求,请发邮箱huangjingjing@elecfans.com。


更多热点文章阅读


点击关注 星标我们



将我们设为星标,不错过每一次更新!
资讯配图

资讯配图喜欢就奖励一个“在看”吧!



声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
芯片 华为
more
英伟达50亿美元入股英特尔,将发布CPU+GPU合体芯片,大结局来了?
芯圣HC20MD6208双向马达驱动芯片上市!
华为首次披露芯片路线图!
华为披露芯片路线图,详情披露
曾年入12亿,登榜福布斯,芯片大厂破产
又一家国产高端传感器芯片企业破产清算
扬州芯片女老板,操刀22亿并购
大芯片,一夜生变
曝iPhone17/Air拍照偶发黑块,苹果称将修复/华为罕见公布AI芯片路线图/英伟达豪掷 50亿美元入股英特尔
追觅俞浩内部放狠话:造车PK理想,手机跟华为小米三分天下;TP-Link芯片事业部全员解散;马斯克用亲信管理AI公司引发冲突
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号