华为曝AI芯片大招，搭载自研HBM！全球最强算力超节点和集群赢麻了

资讯配图

每代昇腾芯片内存升级，算力翻倍。

作者 | ZeR0

编辑 | 漠影

智东西9月18日报道，今日，在华为全联接大会2025开幕式上，华为副董事长、轮值董事长徐直军发表主题演讲，公布华为昇腾AI芯片4年5款产品路线图，并正式发布全球最强算力超节点和集群。

华为在今年第一季度推出昇腾910C AI芯片，预计将于2026年第一季度推出昇腾950PR，2026年第四季度推出昇腾950DT，2027年第四季度推出昇腾960，2028年第四季度推出昇腾970。

▲昇腾芯片路线图（芯东西制表）

本次大会，华为推出基于灵衢和超节点架构的全新产品，包括全液冷数据中心AI超节点Atlas 950 SuperPoD、企业级风冷AI超节点服务器Atlas 850和Atlas 860、AI新一代标卡Atlas 350、业界首个通算超节点Taishan 950 SuperPoD等。

其中Atlas 350标卡采用的便是下一代昇腾950PR芯片。

01.

4款全新AI芯片：

大内存、高带宽、强算力

昇腾950芯片架构新增支持低精度数据格式，FP8、MXFP8、HiF8精度下AI算力可达到1PFLOPS，MXFP4精度下AI算力可达到2PFLOPS，互联带宽提升2.5倍至2TB/s。

该系列芯片还提升了向量算力配比，支持SIMD/SIMT，并支持更精细粒度内存访问（512B→128B）。

其支持华为自研HBM。昇腾950PR采用的是HiBL 1.0，内存容量为128GB、带宽为1.6TB/s；昇腾950DT采用的是HiZQ 2.0，内存容量为144GB、带宽为4TB/s。

昇腾950PR提升了推理Prefill性能，支持FP8、MXFP8、HiF8、MXFP4，并优化了推荐业务性能。

昇腾950DT提升了推理Decode性能，支持FP8、MXFP8、HiF8、MXFP4；还提升了训练性能，支持FP8、MXFP8、HiF8。

昇腾960大幅提升训练和推理性能，算力、内存容量、内存带宽、互联端口数均翻倍，内存容量升级到288GB，内存带宽为9.6TB/s，支持40个互联端口，支持自研HiF4数据格式（最优4bit精度实现）。

该芯片在FP8精度下AI算力达到2PFLOPS，FP4精度下AI算力达到4PFLOPS。

昇腾970的训练和推理性能继续翻倍，FP8精度下AI算力达到4PFLOPS，FP4精度下AI算力达到8PFLOPS，内存带宽为14.4TB/s，互联带宽为4TB/s。

总体而言，昇腾芯片迭代路径是支持更多数值类型、升级更大内存容量与带宽、实现更高算力、更加易用。

02.

全球最强算力超节点和集群来了！

支持百万卡互联

“算力过去是，未来也将继续是人工智能的关键，更是中国人工智能的关键，”徐直军谈道，“基于中国可获得的芯片制造工艺，华为努力打造「超节点+集群」算力解决方案，来满足持续增长的算力需求。”

超节点在物理上由多台机器组成，但逻辑上以一台机器学习、思考、推理。

徐直军宣布，新发布的华为Atlas 950 SuperPoD和Atlas 960 SuperPoD超节点，分别支持8192张及15488张昇腾卡，在卡规模、总算力、内存容量、互联带宽等关键指标上全面领先，在未来多年都将是全球最强算力的超节点。

基于超节点，华为同时发布了全球最强超节点集群，分别是Atlas 950 SuperCluster和Atlas 960 SuperCluster，算力规模分别超过50万卡和达到百万卡。

徐直军说，基于全球最强算力的超节点和集群，华为对于为人工智能的长期快速发展提供可持续且充裕算力，充满信心。

同时，华为率先把超节点技术引入通用计算领域，发布全球首个通用计算超节点TaiShan 950 SuperPoD，结合GaussDB分布式数据库，能彻底取代各种应用场景的大型机和小型机以及Exadata数据库一体机，将成为各类大型机、小型机的终结者。

华为基于三十多年构筑的联接技术能力，通过系统性创新，突破了大规模超节点的互联技术巨大挑战，开创了面向超节点的互联协议灵衢（UnifiedBus）。

徐直军宣布华为将开放灵衢2.0技术规范，欢迎产业界伙伴基于灵衢研发相关产品和部件，共建灵衢开放生态。

华为董事、ICT BG CEO杨超斌说，基于灵衢互联协议，华为开创了超节点架构，可将多台物理机器深度互联，实现逻辑层面像一台机器一样学习、思考与推理，重新定义了高效、稳定、可扩展的大规模有效算力新范式。

华为Atlas 900 A3 SuperPoD超节点至今已累计部署300多套，服务于互联网、金融、运营商、电力、制造等行业的20多个客户。

华为在本次大会上推出基于灵衢和超节点架构的全新产品，包括全液冷数据中心AI超节点Atlas 950 SuperPoD、企业级风冷AI超节点服务器Atlas 850和Atlas 860、AI新一代标卡Atlas 350、业界首个通算超节点Taishan 950 SuperPoD等。

Atlas 950 SuperPoD，被称作“面向超大型AI计算任务的最佳选择”，从基础器件、协议算法到光电技术，实现系统级创新突破。

通过正交架构，Atlas 950实现零线缆电互联，采用液冷接头浮动盲插设计做到零漏液，其独创的材料和工艺让光模块液冷可靠性提升1倍。

其创新的UB-Mesh递归直连拓扑网络架构，支持单板内、单板间和机架间的NPU全互联，以64卡为步长按需扩展，最大可实现8192卡无收敛全互联。

Atlas 850，是业界首个企业级风冷AI超节点服务器，内部搭载8张昇腾NPU，有效满足企业模型后训练、多场景推理等需求。

该服务器支持多柜灵活部署，最大可形成128台1024卡的超节点集群。这是目前业内唯一可在风冷机房实现超节点架构的算力集群。

Atlas 350标卡，采用最新的昇腾950PR芯片，向量算力提升2倍，支持更细粒度的Cacheline访问，在推荐推理场景可实现2.5倍性能提升，且单卡即可运行。

Atlas 350支持4个灵衢端口互联，实现算力、内存等资源池化，让更大参数模型、更低时延应用可以在标卡上实现。

TaiShan 950 SuperPoD，是华为推出的业界首款通算超节点，具备370纳秒超低时延、2.8T超大带宽和内存池化能力，能大幅提升数据库、虚机热迁移和大数据场景等业务性能，为通算性能提升开辟全新路径。

03.

结语：全面开放超节点技术，

推动协同创新

华为宣布全面开放超节点技术，与产业界共享技术红利，共同推动超节点技术走向普惠与协同创新。

首先，开放灵衢协议和超节点参考架构，允许产业界基于技术规范自研相关产品或部件。

其次，全面开放超节点基础硬件，包括NPU模组、风冷刀片、液冷刀片、AI标卡、CPU主板和级联卡等不同形态的硬件，方便客户和伙伴进行增量开发，设计基于灵衢的各种产品。

操作系统灵衢组件也将全部开源，组件代码将陆续合入openEuler等多个上游操作系统开源社区。

用户可以根据实际需求，将部分或全部源代码集成到现有操作系统中，自行迭代维护版本，也可以将整个组件直接合入现有操作系统，未来演进与开源社区版本同步。

同时，昇腾CANN全面开源开放，Mind系列组件也同步开源，并优先支持PyTorch、vLLM等业界开源社区，加速开发者自主创新。

（本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容，未经账号授权，禁止随意转载。）