华为发布新一代超节点产品，支持8192张NPU卡高速互联

电子发烧友网报道（文/李弯弯）近日，在世界移动通信大会（MWC26）期间，华为计算产品线总裁张熙伟首次在海外发布多款超节点产品及解决方案，包括Atlas 950 SuperPoD智算超节点、Atlas 850E超节点服务器，以及业界首款通用计算超节点TaiShan 950 SuperPoD，还有TaiShan 500、TaiShan 200等系列化产品。

超节点技术：AI算力发展的关键支撑

在人工智能快速发展的当下，每月都有新突破。智能体时代，模型从局限于大语言模型走向全模态原生融合，万亿级模型参数和10万亿级数据训练成为常态，算力需求提升十倍到百倍。同时，模型上下文序列长度显著增加，对内存容量和带宽需求大幅提升。

而且，随着AI在行业应用中的深入，实时性挑战愈发凸显，如金融风控场景时延要求小于20毫秒，反欺诈场景时延要在10毫秒以下，传统计算架构难以满足低时延要求。单一芯片提升已无法满足AI算力需求，多芯片互联、扩大计算节点规模成为必然选择。

超节点技术应运而生，它是面向AI大模型训练与推理需求的技术方案。通过高速互联协议与专用交换芯片，将数十至数百个GPU或AI计算芯片在单机柜或集群内紧密整合，形成逻辑上统一编址、高带宽、低延迟的协同计算系统。其核心目标是突破传统分布式计算中的“通信墙”瓶颈，提升大规模并行计算效率。该技术具备高算力密度、硬件解耦、开放兼容等特点，是构建标准化“AI工厂”、提升智算基础设施效能的关键路径。

目前，业内对超节点有不同层级划分。一是在单机柜内部实现高速互联，常称为“SuperNode”；另一种是由跨机柜组成的集群级互联，如英伟达提出的“SuperPod”。行业构建大规模GPU集群主要有两种方式：Scale-Out（横向扩展）和Scale-Up（纵向扩展）。Scale-Out是传统方法，通过传统网络连接独立服务器组成集群；Scale-Up则是增加单个节点内资源数量。超节点是Scale-Up的重要实现方式，其内部Scale-Up网络时延目标为百纳秒级，远低于Scale-Out网络的微秒级，能支撑TP（张量并行）、EP（专家并行）等高通信量任务。

Scale-Up网络追求极致性能，具备高带宽、低时延和大内存空间三大核心特性。高带宽方面，提供Tbps级别互联带宽，如NVL72方案中单GPU提供7.2Tbps带宽；低时延方面，目标时延为百纳秒级，而Scale-Out网络时延通常在10微秒级别；大内存空间方面，支持统一内存编址或内存语义，扩展有效内存容量。

AI训练中，流水线并行（PP）和数据并行（DP）通信量相对较小，可通过Scale-Out网络处理，但张量并行（TP）和专家并行（EP）通信量极大，必须依赖Scale-Up网络解决。超节点通过构建高带宽域（HBD），整合大量GPU，降低大规模集群全局组网复杂度与运维难度，提升资源利用效率。其核心应用场景是支撑训练参数规模超万亿级别的AI大模型训练与推理，满足AI Agent等多模型协同实时交互场景的高频、海量通信需求。

华为超节点产品与技术：创新引领算力升级

去年，华为发布业界规模最大的昇腾384超节点，将384颗昇腾AI芯片连接成集群，提供高达300PFLOPs的密集BF16算力，性能接近英伟达GB200 NVL72系统的两倍。

在芯片互联规模与Scale up网络性能上，华为CloudMatrix 384优势明显。GB200 NVL72采用整机柜型超节点方案，有72个GPU芯片；而CloudMatrix 384采用分机柜超节点方案，计算节点和交换节点分装不同机柜（12个计算柜和4个交换柜），Scale up计算单元由384个Ascend 910C芯片组成，昇腾芯片数量增加五倍，弥补了单个GPU性能不足。其BF16密集算力约300 PFLOPS，Scale up单向带宽134400 GB/s，约是GB200 NVL72的2.1倍。

CloudMatrix 384的Scale up网络采用两层扁平拓扑架构，通过华为自研的灵衢网络和灵衢总线设备互联组网。灵衢网络L1层由超节点交换网板承载，L2层由总线设备柜中的灵衢总线设备组成，L1 - L2通过光纤组成超节点集群。L1层每个计算节点集成8个昇腾910C NPU、4个鲲鹏CPU，内部有7颗板载UB交换芯片；L2层划分为7个独立子平面，每个子平面含16个L2 UB交换芯片，L1交换芯片扇出16条链路到对应L2子平面交换芯片，实现无阻塞全对等拓扑。该超节点通过3168根光纤和6912个400G LPO模块构建高速互连总线，在UB平面、RDMA平面等方面有详细设计。

“灵衢”是华为2025年全联接大会发布的互联技术，是一种面向超节点的互联协议，将IO、内存访问和处理单元间通信统一在同一体系，实现高性能数据搬移、资源统一管理等。其协议栈全面完整，基于灵衢的计算系统部署范围广，处理单元地位平等、资源可池化，还支持多种机制提升性能、增进容错性等。

此外，华为发布的Atlas 950 SuperPoD智算超节点，以单柜64卡为基本单元，最大支持8192张NPU卡高速互联，在算力规模、互联带宽等指标上领先英伟达，大模型训练效率、可靠性与推理性能大幅提升。Atlas 850E超节点服务器适配现有风冷机房，支持8到1024卡灵活扩展和快速部署。

软件生态方面，华为持续贡献openEuler开源操作系统，全面开源开放CANN异构计算架构，通过分层解耦，将算子库、加速库、图计算、编程语言等软件代码全量开源。北向支持PyTorch、vLLM、SGLang等业界开源社区和项目，大幅提升开发者易用性。华为副董事长、轮值董事长徐直军曾表示，尽管受美国制裁，不能产出最先进工艺制程的芯片，但基于联接技术能力，华为能做到万卡级超节点，实现世界最强算力。

总结：

华为此次发布的新一代超节点产品，在性能和规模上实现重大突破，为全球AI发展提供了强大算力支持。超节点技术作为AI算力发展的关键支撑，通过创新架构设计，有效解决了传统计算中的瓶颈问题，满足了AI大模型训练和推理的严苛需求。华为在超节点技术领域的探索和创新，不仅体现在硬件产品的性能提升上，更在于自研协议和软件生态的全面布局。灵衢协议的推出和CANN异构计算架构的开源开放，为开发者提供了更加便捷、高效的开发环境，促进了AI技术的创新和应用。

华为发布新一代超节点产品，支持8192张NPU卡高速互联图1