首款国产InfiniBand面世，实测数据告诉你性能究竟有多强悍

最近，又一个长期被国外垄断的技术高地被攻克。中科曙光正式发布首款全栈自研400G无损高速网络——scaleFabric。它是国内首款国产类InfiniBand（简称IB）原生无损RDMA超高速网络产品，曙光全栈自研，专为大规模万卡集群打造，适配大模型训练等高端计算场景，是实现国产算力网络自主可控的核心产品。

曙光历时三年研发，实现scaleFabric从底层芯片到上层软件的100%全栈自研。目前，曙光推出了scaleFabric 400单口标准网卡、scaleFabric 400 1U 80口液冷交换机、scaleFabric 400 2U 80口风冷交换机三款产品，核心技术是两颗自研芯片：一是网卡芯片，400G高带宽，自研RDMA引擎；二是交换芯片，64T双向交换容量，转发延时低至260纳秒，采用112G高速Serdes。

这项突破究竟有多重要？业内普遍认为，计算、网络、存储是支撑大规模计算系统的三大核心支柱，算力决定系统性能的上限，但一旦网络拉垮，可能将整体性能下限归零。尤其在大规模集群场景下，网络的重要性更为突出。

当前，从GPT‑3到GPT‑5，智算集群已正式迈入万卡时代。随着大模型即将进入万亿参数时代，计算卡规模持续扩张，网络已成为制约智算性能的核心瓶颈。而scaleFabric的出现，正是补齐了我国高端智算领域的最后一块关键拼图，让上万张GPU卡实现高效协同、紧密互联。

scaleFabric的优势所在

当前国内厂商以RoCE路线为主，而曙光坚持采用IB原生RDMA路线，这是为什么？

RoCE网络基于以太网嫁接RDMA技术，本质是“在以太网之上跑IB协议”，用UDP报文封装IB协议，属于嫁接式技术，可以兼容IP生态，不过带宽低、时延高、运维复杂、大规模组网能力弱等技术短板。如果只是中小规模系统，RoCE会是不错的选择，但对大规模系统可能就不够了。

IB是面向高端计算的原生RDMA专用高速网络，协议栈专为高速通信设计、包头信息短、有效载荷高，但成本昂贵且长期被国际厂商垄断。以英伟达为例，其在2019年收购Mellanox补齐高速网络板块，足以见得其对IB这项技术的重视程度。

随着以scaleFabric为代表的国产自主RDMA高速网络应运而生，彻底打破了IB设备受限的现状。它兼容IB生态，扩展协议可支撑10万卡规模集群，搭配400G网卡芯片，性能已达业界一流水平。

从核心指标方面看，时延方面，IB交换机采用VCT交换机制，支持边收边转，交换时延小于 300ns，而RoCE采用存储 - 转发模式，需要完整接收数据包后才能转发，时延普遍在500ns以上，达到IB的两倍以上，且动态时延容易受网络拥堵影响而大幅波动；带宽方面，主流IB网卡400G，主流RoCE网卡200G，而sacleFabric单端口带宽达到了800G；无损网络实现上，IB采用基于信用的精细化流控，发送前确认接收端资源，从根源避免丢包，无需额外拥塞控制；RoCE采用PFC暂停机制，粗粒度流控，易出现丢包、PFC风暴/死锁，必须依赖拥塞控制且需人工调优水线。

在并行效率方面，scaleFabric达到了85%，远超RoCE的65%，核心算力利用率大幅提升。相比传统RoCE方案，采用国产scaleFabric网络后，整体应用性能提升幅度超过30%。

首款国产InfiniBand面世，实测数据告诉你性能究竟有多强悍图2

从参数来看，scaleFabric全面对标英伟达NDR系列，甚至部分规格更优：端口密度上，交换机达80口400G，比NDR的64口提升25%，大幅降低组网成本；最大QP数上，支持256K，是NDR的2倍，更好支撑大规模并行计算；实测性能上，RDMA延时0.93微秒，转发延时260纳秒，达到国内领先水平。

首款国产InfiniBand面世，实测数据告诉你性能究竟有多强悍图3

首款国产InfiniBand面世，实测数据告诉你性能究竟有多强悍图4

首款国产InfiniBand面世，实测数据告诉你性能究竟有多强悍图5

目前，scaleFabric已落地国家超算互联网核心节点的3万卡商用集群，实现3套scaleX万卡集群同步上线，为国产最大规模真实负载验证。

专家实测使用效果显著

如果在国内要找一家与英伟达基因最像的企业，我们认为是曙光。英伟达的GPGPU起源于科学计算，最早在中国高校和科研院所推广生态；而曙光同样发轫于科学计算领域，在产品层面已形成全线对标英伟达的布局。

纸上谈兵易，实战验证难。那么，站在一线工程师和从业者角度来看，曙光的scaleFabric使用体验究竟如何？

中国科学院计算技术研究所研究员王展的团队聚焦分子动力学模拟这一典型科学智能场景，其核心挑战在于高精度长时间模拟。他表示，团队曾在日本富岳超算上的优化经验表明，通信是最大瓶颈。在拿到scaleFabric后，他们第一时间部署测试，在单卡性能方面，单QP通信性能优于NVIDIA ConnectX-7（CX7），多QP通信Write/Send性能领先，RDMA Write延迟1.14μs、Send延迟 1.47μs，表现优异；交换机转发延迟实测255ns，与英伟达IB持平，优于主流300ns方案；在大规模集群测试中，124 GPU规模下带宽突破 120GB/s，4096 GPU至万卡级规模带宽基本稳定。

王展特别提到，scaleFabric具备极强的科研友好性，开箱即用、OpenSM服务完善，HPL、LAMMPS 等应用无需额外配置即可运行，监控与管理工具便捷易用。

北京科技大学计算机与通信工程学院储根深表示，重大工程依赖数智模拟来降低成本、缩短周期，要实现“算得准、算得好”，必须做到高保真数值模拟，而这会带来计算量激增，如何充分发挥算力成为核心挑战，尤其在超智一体架构下，如何利用scaleFabric优化通信，是提升性能的关键。

储根深的团队基于scaleFabric硬件，从硬件层、系统库层、算法层三层架构展开优化。在国家超算互联网核心节点的实测中，辐照材料分子动力学软件从千卡扩展至万卡，并行效率实现了86%，通信开销从50%降至10%；堆芯流体力学CFD软件 phi-flow万卡并行效率57%，通信时间下降10%；三维快堆堆芯中子物理输运软件 ANT MOC2.0在万卡规模下并行效率42%，特征线数量近2000亿，计算精度提升7 倍。

首款国产InfiniBand面世，实测数据告诉你性能究竟有多强悍图6

“实际测试中，scaleFabric表现出优异的稳定性，两周连续测试无网络抖动或故障，生态兼容性对标英伟达。”储根深感叹道，scaleFabric为工程计算软件的万卡扩展提供了坚实硬件支撑，未来期待在生态层面持续优化，进一步释放国产算力潜能。

科大讯飞AI工程院智算基础设施架构师鲍中帅表示，自2019年起，科大讯飞坚定走国产化路线，并与曙光展开深度合作。在国家超算互联网核心节点的3万卡商用集群中，科大讯飞也落地了多项应用优化成果：落地了DeepEP，重点解决高吞吐场景的性能瓶颈；通过Ripiple策略重计算技术解除了重计算与反向计算的绑定关系，实现更细粒度的流水线并行；dualpipev+cudagraph技术实现EP域通信计算overlap，有效降低流水空泡。

鲍中帅强调，曙光不仅在IB领域能力突出，同时保持开放生态，科大讯飞与曙光合作历史久远、深入且全面。此外，双方的合作也不止于IB。

中国自主进入新阶段

实现突破，曙光来时的路并不轻松。事实上，IB真正的难点在底层，物理层与工艺强相关，想把网络做得比IB更好极其困难。研发初期，曙光并无十足把握能达到其水平，过程中经历了诸多艰辛。

最终能取得成功，得益于两点：一是站在巨人的肩膀上，长期使用IB产品让曙光对其有深刻理解；二是基于这些经验，得以在自研过程中改进其原有设计的不足，规避某些痛点。正因如此，曙光在部分性能上反而实现了超越。

而在整个大算力领域，曙光的布局不止是IB，主要集中在三个层面：一是核心计算芯片的研发；二是硬件层面的高效实现，随着芯片功率密度、热密度和IO密度的急剧攀升，在供电和冷却等支撑技术上已进入“深水区”，面临着极具挑战性的工程难题，必须在此领域实现技术突破；三是系统级的协同与生态合作，曙光强调算、存、传的协同，以及与IB等设备的深度融合。

通过在不同层级进行布局，并与国内产业链上下游伙伴保持紧密合作，曙光正在构建一个自主可控的算力生态。

从全球看，IB市场由少数全栈能力厂商主导，英伟达收购Mellanox后，软硬件深度结合，构建了高性能集群。国内IB发展正迎头赶上，从协议标准确立到速率快速升级，目前已步入融合与自研阶段。由于IB设备一体机难以获取，国产自主衍生的RDMA高速网络便应运而生，如曙光scaleFabric。在此之后，真正的难点在上层生态建设。光合组织等平台的协同正在加速这一进程。

· END ·