国产InfiniBand网络有多强？从此中国架起AI高速网络！

随着AI大模型训练与高通量推理计算需求持续扩大，万卡级乃至更大规模的算力集群正成为主流形态。研究表明，在大规模分布式训练中，网络通信耗时占比已达到30-50%，网络性能直接影响算力系统的整体效率。

算力网络是智算集群的核心基础条件之一。超高带宽、极低延时、无损传输和扩展是超大规模智算集群对网络提出的新要求。

中科曙光自2022年开始进行RDMA的技术研究，在近日宣布实现国产高端原生RDMA技术重大突破，正式发布首款全栈自研400G无损高速网络——scaleFabric。该产品基于原生RDMA架构，从底层的112G SerDes IP、硬件设备到上层的管理软件实现100%自研，填补了国内数据中心高速网络领域的空白，以比肩国际顶尖同类产品的性能表现，为超大规模智算集群铺就了一条高带宽、低时延、真无损、超可靠的“算力大动脉”。

尤其在大规模AI训练系统中，网络互联能力已成为影响算力利用率的关键变量。scaleFabric的发布，标志着国产智算网络在高端RDMA领域实现重大突破。

自研112G SerDes IP、两款高速网络芯片、三款网卡/交换机

中科曙光scaleFabric是国内首款原生无损RDMA高速网络，面向超大规模智算集群设计，从核心关键IP、交换芯片、网卡到交换机、驱动与管理软件均实现自主研发，构建起从硬件到软件的完整技术体系。

scaleFabric的核心是自主研发的两颗高速网络芯片即scaleFabric400网卡芯片和交换芯片。主要涵盖三款产品scaleFabric400单口标准网卡，scaleFabric400 1U800G液冷交换机，以及scaleFabric400 2U 800G风冷交换机。

性能方面，scaleFabric400网卡基于PCIe5.0接口，端口带宽达400Gbps，端到端通信时延低至0.9微秒；scaleFabric400交换机单端口带宽达800Gbps，整机交换容量可达双向64Tbps，交换时延约260纳秒，支持800Gbps×40或400Gbps×80端口扩展。这一性能组合，可充分满足万卡级AI训练集群对高带宽、低时延网络的极致需求。

稳定性与扩展能力上，产品采用基于信用的无损流控机制，从根源规避拥塞丢包风险，链路故障恢复时间小于1毫秒，已支撑近万卡集群持续稳定运行验证超10个月。

与英伟达NDR相比，交换机端口密度提升25%，网卡最大QP数支持提升100%。

在扩展性方面，传统上InfiniBand的空间能支持到16位，使得其所支持最大的组网规模只能做到不到5万卡，这难以满足当前算力中心对于10万卡集群的需求。中科曙光通过重点优化扩展性，可以将scaleFabric网络规模支持到11.4万卡，比传统IB提升2.33倍，同时，也利用端口密度优势，整体组网成本可以下降30%。实测数据，基本上做到和NDR相当的水平，部分数据甚至优于NDR系列，在性能上已经完全具备和国际竞争水平。

生态建设方面，注重与IB的生态兼容，scaleFabric提供原生接口，可以全面兼容各种通信库，无缝兼容各种HPC和AI应用、大模型训练，可以在不改代码的情况下，直接迁移到基于scaleFabric的系统上，做到应用无感。同时，在网络管理和维护方面，都兼容IB用户的使用习惯，方便将过去IB用户对于IB的使用经验无缝迁移到scaleFabric。针对新型智算场景例如IDMA等新型模式，scaleFabric也能做到支持，更好地帮助用户始终站在AI创新的最前沿。

为何选择InfiniBand路线？

长期以来，从高速SerDes IP、核心芯片到IB网卡、IB交换机等设备，InfiniBand相关产业链基本被海外厂商垄断。随着AI算力需求快速增长及数据中心网络持续演进，自主高性能RDMA网络正成为产业关注焦点。

在大规模智算集群领域，RDMA（远程直接内存访问）网络已成为算力中心的基本需求，凭借零丢包、高带宽、低延迟等特征，可极大提升通信效率。其中，InfiniBand凭借低时延与原生无损传输能力，在全球顶级超算与AI集群中被广泛采用。根据TOP500榜单，目前全球约60%的高性能计算系统采用InfiniBand网络架构。

中科曙光高级副总裁李斌表示，当前400G端口带宽网络逐渐成为HPC/AI集群网络主流，未来向800G持续演进。在这一领域，RDMA网络成为算力中心的基本需求，成为整个AI网络的事实上的标准。在这一领域，实际上存在着两大技术路线，分别是InfiniBand和RoCE，虽然当前有一个呼声，由互联网大厂推动用RoCE取代InfiniBand，但是实际上InfiniBand的技术路线在AI/HPC中有不可替代的优势，是真正的无损网络，而无损的特性对RDMA性能的发挥具有优势，便于更好对网络进行管理。

“在RDMA网络中，少量丢包会造成性巨大的波动，这也是为什么曙光一直在坚持走InfiniBand路线的原因。相比之下，RoCE需要大量的调优等一系列的工作，才能保证达到无损的效率。InfiniBand天然的具备无损性质。”因此，scaleFabric采用与InfiniBand相同的基于信用的机制和链路机制，使得无论应用如何调整，都可以从理论上证明无损的状态，真正做到即插即用。

如何保证底层高速信号的质量很关键，必须依靠高速Serdes的能力。因此，中科曙光组建研发团队，自研高速Serdes IP，从而可以做到在42db衰减下实现百万分之一误码率。scaleFabric面向多样化的各种复杂的链路环境下都有保证网络稳定可靠的底气。

此外，曙光公司从系统出发，研发了链路故障路由快速恢复技术，可以将链路故障路由恢复时间降低到毫秒级，延时不会随着网络规模的增长而增长，保障应用无感，进一步保障网络的可用性。

中科曙光已形成“算、存、网”一体方案

在大规模并行计算中一个计算任务的完成，涉及计算、存储、网络三个环节。其中计算负责运算数据，存储负责提供数据，网络负责传输数据。如果任何其中一个环节成为瓶颈，整个系统的效能都会下降，尤其在上千节点、上万核心的计算规模下，各种性能瓶颈造成的不均衡状态会被指数级放大。

中科曙光高速网络互联产品部总工程师万伟分析，从理论上看，计算任务的时间由计算、内存访问、网络通信，还有IO读写时间组成。因此，计算系统的效率并不等同于系统的峰值算力。随着计算规模的扩大，通信时间和IO时间占比会迅速上升，这实际上是阿姆达尔定律在工程系统中的实际体现。

从能效的角度来看，当网络性能不足时CPU在等待，服务器在耗电，但计算单元并没有真正工作。算力利用率理论上可以达到90%以上，但在网络瓶颈的情况下，算力利用率可能只有50%左右。也就是说，有接近一半的算力会被浪费掉。

比如汽车的启动分析、航空仿真等工业仿真类应用，其网络规模巨大，通常会超过2亿网格。计算规模巨大，一般要两千核以上的资源进行并行计算。数值规模巨大，单次任务产生的数值可达10TB以上。并且通信非常频繁，节点间的进程会进行高频的数据交换。因此，在这种场景下网络的性能直接决定仿真的计算效能。

以工业界常用的Siemens Star CCM+为例说明，随着并行规模的扩大，通信时间占比会迅速增加。当规模达到2048核的时候，通信占比接近48%的时间。也就是说，我们的CPU有接近一半的算力是无法操作出来的。更关键的是，这类应用对网络延迟非常敏感，经过测算，延迟每增加10微秒，其整体效能可能会下降20%。

因此，计算系统的性能不是单点的算力问题，而是计算、存储、网络三要素的协同效率问题。未来的高性能计算，本质上是一项系统工程，只有三者协同优化，系统才能发挥出真正的性能。

围绕系统效能问题，曙光在核心硬件层面进行了系统布局。目前已经完成了四款核心国产芯片的部署，包括国产CPU处理器、国产GPU加速器、P3E交换芯片以及片间的互联芯片。这些芯片构成了完整的国产算力技术结构。

在网络方面，中科曙光实现了核心能力的全栈自研，包括400G网卡芯片、800G交换芯片以及全面自研固件、驱动软件技管理软件。在并行计算中，国产IB的效率达到85%左右，而传统的RoCE方案效率只有65%。在实际CFD软件应用测试中，IB网络通信在各节点规模下保持较高效率，即使节点增加到64节点以上，scaleFabric效率仍保持70%-80%，远高于RoCE的方案。总的来说，IB网络是处理复杂计算网络的一个理想选择。

在存储方面，目前曙光做了分布式自研存储系统，主要特点包括高稳定性、低延时和高吞吐。同时实现了5级缓存加速体系，可以实现计算节点的内存到缓存到全栈存储。对整个数值路径进行了优化，最终带来的效果，IO性能最高提高到20倍左右。

为了实现存算传的协同，中科曙光重点突破了四项关键技术。第一，高速互连网络加高带宽内存。第二，并行分布式文件系统。第三，GPU直连网络通信。第四，NUMA的拓扑优化。通过这些技术，可以大幅降低通信延迟、访问延迟以及访问冲突，从而提升系统的整体效能。

基于算存传的耦合架构，从系统层面进行协同优化，实现20倍的IO性能提升，GPU算力利用率最高可以提升30%，同时网络带宽提升2倍，网络延迟降低3倍，整体可以实现1+1+1大于3的效果。

为了将这些技术真正落地，曙光公司推出scaleX超集群系统，将计算、互联和散热进行了深度的一体化集成。在scaleX中，单机柜可以集成640张GPU加速卡，并通过全链互联的正交网络架构，实现超带宽、低延迟的节点间通信。同时，整套系统采用浸没式相变液冷技术，最高可以支持860千瓦级的功率密度，可以显著提升数据中心的能效水平。可以说scaleX超集群不仅是算力设备，更是曙光面向未来智能计算的系统级的架构创新。

在实际应用层面，scaleFabric目前已部署于位于郑州的国家超算互联网核心节点，支撑三套万卡级scaleX智算集群上线运行，总规模达3万卡。整个网络部署只用了36个小时，目前累计1万个客户和10万+的作业。

随着产品在超大规模智算集群中的落地应用，国产原生RDMA技术路线正逐步走向成熟，围绕其形成的高性能网络产业生态也正在加速形成。

开放生态，打造大规模普惠的高速网络产品

曙光信息产业（北京）有限公司副总裁李柳表示，我们将牵头成立光合组织高性能计算专委会AIDC高速网络工作组，未来以开放的姿态联合更多的国内合作伙伴建立技术标准，基于这个平台打造生态适配系统，同时联合国内的一些科研力量，形成产学研体系，共同探索产业应用与发展。

万伟认为，从技术路线上来说，我们有ScaleUp互联，ScaleOut互联，特别是超大规模系统上的性能和扩展性等方面做了考量。未来还将探索包括不同协议的融合，例如可能在原生RDMA上兼容RoCE等。另外，针对不同芯片的兼容性，和不同计算芯片的互联，将探索更高效的方式，比如计算芯片通过专有协议到网卡、芯片互联协议的共享，与其他芯片直通等等。

李斌表示，面向未来，我们有信心把scaleFabric打造成国内大规模广泛使用且非常普惠的高速网络产品。不仅是技术和产品保持国际竞争力，更重要的是秉持开放的态度，集合国内算力厂商、系统集成、整机厂商等，串连整个产业链上下游的合作伙伴，在定义标准、接口、协议、以及商业模式等方面展开全方位的开放合作。

国产InfiniBand网络有多强？从此中国架起AI高速网络！图10

声明：本文由电子发烧友原创，转载请注明以上来源。如需入群交流，请添加微信elecfans999，投稿爆料采访需求，请发邮箱wuzipeng@elecfans.com。