国产InfiniBand网络有多强?从此中国架起AI高速网络!

电子发烧友网 2026-03-21 00:00
随着AI大模型训练与高通量推理计算需求持续扩大,万卡级乃至更大规模的算力集群正成为主流形态。研究表明,在大规模分布式训练中,网络通信耗时占比已达到30-50%,网络性能直接影响算力系统的整体效率。
 
算力网络是智算集群的核心基础条件之一。超高带宽、极低延时、无损传输和扩展是超大规模智算集群对网络提出的新要求。
 
中科曙光自2022年开始进行RDMA的技术研究,在近日宣布实现国产高端原生RDMA技术重大突破,正式发布首款全栈自研400G无损高速网络——scaleFabric。该产品基于原生RDMA架构,从底层的112G SerDes IP、硬件设备到上层的管理软件实现100%自研,填补了国内数据中心高速网络领域的空白,以比肩国际顶尖同类产品的性能表现,为超大规模智算集群铺就了一条高带宽、低时延、真无损、超可靠的“算力大动脉”。
 
尤其在大规模AI训练系统中,网络互联能力已成为影响算力利用率的关键变量。scaleFabric的发布,标志着国产智算网络在高端RDMA领域实现重大突破。
自研112G SerDes IP、两款高速网络芯片、三款网卡/交换机
中科曙光scaleFabric是国内首款原生无损RDMA高速网络,面向超大规模智算集群设计,从核心关键IP、交换芯片、网卡到交换机、驱动与管理软件均实现自主研发,构建起从硬件到软件的完整技术体系。
 
scaleFabric的核心是自主研发的两颗高速网络芯片即scaleFabric400网卡芯片和交换芯片。主要涵盖三款产品scaleFabric400单口标准网卡,scaleFabric400 1U800G液冷交换机,以及scaleFabric400 2U 800G风冷交换机。
 
国产InfiniBand网络有多强?从此中国架起AI高速网络!图1
国产InfiniBand网络有多强?从此中国架起AI高速网络!图2
性能方面,scaleFabric400网卡基于PCIe5.0接口,端口带宽达400Gbps,端到端通信时延低至0.9微秒;scaleFabric400交换机单端口带宽达800Gbps,整机交换容量可达双向64Tbps,交换时延约260纳秒,支持800Gbps×40或400Gbps×80端口扩展。这一性能组合,可充分满足万卡级AI训练集群对高带宽、低时延网络的极致需求。
 
稳定性与扩展能力上,产品采用基于信用的无损流控机制,从根源规避拥塞丢包风险,链路故障恢复时间小于1毫秒,已支撑近万卡集群持续稳定运行验证超10个月。
 
与英伟达NDR相比,交换机端口密度提升25%,网卡最大QP数支持提升100%。
 
国产InfiniBand网络有多强?从此中国架起AI高速网络!图3
在扩展性方面,传统上InfiniBand的空间能支持到16位,使得其所支持最大的组网规模只能做到不到5万卡,这难以满足当前算力中心对于10万卡集群的需求。中科曙光通过重点优化扩展性,可以将scaleFabric网络规模支持到11.4万卡,比传统IB提升2.33倍,同时,也利用端口密度优势,整体组网成本可以下降30%。实测数据,基本上做到和NDR相当的水平,部分数据甚至优于NDR系列,在性能上已经完全具备和国际竞争水平。
 
国产InfiniBand网络有多强?从此中国架起AI高速网络!图4
国产InfiniBand网络有多强?从此中国架起AI高速网络!图5
生态建设方面,注重与IB的生态兼容,scaleFabric提供原生接口,可以全面兼容各种通信库,无缝兼容各种HPC和AI应用、大模型训练,可以在不改代码的情况下,直接迁移到基于scaleFabric的系统上,做到应用无感。同时,在网络管理和维护方面,都兼容IB用户的使用习惯,方便将过去IB用户对于IB的使用经验无缝迁移到scaleFabric。针对新型智算场景例如IDMA等新型模式,scaleFabric也能做到支持,更好地帮助用户始终站在AI创新的最前沿。
 
为何选择InfiniBand路线?
长期以来,从高速SerDes IP、核心芯片到IB网卡、IB交换机等设备,InfiniBand相关产业链基本被海外厂商垄断。随着AI算力需求快速增长及数据中心网络持续演进,自主高性能RDMA网络正成为产业关注焦点。
 
在大规模智算集群领域,RDMA(远程直接内存访问)网络已成为算力中心的基本需求,凭借零丢包、高带宽、低延迟等特征,可极大提升通信效率。其中,InfiniBand凭借低时延与原生无损传输能力,在全球顶级超算与AI集群中被广泛采用。根据TOP500榜单,目前全球约60%的高性能计算系统采用InfiniBand网络架构。
 
中科曙光高级副总裁李斌表示,当前400G端口带宽网络逐渐成为HPC/AI集群网络主流,未来向800G持续演进。在这一领域,RDMA网络成为算力中心的基本需求,成为整个AI网络的事实上的标准。在这一领域,实际上存在着两大技术路线,分别是InfiniBand和RoCE,虽然当前有一个呼声,由互联网大厂推动用RoCE取代InfiniBand,但是实际上InfiniBand的技术路线在AI/HPC中有不可替代的优势,是真正的无损网络,而无损的特性对RDMA性能的发挥具有优势,便于更好对网络进行管理。
 
国产InfiniBand网络有多强?从此中国架起AI高速网络!图6
“在RDMA网络中,少量丢包会造成性巨大的波动,这也是为什么曙光一直在坚持走InfiniBand路线的原因。相比之下,RoCE需要大量的调优等一系列的工作,才能保证达到无损的效率。InfiniBand天然的具备无损性质。”因此,scaleFabric采用与InfiniBand相同的基于信用的机制和链路机制,使得无论应用如何调整,都可以从理论上证明无损的状态,真正做到即插即用。
 
如何保证底层高速信号的质量很关键,必须依靠高速Serdes的能力。因此,中科曙光组建研发团队,自研高速Serdes IP,从而可以做到在42db衰减下实现百万分之一误码率。scaleFabric面向多样化的各种复杂的链路环境下都有保证网络稳定可靠的底气。
 
此外,曙光公司从系统出发,研发了链路故障路由快速恢复技术,可以将链路故障路由恢复时间降低到毫秒级,延时不会随着网络规模的增长而增长,保障应用无感,进一步保障网络的可用性。
 
中科曙光已形成“算、存、网”一体方案
在大规模并行计算中一个计算任务的完成,涉及计算、存储、网络三个环节。其中计算负责运算数据,存储负责提供数据,网络负责传输数据。如果任何其中一个环节成为瓶颈,整个系统的效能都会下降,尤其在上千节点、上万核心的计算规模下,各种性能瓶颈造成的不均衡状态会被指数级放大。
 
中科曙光高速网络互联产品部总工程师万伟分析,从理论上看,计算任务的时间由计算、内存访问、网络通信,还有IO读写时间组成。因此,计算系统的效率并不等同于系统的峰值算力。随着计算规模的扩大,通信时间和IO时间占比会迅速上升,这实际上是阿姆达尔定律在工程系统中的实际体现。
 
从能效的角度来看,当网络性能不足时CPU在等待,服务器在耗电,但计算单元并没有真正工作。算力利用率理论上可以达到90%以上,但在网络瓶颈的情况下,算力利用率可能只有50%左右。也就是说,有接近一半的算力会被浪费掉。
 
比如汽车的启动分析、航空仿真等工业仿真类应用,其网络规模巨大,通常会超过2亿网格。计算规模巨大,一般要两千核以上的资源进行并行计算。数值规模巨大,单次任务产生的数值可达10TB以上。并且通信非常频繁,节点间的进程会进行高频的数据交换。因此,在这种场景下网络的性能直接决定仿真的计算效能。    
 
以工业界常用的Siemens  Star  CCM+为例说明,随着并行规模的扩大,通信时间占比会迅速增加。当规模达到2048核的时候,通信占比接近48%的时间。也就是说,我们的CPU有接近一半的算力是无法操作出来的。更关键的是,这类应用对网络延迟非常敏感,经过测算,延迟每增加10微秒,其整体效能可能会下降20%。
 
因此,计算系统的性能不是单点的算力问题,而是计算、存储、网络三要素的协同效率问题。未来的高性能计算,本质上是一项系统工程,只有三者协同优化,系统才能发挥出真正的性能。
 
围绕系统效能问题,曙光在核心硬件层面进行了系统布局。目前已经完成了四款核心国产芯片的部署,包括国产CPU处理器、国产GPU加速器、P3E交换芯片以及片间的互联芯片。这些芯片构成了完整的国产算力技术结构。
 
国产InfiniBand网络有多强?从此中国架起AI高速网络!图7
在网络方面,中科曙光实现了核心能力的全栈自研,包括400G网卡芯片、800G交换芯片以及全面自研固件、驱动软件技管理软件。在并行计算中,国产IB的效率达到85%左右,而传统的RoCE方案效率只有65%。在实际CFD软件应用测试中,IB网络通信在各节点规模下保持较高效率,即使节点增加到64节点以上,scaleFabric效率仍保持70%-80%,远高于RoCE的方案。总的来说,IB网络是处理复杂计算网络的一个理想选择。
 
国产InfiniBand网络有多强?从此中国架起AI高速网络!图8
在存储方面,目前曙光做了分布式自研存储系统,主要特点包括高稳定性、低延时和高吞吐。同时实现了5级缓存加速体系,可以实现计算节点的内存到缓存到全栈存储。对整个数值路径进行了优化,最终带来的效果,IO性能最高提高到20倍左右。
 
国产InfiniBand网络有多强?从此中国架起AI高速网络!图9
为了实现存算传的协同,中科曙光重点突破了四项关键技术。第一,高速互连网络加高带宽内存。第二,并行分布式文件系统。第三,GPU直连网络通信。第四,NUMA的拓扑优化。通过这些技术,可以大幅降低通信延迟、访问延迟以及访问冲突,从而提升系统的整体效能。
 
基于算存传的耦合架构,从系统层面进行协同优化,实现20倍的IO性能提升,GPU算力利用率最高可以提升30%,同时网络带宽提升2倍,网络延迟降低3倍,整体可以实现1+1+1大于3的效果。
 
为了将这些技术真正落地,曙光公司推出scaleX超集群系统,将计算、互联和散热进行了深度的一体化集成。在scaleX中,单机柜可以集成640张GPU加速卡,并通过全链互联的正交网络架构,实现超带宽、低延迟的节点间通信。同时,整套系统采用浸没式相变液冷技术,最高可以支持860千瓦级的功率密度,可以显著提升数据中心的能效水平。可以说scaleX超集群不仅是算力设备,更是曙光面向未来智能计算的系统级的架构创新。
 
在实际应用层面,scaleFabric目前已部署于位于郑州的国家超算互联网核心节点,支撑三套万卡级scaleX智算集群上线运行,总规模达3万卡。整个网络部署只用了36个小时,目前累计1万个客户和10万+的作业。
 
随着产品在超大规模智算集群中的落地应用,国产原生RDMA技术路线正逐步走向成熟,围绕其形成的高性能网络产业生态也正在加速形成。
 
开放生态,打造大规模普惠的高速网络产品
曙光信息产业(北京)有限公司副总裁李柳表示,我们将牵头成立光合组织高性能计算专委会AIDC高速网络工作组,未来以开放的姿态联合更多的国内合作伙伴建立技术标准,基于这个平台打造生态适配系统,同时联合国内的一些科研力量,形成产学研体系,共同探索产业应用与发展。
 
万伟认为,从技术路线上来说,我们有ScaleUp互联,ScaleOut互联,特别是超大规模系统上的性能和扩展性等方面做了考量。未来还将探索包括不同协议的融合,例如可能在原生RDMA上兼容RoCE等。另外,针对不同芯片的兼容性,和不同计算芯片的互联,将探索更高效的方式,比如计算芯片通过专有协议到网卡、芯片互联协议的共享,与其他芯片直通等等。
 
李斌表示,面向未来,我们有信心把scaleFabric打造成国内大规模广泛使用且非常普惠的高速网络产品。不仅是技术和产品保持国际竞争力,更重要的是秉持开放的态度,集合国内算力厂商、系统集成、整机厂商等,串连整个产业链上下游的合作伙伴,在定义标准、接口、协议、以及商业模式等方面展开全方位的开放合作。
 

国产InfiniBand网络有多强?从此中国架起AI高速网络!图10

声明:本文由电子发烧友原创,转载请注明以上来源。如需入群交流,请添加微信elecfans999,投稿爆料采访需求,请发邮箱wuzipeng@elecfans.com

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
more
端侧AI重构产品,聆思携手家电企业共筑AI普惠的家庭新生态
阿里Q3财报:阿里云加速增长36%,AI收入三位数增长
直击AWE LG展台:从透明电视到AI家电全面秀肌肉
Kimi提出“注意力残差”新架构,马斯克点赞,中国AI底层创新引全球关注
今日看点:SpaceXAI和特斯拉预计继续订购英伟达片;腾势D9官宣搭载比亚迪第二代刀片电池
AI球球直播喊话全人类:开源脑机接口,开源科技文明
AI变现路径模糊致阿里腾讯市值单日蒸发4554亿元
国产存储突围迫在眉睫,AI驱动涨价潮倒逼产业链自主化
AI浪潮下的裁员潮与开发者之殇
AMD与三星深化AI芯片供应链合作,锁定HBM4及代工产能
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号