随着大模型训练与推理规模快速向万卡、十万卡级演进,AI Scale-Out(横向扩展)网络已经成为决定算力利用效率的核心底座。网络性能的上限,直接定义了 GPU 集群的实际算力输出。在当前的智算网络技术路线中,以太网凭借成熟的产业链、开放的生态与持续的技术迭代,已经从备选方案成长为行业主流。从传统 RoCEv2 到新一代超以太网(UEC)、全调度以太网(GSE),以太网技术正在不断向 AI 业务的极致性能需求靠拢。但 AI 业务的流量特征与传统数据中心业务截然不同,低熵大流、同步突发、集合通信密集的特性,给以太网带来了一系列全新挑战。本文将系统拆解智算以太网的五大核心痛点,并逐一对应梳理业界主流技术方案的原理、优势与局限,为技术选型提供完整参考。
痛点本质
AI 训练流量具备典型的低熵、大流、同步突发特征:单条流即可占满整条链路的全部带宽,且所有流量会随训练步长同步启停,流的总数远少于传统互联网业务。传统以太网依赖 ECMP 逐流静态哈希算法做负载分担,在少流场景下极易出现哈希冲突,最终出现 “部分链路持续拥塞、部分链路长期空闲” 的极化现象。这直接导致整网有效吞吐通常仅能达到理论值的50%~60%,宝贵的硬件带宽能力被严重浪费。主流技术方案与优劣势
1. 芯片级动态负载均衡(DLB)
技术原理:以太网交换芯片内置实时负载感知能力,在传统哈希因子的基础上,加入时间戳、端口队列深度、实时带宽利用率等动态因子,动态调整流的转发路径,从根源避免固定哈希带来的极化问题。代表技术包括博通 Tomahawk 系列 DLB、盛科交换芯片动态负载均衡能力。优势
纯硬件实现,转发时延无明显增加,对上层业务完全透明无需端侧适配,兼容标准 RoCE 与普通以太网业务劣势
逐包动态哈希会引入轻微报文乱序,依赖网卡侧硬件重组能力,乱序严重时会降低 RDMA 传输效率2. 自适应路由(ARS/Flowlet 流片调度)
技术原理:通过设定空闲时间阈值,将一条完整的大流切分为多个流片(Flowlet),再基于实时端口负载状态,将不同流片动态调度到空闲链路上,在负载均衡效果与乱序控制之间取得平衡。代表方案包括星融元 ARS、Meta RoCE 网络的 Flowlet Switching 方案。优势
流片粒度调度的乱序风险远低于逐包调度,对 RDMA 协议友好劣势
流片静默时间参数需与业务流量特征匹配,配置不当会大幅降低均衡效果3. 端侧包喷洒与多路径可靠连接
技术原理:由网卡侧通过修改报文源端口号改变哈希熵值,主动控制报文在不同路径上的分发比例,交换机侧仍保留标准逐流哈希机制。该方案是超以太网联盟(UEC)主推的负载均衡标准方向,博通 MRC(多路径可靠连接)同样通过端网协同,实现多路径分发与乱序重组。优势
交换机无需特殊功能,兼容性最好,可大幅降低网络侧改造成本可结合拥塞反馈动态调整各路径流量比例,兼顾负载均衡与拥塞控制劣势
端侧处理会增加少量网卡开销,乱序控制依赖网卡重组能力4. 双平面 / 多平面分流架构
技术原理:部署两套及以上独立的以太网交换平面,将流量在平面间静态或动态分担,从架构层面规避单平面的哈希极化问题。代表方案为阿里 HPN 网络。优势
单平面故障时流量可快速切换至另一平面,可靠性同步提升劣势
交换机、线缆等硬件成本接近翻倍,布线与运维复杂度同步提升
痛点本质
All-Reduce、All-to-All 等集合通信操作,天然会产生 “多打一” 的 Incast 流量,瞬间打满接收端的端口缓冲区。当前以太网的无损传输主要依赖 RoCEv2 协议,通过 PFC(优先级流控)实现零丢包,但 PFC 的反压会沿路径级联扩散,极端情况下会引发 PFC 风暴与死锁,最终导致整网吞吐量塌陷;而 ECN(显式拥塞通知)作为主动调节机制,存在响应滞后的问题,难以应对毫秒级的突发流量。这是以太网支撑 AI 大流量场景的核心挑战之一。主流技术方案与优劣势
1. 基于信用的流控(CBFC)+ 链路层重试(LLR)
技术原理:超以太网联盟(UEC)定义的下一代以太网无损核心机制,用于替代传统 PFC 方案。接收端提前向发送端发放 “信用额度”(可用缓冲区大小),发送端仅在有信用时才发包,从链路层杜绝缓冲区溢出;同时配套链路层重试(LLR)实现逐跳快速重传,在不触发上层重传的前提下修复偶发丢包。优势
从根源消除 PFC 反压与死锁风险,以太网原生无损能力接近专用互联水平流控粒度按虚拟通道(VC)隔离,可避免队头阻塞问题链路层重传时延远低于端到端重传,对业务性能影响极小劣势
属于新一代技术,商用交换芯片成熟度仍在提升,当前仅少数高端型号支持2. 新一代端网协同拥塞控制算法
技术原理:基于高精度链路状态信息,发送端实时精准调整发送速率,替代传统 ECN 的滞后反馈。代表算法包括基于带内遥测的 HPCC、优化版 DCQCN+,以及博通认知路由 2.0 的自适应流量控制,可将拥塞响应速度提升一个数量级。优势
大幅降低 PFC 触发概率,从根源减少 PFC 死锁风险有效压缩尾延迟,Incast 场景下有效吞吐提升30% 以上劣势
3. 大缓存交换机架构
技术原理:将以太网交换机端口缓冲区容量从传统几 MB 提升至几十 MB 甚至上百 MB,通过大缓存吸收 Incast 突发流量,避免缓冲区溢出触发 PFC。优势
对突发流量的吸收能力强,显著降低 PFC 触发频率劣势
大缓存会增加报文排队时延,对时延敏感业务有一定影响4. PFC 死锁检测与防护机制
技术原理:通过 PFC Watchdog、死锁检测与自动解除、多级动态阈值等技术,监控异常 PFC 反压,必要时主动丢包解除死锁,属于现有 RoCE 以太网架构的补丁型优化。优势
劣势
痛点本质
当集群规模从千卡向万卡、十万卡演进时,网络转发跳数会随之增加,参与集合通信的节点数也同步增多,单次同步的时延近似线性上升。这会导致通信开销占训练总时长的比例持续升高,算力线性加速比快速下降,出现 “加卡不加算力” 的缩放效率瓶颈;同时传统三层 Clos 拓扑的端口需求会随规模指数增长,设备成本与功耗呈陡增趋势。主流技术方案与优劣势
1. 轨道优化(Rail-Optimized)拓扑
技术原理:将多台 Leaf 与 Spine 划分为独立 “轨道”,轨道内流量完成本地转发,仅跨轨通信经 Spine 层级,适配 AI 训练的局部通信特征。代表方案为腾讯星脉网络。优势
万卡级集群可保持两层组网架构,减少转发跳数,同时节省约 \\40%\\的端口成本劣势
拓扑定制化强,流量调度与故障排查复杂度高于标准胖树2. 高密端口两层组网
技术原理:采用 128 口及以上的高密 400G/800G 以太网交换机,最大化单设备接入能力,万卡级集群维持 Leaf-Spine 两层架构,避免引入三层转发增加跳数与时延。当前博通 Tomahawk 6 等新一代芯片已支持 102.4Tbps 交换容量,可支撑更高密度接入。优势
劣势
痛点本质
以太网无损网络(RoCEv2)的稳定运行,依赖 PFC 阈值、ECN 标记点、缓冲队列等数十项参数的精细调优,而最优配置与业务流量特征强相关,不存在通用的普适性方案。在大规模集群中,拥塞点、乱序、丢包的根因定位难度大,排障周期长;同时随着网络规模扩大,状态监控、故障定界、性能调优的复杂度呈指数级上升,对运维体系提出了极高的要求。主流技术方案与优劣势
1. 带内网络遥测(INT)与可视化运维
技术原理:通过以太网交换芯片在报文中插入路径、时延、队列深度等遥测信息,实现逐流、逐包的全路径可视化,精准定位拥塞、丢包、乱序根因。优势
故障定位时间从小时级缩短至分钟级,大幅提升排障效率可实时呈现全网负载状态,为参数调优提供精准数据支撑劣势
2. 自动化调优与 AI 运维平台
技术原理:基于业务流量特征自动生成最优的 PFC/ECN 参数配置,结合 AI 算法实时动态调整网络参数,替代人工调优。代表方案包括各厂商的智算网络自动驾驶平台。优势
劣势
3. 标准化无损配置模板
技术原理:行业厂商与联盟推出标准化的 RoCE 无损配置模板,针对 AI 训练场景给出推荐参数组合,降低用户调优门槛。随着 UEC 等标准落地,无损配置的标准化程度将进一步提升。优势
劣势
痛点本质
单台 Leaf 交换机故障,可能影响数十至上百张 GPU,进而导致长周期训练任务中断重跑。大规模集群的年均故障次数会随节点数线性上升,故障恢复耗时直接影响训练交付周期。以太网传统的单 ToR 接入架构存在明显的单点故障风险;而双 ToR 等冗余方案,又会带来成本与布线复杂度的显著提升,同时无损场景下的故障切换容易引发流量波动与丢包。主流技术方案与优劣势
1. 双 ToR 冗余接入架构
技术原理:每台服务器双上行接入两台 Leaf 交换机,形成主备或负载分担模式,单台交换机故障时流量快速切换,是以太网数据中心的标准高可用方案。优势
劣势
交换机端口、线缆用量翻倍,成本与布线复杂度显著提升RoCE 无损场景下双上行切换易引发丢包与乱序,影响训练稳定性2. 多平面冗余架构
技术原理:整网部署多套独立以太网交换平面,单平面故障时流量全部切换至剩余平面,业务不中断。优势
劣势
3. 网络级快速重路由(FRR)
技术原理:交换机提前计算备份路径,链路或节点故障时在亚毫秒级完成路径切换,无需等待路由协议收敛,是以太网的标准快速保护机制。优势
故障切换时间 \\< 50ms\\,对上层业务几乎无感知劣势
仅能应对链路与节点故障,无法解决拥塞、配置错误等问题4. 业务层容错与检查点机制
技术原理:训练框架层面支持容错,定期保存检查点,网络故障导致训练中断后,可从最近检查点恢复,无需从头重跑。优势
劣势
整体来看,以太网在智算场景的技术演进,始终围绕 “补全专用互联的性能短板,同时保留以太网的开放生态与成本优势” 这一核心主线展开。对于中小规模集群,传统 RoCEv2 配合基础优化即可满足需求;对于万卡级以上的大规模集群,端网协同的新一代协议(UEC/GSE)、定制化拓扑与智能化运维将成为必然方向。没有绝对最优的方案,只有与业务规模、成本预算、运维能力最匹配的选型。智猩猩主办的2026中国AI智能体大会7月2-3日杭州举行,大会设有开幕式,企业级AI智能体、AI智能体产品创新2场论坛,以及Coding Agent、自进化智能体、深度研究智能体、Computer-Use Agent、多智能体协同、Agent Skills、Agent Harness7场技术研讨会。天津大学郝建业教授,复旦肖仰华教授,阿里巴巴通义实验室算法专家李晨亮,前腾讯Frontier团队专家研究员王琰,美团通用Agent团队负责人顾奇将出席演讲。