一个不可思议的组合出现了。

10月13日，OCP全球峰会在硅谷开幕。AMD和NVIDIA——这对在GPU市场厮杀了二十年的老对手，第一次站到了同一阵营。它们联合Meta、微软、OpenAI、Broadcom、Cisco等共12家企业，宣布成立ESUN工作组（Ethernet for Scale-Up Networking）。

这个联盟的目标很直接：用开放的以太网方案，挑战AI集群内部被专有协议垄断的高速互联市场。

为什么说史无前例？

因为这12家企业里，既有死对头（AMD vs NVIDIA），也有竞争对手（Broadcom vs Cisco），还有甲方和乙方（Meta、微软 vs 设备商）。能让这些巨头坐到一起，只能说明一件事：专有方案的"税"，已经让所有人都受不了了。

这不是简单的技术路线之争，而是一场关乎AI基础设施成本和供应链控制权的硬仗。

1、

一个存在了14年的"开源硬件组织"

先交代一下OCP是什么。

2011年，Meta（当时还叫Facebook）做了个决定：把自家数据中心的服务器、机架、电源设计全部开源。理由很务实——与其各家闭门造车，不如共享设计，让整个行业一起降本增效。

这就是开放计算项目（Open Compute Project）的起点。14年下来，OCP已经聚集了400多家会员，涵盖云厂商、设备商、芯片厂。它贡献的开放设计，从存储硬盘到网络交换机，正在全球各种规模的数据中心里运行。

Meta的FBOSS网络操作系统，就是在OCP框架下开源的代表作。现在，这套体系要往AI基础设施延伸了。

2、

以太网的"禁区"：AI加速器互联

问题出在哪？

AI训练集群的网络需求分两层。

第一层是"scale-out"（横向扩展），连接不同机柜、不同楼宇的服务器，这个以太网早就能胜任。

第二层是"scale-up"（纵向扩展），指的是单台服务器内部，多个GPU、TPU之间的超高速互联。

Scale-up场景的要求极其苛刻：亚微秒级延迟、无损传输、每秒数TB的吞吐。过去，这个市场主要是InfiniBand和各家芯片厂商专有协议的地盘。问题随之而来：

锁定效应严重。选了某家的加速器，往往就得配套它的网络方案，很难混搭。
成本居高不下。专有技术溢价高，采购议价空间小。
生态碎片化。不同厂商的方案互不兼容，系统集成复杂度直线上升。

以太网理论上有优势——技术最成熟，产业链最完整，芯片、光模块、线缆的供应商遍地都是。但在无损传输、拥塞控制这些scale-up的核心指标上，标准以太网确实还有短板。

ESUN的使命就是补短板。

3、

ESUN在做什么？

这个工作组的定位很清晰：专攻以太网交换层的技术改造。

具体来说，ESUN聚焦五个方向：

第一，搭建开放论坛。运营商、设备商、芯片厂可以在这里平等对话，共同制定scale-up网络的以太网方案。不是某一家说了算，而是行业共识。

第二，打通互操作性。让不同厂商的XPU网络接口和以太网交换机ASIC能够无缝对接。你用AMD的加速器，我用NVIDIA的交换机，接上就能跑，这才是真正的开放。

第三，啃技术硬骨头。ESUN的初期重点是L2/L3以太网帧结构和交换机制，目标是在单跳和多跳拓扑中实现无损、抗错误传输。简单说，就是让以太网在极端条件下也不掉链子。

第四，对齐标准组织。ESUN不是闭门造车，而是主动对接UEC（超以太网联盟）和IEEE 802.3工作组。制定的规范要能被业界认可，最终写进正式标准，这样才有生命力。

第五，激活生态系统。以太网的硬件和软件生态极其成熟，ESUN要做的是把这个生态的能量释放到scale-up场景。供应商多了，方案自然就多样化，采用速度也会加快。

有个细节值得注意。OCP其实还有另一个工作组叫SUE-T（Scale-up Ethernet Transport），专门负责XPU端点的传输层协议。ESUN管交换机，SUE-T管端点，两个组各司其职，拼起来才是完整的scale-up以太网方案。

创始成员阵容能说明一些问题：AMD、Arista、ARM、Broadcom、Cisco、HPE、Marvell、Meta、微软、NVIDIA、OpenAI、Oracle。既有AI芯片厂商，也有传统网络设备商，还有头部云厂商。这种跨阵营的组合，至少说明大家都不想继续被单一技术路线绑死。

4、

Meta拿出的"样板间"

Meta这次不只是搭台子，自己也下场演示了。

DSF：18432个XPU的无阻塞互联

去年峰会上，Meta发布了DSF（Disaggregated Scheduled Fabric），一种基于虚拟输出队列的调度架构。今年，DSF升级到2级拓扑，可以无阻塞连接18,432个XPU。

什么概念？这个规模能支撑一个横跨多栋数据中心建筑的超大AI训练集群。

全新的双级 DSF 架构支持无阻塞结构，可实现集群中更多 GPU 之间的互连。在 Meta，我们已利用该架构构建了规模相当于整个数据中心大楼的 18000 GPU 集群。

DSF的接口是标准RoCE（基于以太网的RDMA），兼容Meta自研的MTIA加速器，也兼容其他厂商的GPU和专用芯片。

NSF：为千兆瓦级集群设计

与DSF并行，Meta还开发了NSF（Non-Scheduled Fabric）架构。核心思路是用浅缓冲交换机+自适应路由，实现低延迟和高效负载均衡。

NSF——用于构建规模 AI 集群的三层非调度结构。

Meta的Prometheus项目——那个计划中的千兆瓦级AI超级集群，网络层就采用NSF方案。这套架构已经不是PPT，而是在实际部署中验证。

Minipack3N：多厂商芯片的开放平台

硬件层面，Meta新推出的Minipack3N交换机值得一看。51Tbps带宽，64个OSFP接口，采用NVIDIA Spectrum-4芯片。关键是，它运行Meta的FBOSS操作系统，遵循OCP-SAI标准。

Minipack3N 是一款基于 NVIDIA Spectrum-4 以太网交换 ASIC 的 51.2 Tbps 交换机（由 Meta 设计并由 Accton 制造）。

换句话说，即便底层用了NVIDIA的硅片，上层软件栈依然是开放可控的。此前Meta已经发布过基于Broadcom和Cisco芯片的同级别交换机，现在加上NVIDIA版本，形成了多供应商并行的局面。

这种"一套软件，适配多家芯片"的打法，正是开放标准的精髓。

光模块：降本和性能的平衡

连接层面，Meta推出了2x400G FR4-LITE光模块。传输距离从3公里缩短到500米，专门优化数据中心内部短距连接场景。距离换成本，价格大幅下降，性能不打折扣。

另外还有400G DR4和2x400G DR4模块，分别用于服务器网卡和交换机侧。这些模块已经在Meta的数据中心规模部署。

400G DR4（左）、2x400G DR4（中）和 2x400G FR4 LITE（右）。

5、

开放标准的现实逻辑

为什么大厂愿意开源自己的技术？

对Meta这类运营商来说，账很好算。开放设计打破了厂商锁定，采购时多了议价筹码。更重要的是灵活性——可以根据工作负载特点，自由组合不同厂商的芯片、交换机、光模块，而不是被迫接受捆绑销售。

对产业来说，开放标准降低了创新门槛。小厂商不用从零开始设计架构，直接基于OCP规范开发产品，能更快进入市场。供应链也因此更加多元和稳定。

以太网的产业基础无人能比。从PHY芯片到交换ASIC，从光模块到铜缆，成熟供应商数以百计。如果能把以太网拓展到scale-up场景，整个AI基础设施的成本结构都会改变。

当然，技术挑战不容小觑。多跳以太网在微秒级延迟、零丢包这些指标上能否稳定达标，需要大规模实践验证。ESUN提出的方案能否被IEEE等标准组织采纳，也需要时间和更多厂商的参与。

6、

对国内产业的启示

这件事对国内从业者意味着什么？

首先，OCP的所有技术贡献都是公开的。任何企业都可以免费获取设计文档、参考实现、测试规范。这是一个门槛相对较低的切入点。

其次，ESUN工作组的技术讨论是开放的。有能力的团队可以参与规范制定，甚至贡献自己的技术方案。在AI基础设施这个新战场上，游戏规则尚未完全固化，机会窗口还在。

再者，以太网产业链中国本就有优势。交换芯片、光模块、服务器集成，国内都有一批成规模的玩家。如果ESUN推动的开放方案成为主流，对产业链的带动作用不可小觑。

最后，要看到差距。Meta能搞出DSF和NSF这种架构，背后是多年的大规模集群运维经验和深厚的网络技术积累。国内企业要在AI网络这个领域占据一席之地，补课的路还很长。

7、

写在最后

AI算力竞赛的下半场，比的不只是芯片算力，还有整个基础设施的效率和成本。

Meta在峰会上明确表态，会继续在OCP框架下开源机架、服务器、存储、主板设计。ESUN只是开始，后续针对AI场景的开放规范还会陆续出现。

开放不是慈善，是大厂们在算力军备竞赛中寻找成本优势的理性选择。但客观上，这个趋势给了更多企业参与游戏的可能。

谁能在这波开放浪潮中站稳脚跟，谁就能在下一轮AI基础设施竞争中分到一杯羹。窗口期不会太长。

参考材料：

1.https://www.opencompute.org/blog/introducing-esun-advancing-ethernet-for-scale-up-ai-infrastructure-at-ocp

2.https://engineering.fb.com/2025/10/13/data-infrastructure/ocp-summit-2025-the-open-future-of-networking-hardware-for-ai/

END