史无前例!AMD、NVIDIA联手了,12家巨头要掀翻AI网络江湖

边缘计算社区 2025-10-14 22:25

一个不可思议的组合出现了。

10月13日,OCP全球峰会在硅谷开幕。AMD和NVIDIA——这对在GPU市场厮杀了二十年的老对手,第一次站到了同一阵营。它们联合Meta、微软、OpenAI、Broadcom、Cisco等共12家企业,宣布成立ESUN工作组(Ethernet for Scale-Up Networking)。

史无前例!AMD、NVIDIA联手了,12家巨头要掀翻AI网络江湖图1

这个联盟的目标很直接:用开放的以太网方案,挑战AI集群内部被专有协议垄断的高速互联市场。

为什么说史无前例?

因为这12家企业里,既有死对头(AMD vs NVIDIA),也有竞争对手(Broadcom vs Cisco),还有甲方和乙方(Meta、微软 vs 设备商)。能让这些巨头坐到一起,只能说明一件事:专有方案的"税",已经让所有人都受不了了。

史无前例!AMD、NVIDIA联手了,12家巨头要掀翻AI网络江湖图2

这不是简单的技术路线之争,而是一场关乎AI基础设施成本和供应链控制权的硬仗。


1、

一个存在了14年的"开源硬件组织"


先交代一下OCP是什么。

史无前例!AMD、NVIDIA联手了,12家巨头要掀翻AI网络江湖图3

2011年,Meta(当时还叫Facebook)做了个决定:把自家数据中心的服务器、机架、电源设计全部开源。理由很务实——与其各家闭门造车,不如共享设计,让整个行业一起降本增效。

这就是开放计算项目(Open Compute Project)的起点。14年下来,OCP已经聚集了400多家会员,涵盖云厂商、设备商、芯片厂。它贡献的开放设计,从存储硬盘到网络交换机,正在全球各种规模的数据中心里运行。

Meta的FBOSS网络操作系统,就是在OCP框架下开源的代表作。现在,这套体系要往AI基础设施延伸了。


2、

以太网的"禁区":AI加速器互联


问题出在哪?

AI训练集群的网络需求分两层。

第一层是"scale-out"(横向扩展),连接不同机柜、不同楼宇的服务器,这个以太网早就能胜任。

第二层是"scale-up"(纵向扩展),指的是单台服务器内部,多个GPU、TPU之间的超高速互联。

Scale-up场景的要求极其苛刻:亚微秒级延迟、无损传输、每秒数TB的吞吐。过去,这个市场主要是InfiniBand和各家芯片厂商专有协议的地盘。问题随之而来:

以太网理论上有优势——技术最成熟,产业链最完整,芯片、光模块、线缆的供应商遍地都是。但在无损传输、拥塞控制这些scale-up的核心指标上,标准以太网确实还有短板。

ESUN的使命就是补短板。


3、

ESUN在做什么?


个工作组的定位很清晰:专攻以太网交换层的技术改造。

具体来说,ESUN聚焦五个方向:

第一,搭建开放论坛运营商、设备商、芯片厂可以在这里平等对话,共同制定scale-up网络的以太网方案。不是某一家说了算,而是行业共识。

第二,打通互操作性让不同厂商的XPU网络接口和以太网交换机ASIC能够无缝对接。你用AMD的加速器,我用NVIDIA的交换机,接上就能跑,这才是真正的开放。

第三,啃技术硬骨头ESUN的初期重点是L2/L3以太网帧结构和交换机制,目标是在单跳和多跳拓扑中实现无损、抗错误传输。简单说,就是让以太网在极端条件下也不掉链子。

第四,对齐标准组织ESUN不是闭门造车,而是主动对接UEC(超以太网联盟)和IEEE 802.3工作组。制定的规范要能被业界认可,最终写进正式标准,这样才有生命力。

第五,激活生态系统以太网的硬件和软件生态极其成熟,ESUN要做的是把这个生态的能量释放到scale-up场景。供应商多了,方案自然就多样化,采用速度也会加快。

史无前例!AMD、NVIDIA联手了,12家巨头要掀翻AI网络江湖图4

有个细节值得注意。OCP其实还有另一个工作组叫SUE-T(Scale-up Ethernet Transport),专门负责XPU端点的传输层协议。ESUN管交换机,SUE-T管端点,两个组各司其职,拼起来才是完整的scale-up以太网方案。

创始成员阵容能说明一些问题:AMD、Arista、ARM、Broadcom、Cisco、HPE、Marvell、Meta、微软、NVIDIA、OpenAI、Oracle。既有AI芯片厂商,也有传统网络设备商,还有头部云厂商。这种跨阵营的组合,至少说明大家都不想继续被单一技术路线绑死。


4、

Meta拿出的"样板间"


Meta这次不只是搭台子,自己也下场演示了。

DSF:18432个XPU的无阻塞互联

去年峰会上,Meta发布了DSF(Disaggregated Scheduled Fabric),一种基于虚拟输出队列的调度架构。今年,DSF升级到2级拓扑,可以无阻塞连接18,432个XPU。

什么概念?这个规模能支撑一个横跨多栋数据中心建筑的超大AI训练集群。

史无前例!AMD、NVIDIA联手了,12家巨头要掀翻AI网络江湖图5

全新的双级 DSF 架构支持无阻塞结构,可实现集群中更多 GPU 之间的互连。在 Meta,我们已利用该架构构建了规模相当于整个数据中心大楼的 18000 GPU 集群。

DSF的接口是标准RoCE(基于以太网的RDMA),兼容Meta自研的MTIA加速器,也兼容其他厂商的GPU和专用芯片。

NSF:为千兆瓦级集群设计

与DSF并行,Meta还开发了NSF(Non-Scheduled Fabric)架构。核心思路是用浅缓冲交换机+自适应路由,实现低延迟和高效负载均衡。

史无前例!AMD、NVIDIA联手了,12家巨头要掀翻AI网络江湖图6

NSF——用于构建规模 AI 集群的三层非调度结构。

Meta的Prometheus项目——那个计划中的千兆瓦级AI超级集群,网络层就采用NSF方案。这套架构已经不是PPT,而是在实际部署中验证。

Minipack3N:多厂商芯片的开放平台

硬件层面,Meta新推出的Minipack3N交换机值得一看。51Tbps带宽,64个OSFP接口,采用NVIDIA Spectrum-4芯片。关键是,它运行Meta的FBOSS操作系统,遵循OCP-SAI标准。

史无前例!AMD、NVIDIA联手了,12家巨头要掀翻AI网络江湖图7

Minipack3N 是一款基于 NVIDIA Spectrum-4 以太网交换 ASIC 的 51.2 Tbps 交换机(由 Meta 设计并由 Accton 制造)。

换句话说,即便底层用了NVIDIA的硅片,上层软件栈依然是开放可控的。此前Meta已经发布过基于Broadcom和Cisco芯片的同级别交换机,现在加上NVIDIA版本,形成了多供应商并行的局面。

这种"一套软件,适配多家芯片"的打法,正是开放标准的精髓。

光模块:降本和性能的平衡

连接层面,Meta推出了2x400G FR4-LITE光模块。传输距离从3公里缩短到500米,专门优化数据中心内部短距连接场景。距离换成本,价格大幅下降,性能不打折扣。

另外还有400G DR4和2x400G DR4模块,分别用于服务器网卡和交换机侧。这些模块已经在Meta的数据中心规模部署。

史无前例!AMD、NVIDIA联手了,12家巨头要掀翻AI网络江湖图8

400G DR4(左)、2x400G DR4(中)和 2x400G FR4 LITE(右)。


5、

开放标准的现实逻辑


为什么大厂愿意开源自己的技术?

对Meta这类运营商来说,账很好算。开放设计打破了厂商锁定,采购时多了议价筹码。更重要的是灵活性——可以根据工作负载特点,自由组合不同厂商的芯片、交换机、光模块,而不是被迫接受捆绑销售。

对产业来说,开放标准降低了创新门槛。小厂商不用从零开始设计架构,直接基于OCP规范开发产品,能更快进入市场。供应链也因此更加多元和稳定。

以太网的产业基础无人能比。从PHY芯片到交换ASIC,从光模块到铜缆,成熟供应商数以百计。如果能把以太网拓展到scale-up场景,整个AI基础设施的成本结构都会改变。

当然,技术挑战不容小觑。多跳以太网在微秒级延迟、零丢包这些指标上能否稳定达标,需要大规模实践验证。ESUN提出的方案能否被IEEE等标准组织采纳,也需要时间和更多厂商的参与。


6、

对国内产业的启示


这件事对国内从业者意味着什么?

首先,OCP的所有技术贡献都是公开的。任何企业都可以免费获取设计文档、参考实现、测试规范。这是一个门槛相对较低的切入点。

其次,ESUN工作组的技术讨论是开放的。有能力的团队可以参与规范制定,甚至贡献自己的技术方案。在AI基础设施这个新战场上,游戏规则尚未完全固化,机会窗口还在。

再者,以太网产业链中国本就有优势。交换芯片、光模块、服务器集成,国内都有一批成规模的玩家。如果ESUN推动的开放方案成为主流,对产业链的带动作用不可小觑。

最后,要看到差距。Meta能搞出DSF和NSF这种架构,背后是多年的大规模集群运维经验和深厚的网络技术积累。国内企业要在AI网络这个领域占据一席之地,补课的路还很长。


7、

写在最后


AI算力竞赛的下半场,比的不只是芯片算力,还有整个基础设施的效率和成本。

Meta在峰会上明确表态,会继续在OCP框架下开源机架、服务器、存储、主板设计。ESUN只是开始,后续针对AI场景的开放规范还会陆续出现。

开放不是慈善,是大厂们在算力军备竞赛中寻找成本优势的理性选择。但客观上,这个趋势给了更多企业参与游戏的可能。

谁能在这波开放浪潮中站稳脚跟,谁就能在下一轮AI基础设施竞争中分到一杯羹。窗口期不会太长。

参考材料:

1.https://www.opencompute.org/blog/introducing-esun-advancing-ethernet-for-scale-up-ai-infrastructure-at-ocp

2.https://engineering.fb.com/2025/10/13/data-infrastructure/ocp-summit-2025-the-open-future-of-networking-hardware-for-ai/


END



声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI AMD
more
AI圈再颠覆!中国AI翻译耳机通话翻译,实测震撼
【硬件资讯】到底谁才是那个海王?OpenAI持续引动大量资本!软银追加投资,芯片层面也将展开更多合作!
【报告】Sora专题二:从工具到社交生态,Sora2引领AI多模态转型(附PDF下载)
OpenAI多点下注,联手英伟达、AMD、博通,狂揽26吉瓦算力
OpenAI、Anthropic、DeepMind联手发文:现有LLM安全防御不堪一击
《2025AI PC产业研究报告》重磅发布
美参议院推AI芯片“美国优先”:先供本国,再卖中国
AI大变革时代,一家智能手机方案提供商如何成为红海破局者?
加大投资,ABB机器人超级工厂启用全新AI赋能自动化喷漆车间
太空AI数据中心靠谱?中国抢先部署测试,美国紧跟节奏
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号