

图片来源:DIGITIMES
在开放计算项目全球峰会(OCP Global Summit)上,博通(Broadcom)发布了共封装光学(Co-Packaged Optics,简称 CPO)技术的重大进展,宣称该技术已具备推动下一代 AI 计算集群变革所需的成熟度与可靠性。
博通表示,其最新架构使 AI 训练效率提升高达 90%,同时为光背板在大规模系统中替代铜缆铺平了道路。

图片来源:DIGITIMES
博通光学系统部门营销总监 Rajiv Pancholy 阐述了公司的 CPO 技术路线图,并分享了运营数据。数据显示,相较于传统电互联,CPO 技术如今能支持规模大得多的单节点 “纵向扩展” 领域。
超越铜缆:实现纵向与横向扩展
Pancholy 指出,当前的电背板(如英伟达的 NDL72)虽能实现机架内的纵向扩展,但要实现下一次飞跃,需依靠光背板实现整排设备的互联。
他表示,铜缆链路在带宽、传输距离和功耗方面存在局限,若不转向光互联,像 1024 颗 GPU 单节点这样的系统将无法实现扩展。
一个连接 16 个 GPU 机架和 4 个交换机机架、全规模运行的 200 太比特交换机,将完全依赖光连接。博通正与生态合作伙伴协作,优化光纤交换、盲插连接器、冷却和电源集成等关键组件,以确保此类系统具备可行性。

图片来源:DIGITIMES
经验证的可靠性:更低功耗、更高运行时间
博通及其超大规模合作方展示了验证 CPO 可靠性与效率的运营数据。Meta 的数据显示,共封装模块实现了 100 万小时无故障运行,证实其已具备支撑关键任务环境的能力。
功耗也达到了预期,每台设备约 5.5 瓦,相较于可插拔模块降低 65%,比每通道 100G 的低功耗设计降低 35%。
然而,最引人注目的数据是在 24000 颗 GPU 集群中观测到的 ——AI 训练效率提升 90%。这一成果得益于更高的平均无故障时间(MTBF),以及更少的 “链路波动”,而链路波动往往会导致训练过程从检查点重启。
简化AI 网络架构
CPO 技术还可能简化超大规模 AI 网络拓扑。如今,使用铜缆连接 50 万颗 GPU 需采用三层横向扩展交换架构,这会增加延迟、成本与功耗。而光背板可使同一系统在单层横向扩展网络上运行,通过纵向扩展以太网将纵向扩展与横向扩展领域整合为一体。
第三代CPO 平台 “Davidson” 登场
博通最新的 CPO 平台 ——“Tomahawk 6 Davidson”,每通道速率达 200G,总容量为 100 太比特。
为推进量产,博通正将引擎集成流程迁移至台积电,并将激光源标准化为 ELSFP 格式。此举旨在借助现有光模块供应链,降低量产难度。

图片来源:DIGITIMES
从后端部署到纵向扩展落地
Pancholy 强调,尽管 CPO 技术优势显著,但部署需分阶段推进。该技术将首先在后端横向扩展网络中广泛应用,收集性能数据后,再应用于 AI 集群中对故障极为敏感的纵向扩展领域(此类领域的停机成本极高)。
他未披露具体定价,但强调其价值核心在于整体系统效率。他表示,90% 的训练效率提升将为数据中心带来可观的运营成本节省。

图片来源:DIGITIMES
原文标题:
OCP Summit: Broadcom claims 90% AI efficiency jump, reshaping optical and interconnect supply chains
原文媒体:digitimes asia
