CPO 为什么难:AI 集群里的光链路预算问题

智猩猩 2026-06-25 20:09

文章转载自公众号:平生半导体


本文只做学术/技术分享,如有侵权,联系删文。


如果把 AI 数据中心只理解成“堆更多 GPU”,很容易漏掉另一个正在变硬的瓶颈:数据怎么在芯片之间移动。


当数千到数万颗加速芯片被组织成一个训练或推理集群,单颗芯片的峰值算力并不会自动变成系统吞吐。芯片之间、交换芯片之间、机柜之间的数据流动,正在决定 AI 基础设施能不能继续扩展。


一句话先看懂:CPO 的难点不是把光模块搬近,而是让光、电、热、封装、连接器、测试和维护同时成立。


01

AI 集群真正缺的,不只是 GPU


过去讨论算力基础设施,焦点常在 GPU、HBM、先进制程和先进封装。但在真实的数据中心里,计算不是孤立发生的。训练大模型时,参数、梯度、激活值和中间数据需要不断在芯片、服务器和交换网络之间流动。


这意味着 AI 数据中心不仅需要更快的计算芯片,也需要更高速、更低功耗、更低延迟的数据通道。电互连在短距离内很强,但当带宽继续上升、距离拉长、端口密度增加时,损耗、串扰、功耗和散热都会成为系统问题。


光互连重新升温,核心原因就在这里:光更适合承担高带宽密度和较长距离的数据搬运。今天行业讨论的 CPOLPONPO硅光 和高速光模块,本质上都在回答同一个问题:AI 集群里的数据高速公路应该怎么修。


02

CPO 的核心,是把光靠近芯片


CPO 是 Co-Packaged Optics,也就是共封装光学。它的基本思路,是把光引擎放到交换芯片或计算芯片附近,缩短高速电信号路径,再让光纤承担更远距离的数据传输。


传统可插拔光模块通常位于设备前面板,通过电通道连接到交换芯片。速率越高,电通道上的信号完整性挑战越明显。CPO 希望把光电转换位置前移,让电信号少跑一些路,让光信号更早接手。


这个想法听起来直接,但工程上并不轻松。光引擎靠近芯片之后,封装、散热、供电、测试、维修方式都会被重新定义。过去坏了可以拔掉模块更换;CPO 把光学部分和芯片系统绑得更紧,系统边界也随之改变。


03

真正的难点:光链路预算


CPO 为什么难:AI 集群里的光链路预算问题图1

图 1:CPO 光链路中的每一段连接,都会影响最终链路预算。


理解 CPO,不能只看“光引擎离芯片多近”,还要看 链路预算。所谓链路预算,就是把一条通信链路从发射端到接收端的损耗、功率、噪声、裕量和成本算清楚。


链路预算有两本账:

一是 dB 损耗账:光从激光器出发,到接收端还能剩多少可用功率。

二是成本账:每一段连接、每个光引擎和每个高精度器件,能否支撑单位带宽成本。


以 CPO 链路为例,光可能经过外置激光源、保偏光纤、微型连接器、光引擎、硅光芯片、单模光纤和接收端。每经过一个器件或接口,都可能产生插入损耗、耦合损耗、偏振变化或温漂影响。


如果某一段损耗过大,接收端就可能拿不到足够清晰的信号;如果为了补偿损耗而提高激光功率,又会带来功耗、散热和可靠性压力。CPO 的专业门槛,正是在这些细节里一段一段累积起来的。


04

测试、连接器和维护,决定能不能规模化


CPO 的工程挑战不止在设计阶段,更在量产和运维阶段。传统光模块相对独立,可以单独测试、单独替换;CPO 则让光学器件更深入地进入封装和系统,测试对象从模块变成更复杂的电光系统。


这会带来几个关键问题:光路是否对准?连接器插入损耗是否稳定?偏振状态是否可控?温度变化会不会影响调制和探测?产线能否自动化测试?现场故障能否定位和维护?


这些问题看似琐碎,却决定 CPO 能否从技术样机走向数据中心规模部署。尤其在 AI 集群里,任何一个连接点的不稳定,都可能被系统规模放大。


边界判断:CPO 仍处于规模化推进阶段,不应写成已经全面替代可插拔光模块。它代表方向,但不等于所有场景都会立刻采用同一种路线。


05

CPO 不是唯一答案,xPO 仍在并行演进


CPO 为什么难:AI 集群里的光链路预算问题图2

图 2:从可插拔模块到 NPO/CPO,电路径缩短,集成度和维护难度同步上升。


行业里同时出现 LPO/NPO/CPO 等多条路线,说明问题还没有唯一答案。不同方案的本质差异,是光电转换位置、集成度、功耗、成本、可维护性和部署节奏之间的取舍。


可插拔光模块维护更方便,产业链成熟;NPO 把光学模块放得更靠近交换芯片,缩短电路径;CPO 则进一步提高集成度,把光引擎带入封装体系。越靠近芯片,潜在功耗和带宽密度优势越明显,但测试、维护和封装复杂度也会增加。


因此,未来一段时间更可能是多路线并行,而不是某个术语一夜之间统一市场。数据中心会根据速率、距离、成本、可靠性和维护模式选择不同方案。


06

结语:CPO 是系统工程,不是单点器件升级


CPO 的热度,来自 AI 数据中心对更高带宽、更低功耗互连的迫切需求。但它真正考验的不是某一个光器件,而是光、电、热、封装、连接、测试和运维能否形成完整闭环。


换句话说,AI 基础设施的竞争正在从芯片内部延伸到芯片之间。CPO 代表的不是一个孤立模块,而是 AI 数据中心互连从“模块级器件”走向“系统级工程”的过程。


参考来源

Semiconductor Engineering: https://semiengineering.com/cpo-will-dominate-scale-up-link-budgets-for-db-and-are-key/

Semiconductor Engineering: https://semiengineering.com/co-packaged-optics-testing-faces-steep-data-center-ramp/

C114 通信网: https://www.c114.com.cn/ftth/5472/a1311521.html

光纤在线: https://www.c-fol.net/news/3_202606/20260610193300.html


END


2026中国AI智能体大会

智猩猩主办的2026中国AI智能体大会7月2-3日杭州举行,大会设有开幕式,企业级AI智能体、AI智能体产品创新2场论坛,以及Coding Agent、自进化智能体、深度研究智能体、Computer-Use Agent、多智能体协同、Agent Skills、Agent Harness7场技术研讨会。最终议程已公布⬇️
CPO 为什么难:AI 集群里的光链路预算问题图3
CPO 为什么难:AI 集群里的光链路预算问题图4
CPO 为什么难:AI 集群里的光链路预算问题图5
CPO 为什么难:AI 集群里的光链路预算问题图6
CPO 为什么难:AI 集群里的光链路预算问题图7
CPO 为什么难:AI 集群里的光链路预算问题图8
CPO 为什么难:AI 集群里的光链路预算问题图9
CPO 为什么难:AI 集群里的光链路预算问题图10
CPO 为什么难:AI 集群里的光链路预算问题图11
CPO 为什么难:AI 集群里的光链路预算问题图12


CPO 为什么难:AI 集群里的光链路预算问题图13



点击下方名片 即刻关注我们

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
more
全球报名开启 | 首届RISC-V+AI挑战赛 HICOOL全新赛事落地亦庄
腾讯研究院AI速递 20260626
GTA6开启预购,Anthropic称又遭中国模型蒸馏攻击,张雪机车首次批量出口欧洲,谷歌前CEO批中国 AI 开源,这就是今天的其他大新闻!
进迭时空N200研发完成,国产RISC-V AI CPU补齐系统级算力关键一环
名字够火辣!OpenAI 发布首款芯片
读博最后一年转方向,拿到OpenAI offer:我的面试之路充满「意外」
OpenAI,开始造芯片了
往 Codex 里塞块无限画布,AI 改图终于能指哪打哪了|附教程
从「为模型造硬件」到「为人重做终端」:AI 硬件的下一个十年
亚马逊云科技数据库大佬G2:AI Agent正在倒逼数据库“进化”,重构不是唯一选择
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号