深度研究
从交换芯片到 Retimer,从 CXL 到 NVLink —— 谁在主宰 GPU 集群的「数据生命线」?
2025 年,一台 8 卡 H100 服务器的内部互联带宽需求已经突破 TB/s 级别。而在每块 GPU 的背后,都有一组你很少听说的芯片在默默工作——它们决定数据能否在 GPU、CPU、内存和存储之间畅通无阻。这些芯片,正是 PCIe 交换芯片和信号增强芯片。
本文将从技术原理、核心芯片、互联协议、主要厂商和未来趋势五个维度,为你还原 PCIe 芯片与互联技术的完整图景。
一、PCIe 是什么?为什么它如此重要?
PCIe(PCI Express)是连接 CPU 与 GPU、SSD、网卡等外设的高速串行总线标准,自 2003 年发布以来已历经七代演进。它的核心架构基于多通道绑定——通道数越多,带宽越高,常见配置为 x1、x4、x8、x16。
| PAM4 | |||||
PCIe 6.0 是真正的代际分水岭:首次用 PAM4 信令在不提高频率的情况下翻倍速率,并引入 FLIT 固定包模式,为前向纠错(FEC)和 CXL 一致性互联奠定基础。
推动 PCIe 持续演进的三大动力:GPU 互联需求(8 卡服务器需要 TB/s 级互联)、NVMe SSD 爆发(Gen5 x4 已达 14 GB/s)、CXL 协议承载(CXL 直接运行在 PCIe 物理层之上)。
二、核心芯片图谱:Switch 与 Retimer
PCIe 芯片产业的核心器件分为两类:负责数据路由的交换芯片和负责信号再生的增强芯片。
2.1 PCIe 交换芯片(Switch):数据高速公路的立交桥
现代 CPU 通常只提供 16-128 个 PCIe 通道,而 AI 服务器需要同时连接 8 张 GPU(每张 x16)、数十块 NVMe SSD、多张网卡和加速卡。PCIe Switch 解决了「通道不够用」的核心矛盾——它能将有限的上行通道扩展为数倍的下行通道,并通过交换矩阵实现数据包的智能路由。
其内部核心组件包括:上游端口(连 CPU)、下游端口(连设备)、交换矩阵(查表转发、仲裁调度)、缓存缓冲区和 SR-IOV 虚拟化引擎。
| Broadcom 博通 | |||
| Microchip 微芯 | PCIe 6.0 | ||
| Diodes 达尔 | |||
| ASMedia 祥硕 | |||
| 盛科通信 |
2.2 信号增强芯片:Retimer 与 Redriver
当 PCIe 速率提升到 32 GT/s(Gen5)乃至 64 GT/s(Gen6),信号在 PCB 走线、连接器和线缆中的衰减急剧增大,眼图闭合导致误码率飙升。Redriver 和 Retimer 是两种应对方案:
| 工作原理 | ||
| 直观类比 | ||
| 抖动处理 | 彻底重置抖动预算 | |
| 损耗补偿 | 28 dB+ | |
| 延迟 | ||
| 协议感知 | ||
| 适用场景 |
行业共识:PCIe 5.0/6.0 时代的 AI 服务器和高速背板场景中,Retimer 几乎为必选项。一台 8 卡 GPU 服务器通常配置 8-16 颗 Retimer 芯片。
| Astera Labs | PCIe 6.x / CXL 3.x | ||
| 澜起科技 | PCIe 6.x / CXL 3.x | ||
| 谱瑞科技 Parade | |||
| Broadcom 博通 |
三、新型互联协议:PCIe 之外的世界
PCIe 是通用 I/O 总线,但它有一个天生短板——不支持缓存一致性,且延迟偏高(微秒级)。当 GPU 需要直接访问 CPU 或另一块 GPU 的内存时,PCIe 的「CPU 中转」模式就成了瓶颈。于是,三种新型互联协议应运而生。
3.1 CXL:基于 PCIe 的一致性互联
CXL(Compute Express Link)是运行在 PCIe 5.0/6.0 物理层之上的协议层扩展。它通过三大协议子集补上了 PCIe 的短板:
CXL 三大协议
CXL.io——设备发现与配置(基于 PCIe 增强);
CXL.cache——CPU 与加速器的缓存一致性,延迟低至 200-500 ns,比传统 PCIe DMA(10 μs+)降低 95%;
CXL.mem——跨设备内存共享与池化,使 GPU 可直接访问 CXL 内存模块。
CXL 的核心杀手锏是内存池化——构建「CPU DRAM + CXL DRAM + GPU HBM」三级内存体系,按需动态分配,内存利用率可提升至 80% 以上。三星已量产 CMM-D(128 GB CXL DRAM 模块),阿里云宣布将推出首款基于 CXL 交换机的数据库专用服务器。
3.2 NVLink / NVSwitch:NVIDIA 的私有高速互联
NVLink 是 NVIDIA 独立于 PCIe 的私有芯片间互联协议,拥有独立的物理层和协议栈,是当前 GPU 互联的性能天花板:
| 1.8 TB/s |
NVLink 5.0 的单链路带宽是 PCIe 5.0 x16(128 GB/s)的 14 倍,且原生支持 GPU 间直接通信。但其封闭生态——仅 NVIDIA GPU 可用——是最大局限。
3.3 UALink:开放联盟的挑战者
2024 年,AMD、Intel、Google、Microsoft、Meta、Broadcom、Cisco 等联合成立 UALink 联盟,基于 AMD Infinity Fabric 技术,计划在 Broadcom 未来的 PCIe Gen7 交换机上实现标准化的 GPU 互联,直接对标 NVIDIA NVLink。
| 类型 | ||||
| 缓存一致性 | ||||
| 最大带宽 | 1.8 TB/s | |||
| 开放性 | ||||
| 典型场景 |
四、市场格局:千亿赛道,谁主沉浮?
4.1 市场规模
| PCIe 互连芯片(总计) | |||
Retimer 增速远超 Switch——AI 服务器出货量激增直接拉动需求,单台 8 卡 GPU 服务器需 8-16 颗 Retimer,2025 年中国 PCIe 互连芯片市场规模已达 52.40 亿元人民币,同比增长 28.6%。
4.2 竞争格局速览
三梯队格局
第一梯队:Broadcom(Switch 份额 ~70%,整体互连龙头)
第二梯队:Microchip(Switch 次席,Gen6 首发 3nm)、Astera Labs(Retimer 份额 ~60%)
第三梯队:澜起科技(Retimer 全球第二 10.9%,Gen6 首发)、Diodes、ASMedia、谱瑞
国产新势力:盛科通信、数渡科技(Switch 在研)、合见工软(PCIe IP)
一个关键数据:中国是全球最大的 PCIe 交换芯片市场,2024 年占全球约 48%,但国产化率不足 5%。这是半导体自主可控的重要攻坚方向。
五、核心公司一览
以下是 PCIe 互联芯片产业链中相关性最强的 10 家公司:
🔷 Broadcom 博通
美国 · Switch + Retimer
全球 PCIe Switch 份额约 70%,PEX89000 系列 PCIe 5.0 交换机广泛用于 AI 服务器。Switch + Retimer 组合方案覆盖数据中心全场景。
🔷 Microchip 微芯
美国 · Switch
Switchtec PFX/PSX 系列,2025 年 10 月全球首发 3nm PCIe 6.0 交换芯片,最高 160 通道,AI 加速器互联核心供应商。
🟢 Astera Labs
美国 · Retimer
PCIe Retimer 全球份额 ~60%,Aries Smart DSP Retimer 支持 PCIe 6.x/CXL 3.x,AI 服务器互联标杆企业。
🔴 澜起科技 Montage
中国 · Retimer + 内存接口
内存接口芯片全球第一(36.8%),PCIe Retimer 全球第二(10.9%),PCIe 6.x Retimer 全球首发,领先竞品 12-18 个月。
🟣 NVIDIA 英伟达
美国 · 私有互联
NVLink 5.0 双向 1.8 TB/s + NVSwitch 7.2 TB/s,GPU 互联性能天花板。Blackwell 平台 NVL72 机架级全互联。
🔷 Synopsys 新思
美国 · PCIe IP
全球 PCIe 控制器 + SerDes PHY IP 份额第一,已提供 PCIe 7.0 完整 IP 方案,芯片设计底层基础设施。
🔷 Cadence 楷登
美国 · PCIe IP
2023 年收购 Rambus SerDes/PHY IP 业务,与 Synopsys 构成双头格局,支撑 PCIe 6.0/7.0 芯片设计。
🟡 盛科通信
中国 · Switch(在研)
国内以太网交换芯片龙头,Arctic 系列 25.6T 已量产,正向 PCIe Switch 延伸,国产替代核心标的。
🟡 Diodes 达尔
美国 · Switch
低功耗低成本 PCIe Switch,业内唯一提供车规级(AEC-Q100)PCIe 交换芯片,嵌入式与汽车电子差异化竞争。
🟡 合见工软
中国 · PCIe IP + EDA
2025 年发布国产自主 PCIe 控制器 IP,打破 Synopsys/Cadence 垄断,国内芯片设计底层技术突围。
六、未来趋势
🔬 光学互联
PCI-SIG 已在 PCIe 6.4/7.0 中加入光感知 Retimer支持,「以光代铜」从概念走向标准化,传输距离从米级扩展至百米级。
🧠 CXL 内存池化
CXL 3.1 交换机芯片量产在即,「CPU DRAM + CXL DRAM + GPU HBM」三级内存池架构走向主流,有望将内存利用率提升至 80% 以上。
🇨🇳 国产替代加速
澜起科技 PCIe 6.x Retimer 全球首发、盛科通信 Switch 在研、合见工软 PCIe IP 突破,国产 PCIe 芯片正从「追赶」进入「并跑」阶段。
⚔️ 协议三足鼎立
PCIe/CXL 主导通用市场、NVLink 统治 NVIDIA 生态、UALink 争夺开放加速器市场——三种协议将在未来五年持续博弈,最终格局取决于生态规模与推进速度。
结语
如果把 AI 大模型训练比作一场马拉松,GPU 是肌肉,HBM 是心脏,那 PCIe 芯片就是遍布全身的血管系统——它们不直接参与计算,但没有它们,一切算力都是孤岛。
从 PCIe 5.0 到 7.0,从纯电信号到光电混合,从单一协议到 CXL/NVLink/UALink 多协议并存,从 Broadcom 一家独大到澜起科技异军突起——PCIe 互联芯片正在经历史上最快的技术迭代和产业重构。理解这个赛道,就是理解 AI 算力基础设施的核心命脉。
本文数据来源:QYResearch、Frost & Sullivan、PCI-SIG 官方规范、CXL Consortium、NVIDIA 官方文档、澜起科技 2025 年报、东海/太平洋/东吴证券研报
声明:本文仅供行业研究参考,不构成任何投资建议。

往期精选




FPGA技术江湖广发江湖帖
无广告纯净模式,给技术交流一片净土,从初学小白到行业精英业界大佬等,从军工领域到民用企业等,从通信、图像处理到人工智能等各个方向应有尽有,QQ微信双选,FPGA技术江湖打造最纯净最专业的技术交流学习平台。
FPGA技术江湖微信交流群

加群主微信,备注姓名+学校/公司+专业/岗位进群
FPGA技术江湖QQ交流群

备注姓名+学校/公司+专业/岗位进群
