当AI集群突破万卡:铜线已死,光进芯片

电子工程专辑 2025-09-11 14:19

资讯配图


要说光通信的历史,大概可以追溯到上世纪七八十年代——当年美国已有电话公司开始商用基于光纤通信的电话系统了。至于光纤在整个互联网的应用,大部分读者应该在很多年前办宽带的时候就听过“光纤入户”之类的说法。


这次我们要谈的是相对短距(通常<2km)的光通信,且聚焦于一个计算集群,乃至一个计算节点内部的光通信:如芯片和芯片之间、板与板之间、跨机柜……毕竟在AI基础设施如此热门的时代,当计算需要动用到千卡万卡,它们之间的互通自然就成为了效率突破的重要议题。


实际在2007年,谷歌就已经开始尝试在数据中心内部用基于VCSEL光源、10Gbps的光收发器了——虽然早期部署应当还是用于机柜之间的通信,而非芯片到芯片。但随着技术和市场发展,从目前的公开数据来看,可插拔光模块市场规模2023年就已经达到85亿美元,2023至2032年年复合增长率(CAGR)预计达到11.3%——其中一大驱动力就是AI数据中心的需求(数据来源:“Pluggable Optical Module Market Research Report 2033”,DataIntelo)。


还有一些离散数据可做参考,某些研究机构认为,2027年单是400Gbps光模块的市场规模就能达到36亿美元,尤其能表现大规模数据中心发展需求。近两年光传输技术的大热大概还体现在2023年8月PCI-SIG组织组建光学工作组,专注于光信号传输PCIe标准相关工作;2024年PCI-SIG开发者大会上,演示PCIe 7.0光传输的就不止一家企业……


资讯配图


图1:数据中心领域光收发器的封装与传输速率对应关系。(来源:IDTechEx)


前不久的Keysight World Tech Day 2025媒体会上,是德科技除了向我们特别介绍为适配当代AI数据中心发展趋势推出的224Gbps采样示波器外——尤其面向光芯片、光模块厂商——还提及全球算力网络中,400Gbps速率光模块正成为主流,头部厂商则已经开始普及800Gbps方案,“更前沿的1.6Tbps技术也正加速落地”(图1)。


比如来自博通的达到1.6Tbps端口速度的交换机,单芯片交换容量已能达到102.4Tbps。今年这颗名为Tomahawk 6的交换芯片也相当热门。尤为值得一提的是,博通表示它既支持可插拔光模块,也支持共封装光学(CPO)——这颗芯片会有个名为TH6-Davisson的版本,即为Tomahawk 6的CPO版。


而本文要谈的主角正是光通信领域的未来:CPO乃至3D CPO。


走向CPO是必然


去年3月Intel展示光计算互联(OCI)芯粒(chiplet)研究成果时谈到,巨量参数规模的大模型训练和推理需要跨芯片、跨板卡、跨节点,面临越来越严峻的存储和通信墙问题,芯片、系统之间的通信就非常重要。如果说数据中心“以前是读一次数据,做几十、上百次计算”,那么到了AI大模型时代,“存算比”甚至可能达到1:1的程度,“对带宽要求很高”。


去年NVIDIA GTC开发者大会上,NVIDIA特别准备了一场闭门媒体会,由其首席科学家Bill Dally介绍NVIDIA Research目前正在做哪些事。Dally当时介绍的其中一个技术方向就是芯片与芯片间的传输考虑采用光通信技术,因为“铜(缆)差不多发展到头了”,尤其在考虑距离、带宽密度问题时。


今年GTC期间,NVIDIA CEO黄仁勋随即发布了基于CPO技术的NVIDIA Photonics硅光芯片——当然它应该不是Dally所说芯片间实现光通信的全部,因为NVIDIA Photonics只涉及到交换机ASIC芯片更紧密地接入光组件。只不过搭载这颗芯片的Quantum-X Photonics交换机预计就要在今年下半年问世了。再看博通这两年对CPO的持续下注,至少CPO在交换端是个就在眼下的技术——即便可能就计算端来看,发展进度还有些落后。


黄仁勋在GTC的主题演讲中为我们算了一笔账:假定一个数据中心内铺设100,000个服务器,总计400,000颗GPU;基于其现有光传输解决方案,需要搭配海量的光模块。现在常见的可插拔光收发器由激光器、光电路、DSP和其他电子器件构成——末端连接交换机,并且会在电信号和光信号之间做转换,光信号在光纤中传输。


这些光模块的耗电可达40MW。每个收发器都配有8个独立的激光器(激光光源)——单是这些激光器的功耗就能达到24MW。换句话说,对于一个配有40万GPU的计算集群及采用可插拔光模块的方案而言,有24MW的功耗必须用在激光器上。这占到了总计算功耗的大约10%。


资讯配图


2:GTC上黄仁勋展示可插拔光模块。


他在主题演讲中手拿市场上常见的可插拔光模块(图2),特别提到了其中的马赫-曾德尔调制器(MZM)。“这一个功耗就得30W,如果大量购入的话,那么价格可能在1000美元左右。”黄仁勋说,“一端是电、一端转成光,光信号再通过黄色线缆传输。”基于AI大量数据交换的高带宽需求,“每个GPU需要搭配6个光收发器,也就增加了180W功耗,以及6000美元成本。”


“它们不参与任何计算,而只是将信号搬来搬去。要知道6MW就相当于10个Rubin Ultra机架的功耗了,60MW就是100个——这些功耗原本是可以给Rubin芯片计算用的。”基于此,我们可以认为,成本和功耗是妨碍传统电子通信方案继续在现代AI数据中心做数据传输与交换的关键。


7月份的世界人工智能大会(WAIC)上,我们也看到曦智科技在其展位上展示“xPU-CPO光电共封装原型”、 分布式光交换(dOCS)芯片,以及光互连光交换GPU超节点(光跃LightSphere X)。媒体会上,曦智科技创始人、首席执行官沈亦晨就说,光模块正从相距处理器芯片(如GPU)较远的位置(如在超节点中,位于交换机之中的光模块和GPU可能相距1m以上),走向离处理器越来越近。


在此趋势下,可插拔光模块走向了近封装/板载光学(NPO/OBO)——此时光电转换芯片和GPU一样位于板卡之上,距离从1m缩短到10cm,互联密度也因此提升2至3倍。“去掉DSP芯片的话,还能进一步降低GPU通信延迟”;再靠近,走向共封装光学(CPO),也就是将光电芯片的距离缩短到mm级别,光芯片与电芯片同处一个封装内,还能“进一步提升互联带宽,降低传输延迟”(图3)。


资讯配图


图3:从可插拔光模块到3D CPO。(来源:曦智科技)


曦智科技解释说,越近的距离可达成的收益是越巨大的,不单是物理距离更近带来的价值。例如,去除DSP乃至前向纠错(FEC),都能有效降低延迟,最终在系统层面达成更高的算力利用率。


两个CPO芯片实例


图4就是曦智科技在WAIC展会上展示的xPU-CPO光电共封装原型,是和某国产GPU企业合作的成果:通过短距离SerDes连接,实现光电共封装,“将GPU上的信号直接转为光信号传出”。由于在同一封装基板内就集成了计算芯片和光学引擎,因此实现了近距离的光电互连。


资讯配图


图4:曦智科技在WAIC上展示的xPU-CPO光电共封装原型。(来源:曦智科技)


相较可插拔光模块,这种CPO架构显著缩短了信号路径,有效提升了信号完整性,降低了链路延迟,还大幅降低了功耗。曦智科技提供的数据是,xPU与光引擎超短互连,因此面板IO密度提升3倍以上,信号完整性与系统带宽同步增强。另外,“采用短距XSR SerDes,每bit能耗降低不少于30%”;加上“封装内信号路径优化,板上插损降低超10dB”——224Gbps速率下能够降低链路损失14dB。


如果要更近距离理解计算端的CPO技术,实则在去年3月的光通信及光网络展览会(OFC)上,Intel相对更详细地面向媒体介绍过自家的OCI chiplet研究成果,将硅光芯片die与另一片CPU die封装在一起,并在系统层面演示两颗CPU进行光通信。虽然不同企业在具体的实施方案上可能会有不小的差异,但这亦可作为CPO技术演示的参考。


Intel当时说OFC上的这则演示基于Intel硅光子技术完全集成的OCI chiplet,达成4Tbps双向传输速率,在数十米距离内单向支持64个32Gbps数据通道,上层协议兼容PCIe Gen 5。


从图5来看,这片所谓的OCI die主要有上下两层,上层为硅光集成电路(PIC),其中有完整的光学子系统,关键组成部分有片上激光器、半导体光放大器(SOA)等,其职能在于光电转换,包括信号调制、稳定和发出光信号。下层的电气集成电路(EIC)安装在带有集成微控制器、调制器驱动器和跨阻抗放大器的基板/封装上,与CPU对接,很大程度上成为上层协议的转换适配层。


资讯配图


图5:Intel的4Tbps OCI chiplet。(来源:Intel)


PIC与EIC这两片die是垂直堆叠在一起的;另外,其上似乎还有个能够组合可分拆光连接器的路径。这样一片“光电共封”的chiplet,和CPU再封装到一起。面向最终目标应用时,这里的CPU也可以换成其他包括GPU、IPU等在内的处理器。


OCI die的物理层具体实现是8个光纤对,每对承载8个波分复用(DWDM)的不同波长(每个波段频率间隔200GHz,总共占用1.6THz光谱),功耗5pJ/bit——据说仅为传统可插拔光收发器模块的1/3。


这则演示的亮点,除了实践芯片间光通信,还在于Intel把激光发生器、光放大器做到了硅晶圆上,或者说光学子系统是基于半导体生产流程去制造的。这么做能让光学系统的体积变得更小,功耗也更低。未来走向规模化,良率提升也会带动成本的下降。不过这也可能成为其暂时未能量产的原因之一。《电子工程专辑》网站去年对其中技术有过比较详细的解释。


上述两个案例都还没有进入到落地和大规模量产阶段,即便2024年时,Intel就说,面向可插拔光模块应用单独的PIC部分出货已经超过了800万;曦智科技也说,光引擎在技术层面基本已经准备就绪。但似乎还没有企业去断言,处理器计算这一端全面实现CPO光电共封装还需要多久。


但曦智科技在媒体会上也表示“看到目前行业中CPO的首个落地场景是交换机”。就像前文提到的NVIDIA Photonics和博通Tomahawk 6,都是用在交换机之中的CPO芯片。


细看NVIDIA Photonics


将CPO应用到交换机之中,其实质就是围绕交换芯片做硅光收发器的chiplet——光纤因此直接连接到封装之上。IEEE Spectrum上有关NVIDIA Photonics的文章“A Crucial Optical Technology Has Finally Arrived”中说,除了激光器之外,其他组成部分基本都可以放到单片封装内。激光器外置的原因主要是其材料是非硅的。“即便如此,CPO每8条数据连接通道也仅需一个激光器。”


这么做带来的具体收益,就在于NVIDIA宣传的3.5倍的能效提升,更高10倍的网络弹性——这个弹性应该是指抗干扰、抗打断能力更强,以及更快1.3倍的部署速度——毕竟简化了部署流程,降低了网络的复杂度。另外,资料中还提到,采用CPO技术的AI数据中心,只需要用到过去1/4的激光器,信号从一台设备到另一台设备的准时可靠性即可提升63倍。


要从微观层面了解NVIDIA Photonics芯片的构成,也就只能依靠图6了,毕竟GTC上NVIDIA并没有很细致地去谈这个问题。这张图展示的是应用于Quantum-X Photonics Switch交换机的交换芯片。


资讯配图


图6:NVIDIA CPO交换芯片的构成。(来源:NVIDIA)


除了中间的交换芯片(Quantum-X800 ASIC),周围的硅光引擎chiplet本身就是3D垂直堆叠,和前文提及Intel的OCI die相似,分为EIC和PIC上下两层。整颗芯片是2.5D和3D封装联用的。


台积电紧凑型通用光子引擎(COUPE)就是一种专用于硅光芯片的封装方案,基于SoIC、CoWoS先进封装技术,实现光和电组件的集成;另外,这种技术平台也可以集成微透镜(μLens)——其作用是在光纤和PIC之间做光信号的聚焦和对齐,以减少耦合损耗;芯片外围有光纤连接器;而激光光源模组也的确是外置的,从图6就看得出来。


值得一提的是,NVIDIA还强调这颗芯片基于微环调制器(MRM)——这是一种光调制技术,也就是把电信号转为光的方法。上述IEEE Spectrum的文章中说,硅光领域主要有两类调制器,分别是微环谐振器(MRR),和前面提到的MZM。可插拔光模块常采用MZM方案。


基于MZM方案的光通过波导后,被切分成两个并行的部分,再应用电场对其进行调制,改变光的相位,然后再结合成单波导。而MRM则基于环形波导:如果光在环内谐振构成驻波,则会提取出来——过滤出来的波长用于后续处理分析。


MRM具备更紧凑的特点,相比MZM的损失也更低;不过通常MRM对温度较为敏感,所以还需要配合更精准的温度控制电路。IEEE会士Clint Schow评价NVIDIA实现MRM硅光引擎量产是“工程壮举”。NVIDIA在当时的媒体会上说,这颗芯片背后有“数百专利,以及出色的生态系统技术合作伙伴支持”,目标就是要在AI时代充分利用CPO技术,提供出色的性能、效率和规模。


资讯配图


图7:NVIDIA CPO交换芯片上的硅光引擎chiplet。(来源:NVIDIA)


具体到Quantum-X Photonics交换芯片整体(图7),每颗CPO芯片配了18个硅光引擎chiplet——每个硅光引擎采用TSMC N6工艺,2.2亿晶体管、1000个集成的光器件;每个硅光引擎连接2个激光器以及16条光纤。一颗CPO芯片也就要连36个激光器、288条数据连接。此前NVIDIA曾发布过一个短视频,用于演示芯片的详细构成,感兴趣的读者可以去看一看。


走向3D CPO


然而,上述CPO方案仍旧不是终点。曦智科技在WAIC期间的媒体活动上介绍说:“最终光互连的方式,应当是光芯片和电芯片位于同一颗芯片之上,也就是3D共封装,将电芯片和光芯片堆叠在一起,实现更高效的数据传输。电芯片整体通过一个面的连接,(将信号)传导到硅光芯片——硅光芯片将信号往外传输。”


“3D CPO大概会比现在的互联方式再提高1至2个数量级的互联带宽。这是我们的愿景,相信5年内,它就有机会实现。”


这里的3D CPO听起来应当是一种从整个封装层面实现了3D化的方案,而不是像NVIDIA Photonics那样仅在交换芯片周围的那些chiplet之上采用3D结构,与交换die之间仍是横向放置的关系。从曦智科技给出的示意图来看,是硅光芯片整体叠在了数字处理器下方。


据IDTechEx发布的“Co-Packaged Optics 2025-2035: Technologies, Market and Forecasts”报告所述,3D集成方案将EIC置于PIC之上,通过各种先进半导体封装技术,包括TSV、高密度扇出、铜铜混合键和、有源硅光中介层等,以大幅降低寄生效应。同时,先进封装技术的采用也实现了更密集的间距、更高的性能。


但其和半导体制造传统3D封装工艺面临相似的问题,比如EIC产生的热会影响到PIC,故而需要对应的热管理方案。未来有机会,《电子工程专辑》将就3D CPO技术做更深入的研究和探讨。


沈亦晨在媒体会答记者问环节说:“光电共封装代表未来数据中心的芯片,比如交换芯片、GPU,都会配数个硅光芯片——这就好像现在的GPU都会配HBM一样——可能将来的GPU左右是HBM存储芯片,上下就是硅光芯片共封装了。”随着AI算力需求的持续走高,曦智科技描述的这幅图景大概率就在不远的将来。


(责编:Franklin)


THE END


关注“电子工程专辑”加小编微信

现已开放地区群,请发送消息【深圳】【上海】【北京】【成都】【西安】到公众号


FCC撤销七家中国实验室认证,和3C认证区别在哪?

2025-09-11

资讯配图

又一国产5G手机芯片成功流片

2025-09-11

资讯配图

EDA巨头将裁员10%,股价暴跌

2025-09-11

资讯配图

豪掷18亿!乐鑫杀入路由器芯片新赛道

2025-09-09

资讯配图

戴尔中国区大裁员,补偿曝光!

2025-09-10

资讯配图
资讯配图

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI 芯片
more
芯片巨头CEO承认战略失误,盘后股价暴跌近20%
马来西亚集成电路设计公司 Oppstar 与英业达合作开发 AI 芯片
芯片大厂,计划重组!
中国SRAM存内计算芯片,新进展
苹果3nm A19等四大芯片发布!
紧急赴台!日本TEL社长疑为芯片泄密案“赔罪”!
电源过冲,烧芯片的分析案例
a16z创始人:谷歌最强量子芯片Willow,证明了平行宇宙的存在
告别芯片过热!除了微通道还能用什么?
深圳市南山区-工业控制及车规级 MCU 芯片升级及产业化项目可行性研究报告
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号