公众号记得加星标⭐️,第一时间看推送不会错过。

今年早春,AMD、博通、Meta Platforms、微软、英伟达和OpenAI共同签署了光计算互连多源协议 (OCI MSA: Optical Compute Interconnect Multi-Source Agreement ),旨在统一人工智能基础设施,并为共封装光器件(CPO)的扩展网络制定规范。他们共同采用的架构是低速宽频非归零(NRZ)调制,并结合波分复用技术。OCI GEN1支持每个通道4个波长,传输速率为50 Gb/s,每根光纤每个方向的传输速率为200 Gb/s,其发展路线图最终将达到每根光纤每个方向1.6 Tb/s的传输速率。
该联盟解决了人工智能网络发展方向的架构争论。
该规范定义了架构的第一步,但留下了一个更棘手的问题:带宽如何持续扩展,以及四个波长之后的发展方向。路线图提出在同一光纤基础设施上增加波长以提升带宽,但并未具体说明将采用何种制造方法来实现这些波长的增加。
通往更多波长的道路
先行者已经解决了这个问题。OCI MSA 的创始成员认可四波长作为第一代 (GEN1) 的起点,Ayar Labs 多年来一直致力于八到十六波长的发展,而英伟达发布的路线图则将十六波长互连作为实现 MSA 所设定的能效目标的途径。
采用慢速宽频方案的决定是基于每比特能耗的考量。低符号速率和简单的编码方式相辅相成:NRZ 编码每个符号承载一位数据,而 PAM-4 编码每个符号承载两位数据,但要达到相同的误码率 (BER),所需的光功率大约是 NRZ 的三倍。NRZ 编码能够将 BER 控制在足够低的水平,从而降低前向纠错 (FEC) 的开销,保持延迟的低且可预测,并确保链路的能耗控制在预算范围内。在电功率方面,50 GBaud 速率下的 SerDes 的每比特功耗大约是 100 GBaud 速率下的三分之一。
随着带宽的扩展,这种机制必须得以维持,否则就可能倒退。波长倍增技术能够使链路保持在慢速宽带宽机制内,而符号速率的提升则会使架构脱离该机制。
现在,业界可以把波长数量的增加视为已定局,转而着手解决下一个问题:大规模制造稳定的精密激光阵列。
光子集成的三个时代
光子集成经历了三个制造时代。每个时代都受到与半导体行业每一次转型相同的驱动力:降低成本、提高可靠性和实现工业规模化。
第一阶段是分立式光器件组装时代。各个组件均采用特殊材料制成,经手工精密对准,并单独封装。系统功能的扩展意味着需要更多组件和更多组装步骤,而每一次光纤连接都可能成为代价高昂的故障点。由于良率下降,成本曲线在制造阶段就趋于平缓,甚至出现负增长。
第二个时代是硅光子学。包括调制器、波导和光电探测器在内的组件被集成到单个单片晶圆上,使得光子堆叠的一部分能够达到半导体工艺的成本曲线。硅部分的规模不再依赖于组装能力的提升,而是通过在单条生产线上处理更多晶圆来实现。这一突破是真实的,但并不完整,因为关键组件无法集成。难以处理的非硅III-V族增益材料是最大的障碍,成本曲线仍然不完整:高产量代工工艺与分立元件工艺在最苛刻的接口处存在瓶颈。代工流程无法集成激光器、半导体光放大器(SOA)和高速调制器。
第三时代,即所有光子材料在单个晶圆上的异质集成,终于到来。将III-V族增益材料与硅光子技术相结合,可以将激光器、半导体光放大器和高速调制器集成到单个晶圆级工艺中。完整的光子信号链集成在晶圆上,增益材料也成为晶圆工艺流程成本曲线中的一个环节,实现了晶圆级成本、规模化生产和可靠性的统一。
集成度不断提高的趋势势不可挡。这正是CMOS工艺在电子制造领域经历的转型:一种简洁高效的工艺,能够兼容各种新型器件,经过数代大规模发展,最终成为现代半导体产业的基石。光子学正在重演这一过程,恰逢其时地满足了人工智能数据中心的大规模部署需求。
波长阶梯
OCI GEN1规范采用四波长,传输速率为50 Gb/s NRZ,每个方向每根光纤的传输速率为200 Gb/s,MSA信道间隔为400 GHz。它作为一个实用的起点:足以在量产芯片上验证架构并协调供应链,但不足以支持下一代GPU,因为下一代GPU需要更高的单根光纤带宽。OCI GEN1设定的是首个最低多波长标准,而非最高标准。
阶梯式传输的每一步都缓慢而宽阔,因此每个通道的电子器件无需改变。密集波分复用 (DWDM) 阶段发生在波长为 8 或更高时,此时通道间距缩小。系统级带宽随波长数量的增加而扩展:通道越多,环路越多,每个通道的设计工作量不变。波长数量翻倍,带宽也翻倍,而设计成本却不变。8 个波长每根光纤每个方向可提供 400 Gbps 的传输速率,16 个波长则可提供 800 Gbps 的传输速率。在同一根光纤上进行双向传输可以进一步减少光纤数量,而且这一切都不需要更快的 SerDes、更深的 FEC 或 PAM-4,从而避免了功率和延迟方面的损失。
波长的变化改变了单根光纤带宽的成本曲线,并使扩展域能够从如今的几十个GPU扩展到未来的数千个GPU。激光源处的复用技术限制了光纤数量的增长,因此随着波长数量的增加,每个连接器的光纤数量不会呈爆炸式增长。
集群规模带来的最大收益并非原始吞吐量,而是其所能释放的潜力。更大、更扁平、低延迟的扩展域能够增加工作内存、扩展上下文窗口并添加Transformer层,这些因素共同支持更深层次的推理、更少的网络停顿以及更高的GPU利用率。如今的波长数量决策将决定最终集群在2028年及以后能够运行的模型数量上限。
这为系统架构师提供了除每比特能耗、延迟、单光纤吞吐量和传输距离之外的第六个指标:在同一制造流程中扩展波长的空间。关键问题在于,供应商的光源架构能否在不重新设计的情况下扩展到 8 波长、16 波长甚至更长的波长。如果答案是否定的,那么重新设计工作已经提上日程,并预留了两年的时间。
制造业决定曲线
OCI MSA提出的每方向每根光纤1.6 Tb/秒的传输速度路线图在理论上是可以实现的。更难的问题在于,哪种制造方法才能真正帮助行业实现这一目标。
离散激光供应链并非为超大规模生产而构建,两条结构路径以不同的方式遇到了同样的瓶颈。
共享激光路径通过合路器和分路器网络将多个激光器的光路汇聚,从而为多波长光源提供光源。分路损耗随通道数量的增加而增大:网络中每增加一个输出通道,就会消耗掉原本需要在输入端补偿的激光光功率。为了在更多通道上维持功率预算,每个激光器都需要付出更大的努力,驱动电流随之增大,可靠性裕度也随着波长的增加而降低。适用于四个波长的经济性无法推广到八个波长,更不用说十六个波长了。
专用激光路径每个波长使用一个激光器,当使用分立光学器件进行复用时,组件的复杂度与通道数呈线性关系。一个模块通过八根光纤提供 16 个波长,大约需要 128 个激光器、128 个光纤对准点和 128 个监测光电二极管。每个对准点都必须在温度变化、封装应力和多年的现场使用条件下保持微米级的精度,并且每个接口的故障率都会累积。
容量是制约因素。超大规模CPO每月需要数百万个激光源单元,而不是数万个,而无论采用哪种方案,离散激光方案都无法满足如此庞大的容量需求。这才是阻碍DWDM架构部署的关键所在,而非架构之争。架构之争终将在此落幕,而供应链问题却远未解决。
一旦下一个波长不再是分立元件组装步骤,而是成为硅光子晶圆上的另一个电路元件,那么增加波长的成本就会遵循半导体技术的学习曲线。异构集成提供了这条曲线,而OCI路线图也需要它。
光化学的CMOS
异质集成是弥合硅光子学自诞生以来一直存在的集成差距的制造方法。III-V族增益材料、调制器、光电探测器和波导在单个晶圆级流程中集成在一起。
这就是CMOS技术对电子行业的贡献。CMOS建立了一套单一的工业流程,它涵盖了各种晶体管类型,进而扩展到逻辑电路、存储器,最终扩展到更大的功能系列,所有这些都在同一代工厂流程中完成。每个新的器件系列都继承了该工艺的成本曲线,而不是另起炉灶。正是这种继承性使得CMOS技术能够代代相传:底层工艺的每一次进步都会提升基于该工艺制造的每一个器件的性能。这种“搭便车”的真正原因在于制造模式,而非晶体管本身。
再过两代,可扩展的互连架构将是一个多机架信号链,把数千个GPU绑定到一个统一的计算域中。原本承载四种波长的光纤网络,无需返工即可承载十六种波长,然后继续承载更多波长。激光器、调制器、光电探测器和光放大器都是硅光子晶圆上的电路元件,而不是组装成模块的部件。互连不再是组装问题,而是工艺节点问题。由于信号链不再跨越光纤接口和材料边界,每比特功耗降低,而封装边缘的带宽则随着集成密度的增加而提升。
如今那些按照这种架构进行设计的团队,将在该架构成为默认架构时占据主导地位。而那些推迟解决制造问题的团队,将需要两代人的时间,围绕那些早已解决制造问题的供应商重建项目。
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
END
今天是《半导体行业观察》为您分享的第4455内容,欢迎关注。
推荐阅读
★
★
★
★
★
★
★
★

加星标⭐️第一时间看推送


