佛罗里达大学领导的一个研究团队,与加州大学洛杉矶分校和乔治华盛顿大学合作,开发了一种原型光子AI芯片,该芯片利用光进行卷积操作,与电子等效芯片相比,能耗降低了多达两个数量级。这一创新的核心是一种完全集成的基于菲涅耳透镜的架构,在芯片上执行二维空间卷积,且全部在模拟光学域中进行。
封装的光子联合变换相关器,包括硅光子芯片、定制印刷电路板和八通道光纤阵列。
该芯片是同类产品中的首款,通过被动衍射光学器件执行空间卷积,并单片制造在硅光子基板上。该原型为深度学习中最耗费资源的操作之一——卷积神经网络(CNN)中的乘累加(MAC)操作——实现了近零能耗计算。
测试结果和性能指标
研究人员使用一个训练用于分类MNIST数据集手写数字的CNN对芯片进行了测试,这是机器学习中的标准基准。该光子卷积模块被集成到网络的第一层,对输入图像应用学习到的内核。网络的其余部分采用数字实现,模拟混合推理流程。
研究报告显示,该芯片达到了98.1%的分类准确率,与纯电子推理流程几乎没有区别。但在能效方面,差异巨大。与传统的数字卷积引擎(基于CPU、GPU或FPGA)相比,该光子芯片将每次推理的能耗降低了100倍,预计操作能耗低至皮焦耳级。
光子联合变换相关器的示意图,包括硅光子芯片和芯片外控制器。
重要的是,该架构与波长无关,并支持波分复用(WDM)。通过为不同数据通道使用不同波长,可以在同一物理结构中并行运行多个卷积操作,从而在不增加占地面积或热负载的情况下扩展计算吞吐量。
对边缘AI的影响
这种光学CNN加速器解决了功率密度问题,这是部署边缘AI的最大瓶颈之一。随着CNN的深度和复杂性增加,卷积操作主导了计算预算。在紧凑的边缘设备(如传感器、无人机、可穿戴设备或植入式设备)中运行AI推理,不仅需要高效性,还需要热静默和占地最小化。
所制造的SiPh芯片的光学显微镜图像。
通过这种基于透镜的方法,计算是被动的、无风扇的且本质上并行的。它避开了电子加速器常见的内存带宽、数据移动瓶颈和热节流等问题。由于光的模拟特性允许连续值内核应用,因此也避免了量化或剪枝的妥协。
此外,由于该芯片采用标准光刻技术制造,因此可以与现有硅光子平台单片集成,或与CMOS后端配对。这使其比以往的自由空间光学或光纤耦合设计更实用,后者需要笨重的设置,不适合商业集成。
一种新的混合计算模型
该芯片并非完整的神经处理器,它仅处理卷积步骤。但通过将最耗能的前端计算卸载到光学领域,并将决策逻辑或全连接层留给传统硅电路,它定义了一种新的混合计算模型。未来的系统可能在同一基板上共同集成用于CNN的光子加速器、用于逻辑的数字控制器以及用于数据存储的内存阵列。
随着AI硬件竞赛的加速,此类创新指向了一个未来,在那里计算不再局限于电子和晶体管,而是扩展到光子、干涉以及光的根本属性。
该原型由美国海军研究办公室资助开发,并作为同行评议的硅兼容被动芯片上卷积演示,在《先进光子学》杂志上发表。
原文:
https://www.allaboutcircuits.com/news/optical-chip-beats-counterparts-in-ai-power-efficiency-100-fold
今日推荐:
欢迎加入 EETOP 微信群
明天直播,报名即将关闭!