
近期,北京大学人工智能研究院孙仲团队联合集成电路学院研究团队在《自然·电子学》上发表了一项重要成果,展示了一条突破传统计算架构瓶颈的新路径——基于阻变存储器(RRAM)的高精度、可扩展模拟矩阵计算芯片。这一成果不仅在计算精度上首次接近数字计算水平,更在能效和吞吐量方面实现了当前顶级数字处理器(GPU)百倍至千倍的提升,为人工智能和6G通信领域面临的算力挑战提供了全新的解决方案。
![]() |
在传统计算体系中,矩阵求解是信号处理、科学计算和神经网络训练的核心操作。然而,矩阵求逆等运算对输入误差极为敏感。数字方法虽然精度很高,但其计算时间复杂度往往可达到立方级别,计算量极为巨大。同时,随着摩尔定律逐渐逼近物理极限,冯·诺依曼架构遭遇了“内存墙”瓶颈,算力与能效的矛盾愈发突出。
在此背景下,模拟计算重新进入研究视野。模拟电路天然具备高并行、低延迟和低功耗的优势,但长期以来,由于存在低精度和难扩展的问题,模拟计算逐渐被数字计算取代,沦为“教科书中的旧技术”。该研究团队的工作正是针对这一难题,提出了基于RRAM的全新解决方案。孙仲表示:“如何让模拟计算兼具高精度与可扩展性,从而在现代计算任务中发挥其先天优势,一直是困扰全球科学界的‘世纪难题’。”
RRAM是一种新型非易失存储器,其电导状态可被精确控制并长期保持,非常适合用来表示矩阵元素。研究团队通过创新的电路设计与算法,将RRAM阵列构建为高精度、可拓展的全模拟矩阵方程求解器,通过新型信息器件、原创电路和经典算法的协同设计,首次将模拟计算的精度提升至24位定点水平。这意味着,模拟计算不再是“低精度”的代名词,已经能够在保持低复杂度的同时,满足重要应用的需求。
![]() |
实验结果
在性能测试中,该芯片在模拟大规模MIMO信号检测问题时表现出惊人的优势:在求解32×32矩阵求逆问题时,其算力已超越高端GPU的单核性能;当问题规模扩大至128×128时,计算吞吐量更达到顶级数字处理器的1000倍以上。而在能效方面更是在相同精度下比传统数字处理器提升了超过100倍。这一结果不仅验证了全模拟矩阵计算路径的可行性,也为未来高性能计算中心提供了关键技术支撑。更令人关注的是,该方案已在无线通信场景下完成应用验证,迭代三次便能达到32位浮点处理器的检测性能,显示出在实时信号处理中的巨大潜力。
从更宏观的角度看,这项研究的意义在于,它为后摩尔时代的计算架构变革提供了新的可能,通过器件、电路与算法的深度融合,模拟计算不再是数字计算的替代品,而是成为应对算力瓶颈的有力补充。
责编:Ricardo


