
提升能效成为AI硬件演进的首要目标。

过去10余年,人工智能(AI)计算硬件的发展以提升算力规模为核心,以图形处理器(GPU)为代表的数字加速器支撑了模型参数从百万级扩展至万亿级。然而,算力堆叠的发展模式正面临显著的能效与成本压力:大模型训练和推理已成为数据中心的主要能耗来源,单卡功耗高达400~700W,整机功耗普遍超过1kW;在大规模推理场景中,主要挑战已从峰值算力转向单位能耗下的有效计算量,提升能效因此成为AI硬件演进的首要目标。
当前主流的AI芯片架构如图1所示,主要包括3种:存算分离、近内存计算和存算一体。前两种以冯·诺依曼架构为基础,特点是计算与存储分离,频繁的数据搬运造成“存储墙”和“功耗墙”问题。研究表明,传统芯片执行AI任务时,超过90%的能量消耗在数据搬运而非实际计算过程中。存算一体架构通过将计算嵌入存储单元,从体系结构层面减少数据搬运,其模拟计算形式进一步利用电信号的物理特性,在存储阵列内并行完成向量-矩阵运算,实现极低能耗。对于权重稳定、计算重复的AI推理及部分容错训练场景,模拟存算一体在能效密度与并行性上展现出显著优势。更重要的是,相比高度依赖先进制程的GPU,模拟存算一体有望基于28nm及以上成熟工艺实现量产,绕开对极紫外光刻(EUV)等先进光刻设备的强依赖,具备清晰的工程可行性与成本优势。该技术最初源于类神经计算等学术研究,但因受限于早期器件的精度和一致性不足,其发展长期停留在实验室阶段。近年来,随着AI核心计算稳定为向量-矩阵运算,加之存储工艺与混合信号设计的进步,该技术已步入工程化和产业化阶段。

在产业层面,Mythic、Syntiant等国际公司已在AI应用中验证了存算一体的高能效潜力,三星、英特尔等传统巨头也在积极布局相关技术;国内后摩智能、知存科技、仿生智芯等企业同样也在加速推进高能效存内计算。行业分析机构IIM数据显示,2025年全球存算一体市场规模已超80亿美元,预计到2030年,市场规模将以超过45%的年均增速扩张,展现出从专用AI领域向更广泛计算场景渗透的强劲趋势。
模拟存算一体计算范式
深度神经网络的核心运算是大规模、规则且可并行的矩阵乘法,其访存行为具有显著的结构化特征,主要体现在2个方面:一是数据流的可解耦性,即权重、输入和输出数据在访问模式和时序上彼此独立,允许在硬件设计中采用不同的存储与访问策略;二是数据的高度可重用性,权重可被多个输入重复使用,输入数据在计算中可多次复用,输出则采用本地累加、最终写回的方式。这些计算与访存特征为设计高能效的专用AI硬件指明了方向:权重参数稳定且重用性高,适合长期驻留在高密度存储器中;而输入与输出数据则具有明显的流式特性,可以与权重的存取过程分开处理。
模拟存算一体技术正是基于这一逻辑:它将神经网络的核心计算(即乘累加操作),直接嵌入到存储阵列内部完成,如图2所示。具体来说,权重以模拟状态固定于存储单元中,输入以模拟信号形式注入到阵列中,利用电压或电流的物理叠加特性,在单个计算周期内并行完成运算。这种物理并行的特性使模拟存算一体在单位能耗和计算密度上具有先天优势,能够大幅减少传统架构中因频繁搬运数据而产生的能耗开销,从而形成一种面向高能效AI计算的全新硬件范式。

大算力模拟存算一体架构
随着大模型在诸多核心业务场景的广泛应用,其数十亿至万亿级的参数规模对计算与存储系统提出了更高的并行扩展要求。为在有限时间内完成海量运算,存算一体系统需要从阵列规模、并行度以及组织架构3个层面进行系统优化。
具体而言,在大算力模拟存算一体系统中,计算的核心是采用分层、模块化设计的存算阵列,如图3所示。该阵列以二维结构为基本计算单元,可进一步划分为多个具备独立输入驱动与输出感测电路的子阵列。这些子阵列可组织为计算块,并通过共享外围电路在带宽与面积间取得平衡。在此基础上,多个计算块可通过并行复制与级联实现系统级扩展,从而在控制互联与调度复杂度的前提下,支撑更大规模的权重映射与并行计算。

为实现系统的高效运行,还需配套控制调度与接口模块。控制调度模块负责任务分配与多阵列协同,保障计算有序推进;接口与存储模块则负责参数加载、数据输入及结果回传,以实现系统在吞吐、延迟与可扩展性之间的整体平衡。
模拟存算一体宏单元电路
针对模拟存算一体系统中外围电路开销与精度问题,现有研究从2个方面展开优化。由图3可以看出,外围电路中高分辨率模数转换器(ADC)和数模转换器(DAC)会显著增加系统面积与功耗,由此衍生出两类优化路径:一是降低或去除转换器,采用时间编码、电流积分等模拟处理方式直接获取结果以简化电路;二是保留ADC,但通过降低分辨率、共享复用等方式降低开销。与此同时,为满足不同任务对精度与功耗的差异化需求,可灵活配置的ADC结构逐渐成为重要发展方向。
在精度层面,由于模拟电路易受器件失配、寄生效应等因素影响,大规模阵列中的误差会被放大。为此,学术界已形成“算法-架构-电路”协同校正策略:算法层面,利用神经网络对数值误差的容错性,结合再训练等方式吸收硬件偏差;电路层面,通过鲁棒感测和变化感知的ADC设计提升容错能力;架构层面,通过数据映射优化与冗余计算抑制误差累积。这种多层次协同优化是实现模拟存算一体系统实用化的重要支撑。
模拟存算一体系统芯片
为了将模拟存算一体阵列的大规模算力有效转化为实际部署的计算能力,模拟存算一体系统需在单芯片上实现从控制、数据传输到计算与回传的完整闭环。这需要集成通用处理器(CPU)、静态存储器(SRAM)、控制器(SIMD)与路由器(Router)等关键硬件模块,构成完整的系统芯片。为此,芯片通常采用“通用指令+领域扩展指令”的指令体系:通用指令负责控制流与状态管理;领域扩展指令则针对存算一体阵列,直接支持阵列配置、权重加载、数据注入、计算触发及结果读取等关键操作。这一设计能以较低的软件开销驱动大规模并行计算,并为不同神经网络层的计算映射提供统一接口,从而在系统层面实现高效、可扩展的计算支持。
在系统芯片内部,通常集成轻量级CPU和片上SRAM,分别用于指令解析、任务调度、异常处理及数据缓存,减少对外部存储的频繁访问。此外,专用调度单元负责管理任务队列、分配计算资源并协调执行时序,支持阵列间的并行与流水线操作;外围接口模块则连接主机与片外存储器,完成模型加载与数据传输。通过控制、存储、调度和接口模块的协同,该系统能够在实现算力规模扩展的同时保持可控的管理开销,从而为大规模模型部署提供可扩展的硬件支持。
模拟存算一体系统芯片的发展趋势
趋势一:从追求算力密度转向系统级可靠与能效平衡。未来,模拟存算一体芯片的发展将超越单一阵列的能效优势,聚焦于解决大规模扩展中的系统性挑战。核心在于通过电路-架构协同设计,在存储介质非理想效应、外围电路(如ADC)开销与计算精度之间取得系统级平衡,确保技术在高密度、可制造的条件下实现稳定可靠的部署。
趋势二:从硬件加速演进为“异构计算单元”的深度协同。模拟存算阵列将不再仅是受控的协处理器,而是与CPU深度融合的异构计算单元。其演进方向是通过硬件抽象(专用指令集/接口)实现极低开销的调用与控制,并与片上存储、数据通路进行能力匹配,最终在系统层面实现计算、存储与控制资源的无缝协同与负载均衡。
趋势三:从专用硬件依赖走向全栈软件定义与生态融合。技术的规模化应用,其决定性因素将从硬件峰值性能转向全栈软件能力。未来趋势是构建完整的工具链,实现从主流框架模型自动编译、优化映射到动态调度的全过程,并通过与开放生态融合,显著降低开发与部署门槛,使高性能硬件能力可被便捷、稳定地调用。
总结与展望
综合来看,存算一体已从早期技术探索演进为覆盖端、边、云多层级的系统性产业方向,正持续重塑AI计算的成本结构与算力供给模式。随着大模型与智能应用进入长期化、规模化阶段,高能效算力的目标已从单纯的性能优化升级为满足数据中心与智能系统的基础设施级需求,为存算一体技术提供了清晰而持续的市场牵引。可以预见,随着技术成熟、生态完善,以及资本投入的不断深化,存算一体将逐步走出实验室与小规模试点,成长为支撑下一代AI计算体系的重要产业支点,不断释放出潜在的市场价值与战略意义。




