要理解存算一体的价值,我们首先要看看传统计算架构为何在AI时代,变得力不从心了。冯·诺依曼架构是现代计算机的主流设计蓝图,它的核心思想是“存储程序”,即将程序指令和数据放在存储单元中,与计算单元分离,计算单元可以自动地从存储单元逐条取出指令和所需的数据并执行。在AI时代,模型参数规模指数级增长。数据规模和访存需求增加,算力的增长,却撞上了 “两堵墙”——存储墙与能耗墙。具体来看,当前算力增长同时受限于数据搬运效率和能耗约束:数据在存储与计算单元之间频繁往返,搬运开销不断攀升,带宽与延迟瓶颈使算力难以充分释放。同时,数据搬运本身就会产生远超执行计算的额外能耗,也就是说,大量能量被消耗在运输路上而非实际工作中,根据图灵奖得主、计算机体系结构先驱约翰·轩尼诗(John L. Hennessy)的观点,目前AI计算过程中数据搬运的成本已经达到了计算成本的100倍。存算一体(Computing in Memory)正是针对这一问题提出的架构思路,其核心在于将计算电路“嵌入”存储阵列或其周围,尽可能减少数据搬运和数据搬运距离。其核心目的,是让计算和存储的协同变得能耗更低、效率更高、延时更短。 以亿铸的存算一体产品为例,该产品依托架构原生的计算能力,提升了带宽利用效率与并发处理能力,有效满足了单卡大吞吐、大并发的实际需求。在长上下文、高并发推理场景中,该产品的能效与吞吐指标均实现突破。尽管架构优势明确,但存算一体架构的AI大芯片在落地过程中仍面临多重挑战。首先是算法快速迭代。在仍然处于算法快速迭代周期的AI领域,这一问题尤为突出。AI领域平均每2—3年便出现新的主流范式,这对底层硬件提出通用性需求。其次是软件生态壁垒。当前AI开发高度依赖成熟的软件体系,尤其是以CUDA为代表的编程生态。存算一体的新一代AI芯片必须做好通用性,并兼容主流软件生态,从指令集、架构、微架构、核心IP、编译器到算子优化工具,整个技术栈都需具备相应的设计能力和技术储备。新架构若无法兼容主流工具链,将面临开发者接受度不高的问题。再次是工程实现难度。不同存储介质在密度、功耗、读写性能等方面存在复杂工程问题,且存储介质的选择取决于AI应用落地场景。最后是存算一体和通用计算的异构融合难题。存算一体本质上是一种专门为矩阵计算而生的计算单元,它需要和其他计算单元,比如CPU、逻辑计算等构成一个完整的计算系统,也需要消除异构融合存在的任务分工和切换的 “气泡”,从而达成性能的优化。熊大鹏认为,存算一体AI芯片不是简单把存储介质和逻辑计算部分耦合在一起,而是从ISA指令集、架构、微架构、核心IP、软件栈全链条技术的体系化创新和自主可控。如何实现不同计算精度、与其他计算单元高效协同、快速融入既有的软件生态、完成传统AI计算芯片承载的计算内容、实现全栈技术的自主可控,是除了“用存算一体技术实现矩阵计算”之外更难的技术高峰。 02.通用化探索从架构创新到生态兼容