存算一体写入十五五规划，谁在埋头解决通用与软件生态难题？

存算一体写入十五五规划，谁在埋头解决通用与软件生态难题？图1

存算一体走向产业化关键阶段。

作者 | 陈骏达

编辑 | 漠影

狂飙的AI，正给传统计算架构带来空前压力。

国家数据局最新统计显示，截至2026年3月，我国日均AI token调用量已突破140万亿。这一数据较2025年底的100万亿，在短短三个月内增长了40%以上；若与2024年初的1000亿相比，两年间累计增幅更是超过1000倍。

这些数据背后，是AI智能体、多模态交互、长文本推理等场景的全面爆发。目前，业内对单卡大吞吐、高并发、低功耗推理算力有着刚性需求，传统算力卡受限于存储墙与带宽瓶颈，难以匹配token处理需求的指数级增长，算力供需错配持续加剧，而存算一体技术恰能针对性破解这一难题。

过去几年，“存算一体”开始频繁出现在各类政策文件中，而在 “十五五” 开局之年，这一技术被提升至前所未有的战略高度：在十五五规划纲要中，存算一体、三维堆叠、光电融合，一同被列为下一代集成电路技术的前沿架构。

与此同时，中国的存算一体产业也正处于由概念导入迈向工程落地的关键阶段。一方面，围绕新架构的初创企业持续涌现；另一方面，部分团队已从原型验证走向产品化过程。

在这一赛道中，自2022年开始运营的亿铸科技，是国内较早布局的玩家。近期，智东西对话亿铸科技创始人、董事长兼CEO熊大鹏博士，围绕存算一体的技术演进、落地挑战与产业机会展开深入讨论，也为这一方向的现实进展提供了更具体的观察视角。

▲亿铸科技创始人、董事长兼CEO熊大鹏博士

01.

从 “冯・诺依曼架构” 说起

存算一体的技术本质与现实挑战

要理解存算一体的价值，我们首先要看看传统计算架构为何在AI时代，变得力不从心了。

冯·诺依曼架构是现代计算机的主流设计蓝图，它的核心思想是“存储程序”，即将程序指令和数据放在存储单元中，与计算单元分离，计算单元可以自动地从存储单元逐条取出指令和所需的数据并执行。

在AI时代，模型参数规模指数级增长。数据规模和访存需求增加，算力的增长，却撞上了 “两堵墙”——存储墙与能耗墙。

具体来看，当前算力增长同时受限于数据搬运效率和能耗约束：数据在存储与计算单元之间频繁往返，搬运开销不断攀升，带宽与延迟瓶颈使算力难以充分释放。

同时，数据搬运本身就会产生远超执行计算的额外能耗，也就是说，大量能量被消耗在运输路上而非实际工作中，根据图灵奖得主、计算机体系结构先驱约翰·轩尼诗（John L. Hennessy）的观点，目前AI计算过程中数据搬运的成本已经达到了计算成本的100倍。

存算一体（Computing in Memory）正是针对这一问题提出的架构思路，其核心在于将计算电路“嵌入”存储阵列或其周围，尽可能减少数据搬运和数据搬运距离。其核心目的，是让计算和存储的协同变得能耗更低、效率更高、延时更短。

以亿铸的存算一体产品为例，该产品依托架构原生的计算能力，提升了带宽利用效率与并发处理能力，有效满足了单卡大吞吐、大并发的实际需求。在长上下文、高并发推理场景中，该产品的能效与吞吐指标均实现突破。

尽管架构优势明确，但存算一体架构的AI大芯片在落地过程中仍面临多重挑战。

首先是算法快速迭代。在仍然处于算法快速迭代周期的AI领域，这一问题尤为突出。AI领域平均每2—3年便出现新的主流范式，这对底层硬件提出通用性需求。

其次是软件生态壁垒。当前AI开发高度依赖成熟的软件体系，尤其是以CUDA为代表的编程生态。

存算一体的新一代AI芯片必须做好通用性，并兼容主流软件生态，从指令集、架构、微架构、核心IP、编译器到算子优化工具，整个技术栈都需具备相应的设计能力和技术储备。

新架构若无法兼容主流工具链，将面临开发者接受度不高的问题。

再次是工程实现难度。不同存储介质在密度、功耗、读写性能等方面存在复杂工程问题，且存储介质的选择取决于AI应用落地场景。

最后是存算一体和通用计算的异构融合难题。存算一体本质上是一种专门为矩阵计算而生的计算单元，它需要和其他计算单元，比如CPU、逻辑计算等构成一个完整的计算系统，也需要消除异构融合存在的任务分工和切换的 “气泡”，从而达成性能的优化。

熊大鹏认为，存算一体AI芯片不是简单把存储介质和逻辑计算部分耦合在一起，而是从ISA指令集、架构、微架构、核心IP、软件栈全链条技术的体系化创新和自主可控。

如何实现不同计算精度、与其他计算单元高效协同、快速融入既有的软件生态、完成传统AI计算芯片承载的计算内容、实现全栈技术的自主可控，是除了“用存算一体技术实现矩阵计算”之外更难的技术高峰。

02.

通用化探索

从架构创新到生态兼容

目前，从计算方式来看，存算一体主要分为模拟存算一体和数字存算一体两大路径。

模拟存算一体利用存储介质的物理特性在模拟域完成乘加运算，但在器件一致性、精度及精度可信度、数据动态范围以及浮点计算等维度存在短板。

数字存算一体则是围绕存储单元集成逻辑电路来实现乘加运算，保持高精度及可靠精度、高能效比和大算力优势，更易与通用计算融合，可支撑高精度通用计算和大模型推理，也是目前业内的主流方向之一。

从存储介质来看，SRAM、NOR Flash、RRAM、3D DRAM、PCRAM等不同存储器各有所长。熊大鹏一共总结出了14个存储介质之间的差异点，包括密度、读写速度、读写次数、读写功耗、成本、良率、一致性、工艺兼容性、产能现状等等。

面临如此庞杂的选项，亿铸并未急于绑定某一技术路径，而是选择了 “通用存算一体” 的方向，熊大鹏也向我们解释了通用存算一体的三个维度：

第一是存储层面的通用性，即能否兼容不同存储介质；

第二是算力层面的通用性，即能否支持各类算法和模型；

第三是软件生态的通用性，即能否兼容主流生态和被更多开发者使用。

这三个通用性，恰好回应了目前存算一体在存储介质、算法迭代和软件生态三个维度上的核心难题。

存算一体架构目前的主要价值是两个维度，一个是贡献更低功耗，一个是贡献更大容量和吞吐，两者目前无法在同一存储介质上实现，因此就必然带来不同场景需求、不同取舍的优先级决定了不同存储介质存算一体芯片的设计选择。

亿铸已在实践中已尝试过两种将新型存储介质应用于存算一体的方案。这一架构的优势也在探索中显现：企业可以根据目标市场对容量、功耗、成本、性能的不同要求，灵活选择存储介质。在当下新型存储介质并进，标准尚未统一的阶段，这也成为了一种面向不确定性的架构保险。

在软件层面，兼容现有生态被亿铸视为关键策略之一。熊大鹏透露，其团队的实现路径是通过指令集层面对Triton和CUDA等主流生态进行兼容。不过，他也强调，兼容只是第一步：“能跑不代表跑得好，算子效率还需要持续优化。”通过编译器和自动优化工具实现算子自动生成和自动优化，极大减少软件工作量和加快应用部署时间，是通用存算一体的一大优势。

“软件生态不是口号，而是工程师用脚投票的结果”，熊大鹏认为，“只有被广泛使用的软件生态，才真正具备商业价值。”

03.

存算一体重心调整

政策信号趋于明朗

回顾亿铸的发展路径可以发现，其通用存算一体的路径并非一蹴而就，而是在不断尝试中成型。

熊大鹏回忆称，他曾在17年-19年专注于研发某创新架构，但在落地过程中遭遇软件生态和通用性巨大阻碍：“我们当时的创业认知是硬件性能更强就可以胜出，但后来发现，软件生态的兼容性和通用性同样关键。”这一经验也成为亿铸在存算一体赛道坚持在硬件架构创新的同时，兼顾生态兼容和通用性的重要原因。

而在存储架构的通用性方面，亿铸也经历了认知演变的过程。23年之前，产业对服务器级的AI算力卡的主流需求是基于75W功耗实现比T4更好的AI推理性能。

然而，自2023年开始，行业的重心向大模型和高存储容量倾斜。熊大鹏观察到：“大模型（2023年前后）流行后，核心问题变成了大容量、大带宽和token高吞吐率，同时功耗维持在合理的范围内。”

大容量、大带宽、低成本的3D DRAM，开始在这一发展阶段体现出价值。

早在2022年，亿铸便关注到了3D DRAM的潜力，并进行持续探索和技术储备。这些前置的技术探索，让亿铸在算法迭代中可以快速实现方案的迭代，满足大模型时代对 “大容量、大吞吐、低功耗、高性价比” 的AI大算力芯片的要求。

在中国半导体产业寻求自主突破与差异化路径的背景下，这一演进路径显得尤为务实。

在全球算力竞争格局中，传统路径高度依赖先进制程与高带宽存储。在外部环境不确定性加大的背景下，探索新的架构路径被视为提升国内半导体产业自主能力的重要方向。

熊大鹏认为，存算一体的价值在于从架构层面实现突破：“它可以用成熟工艺达到和超越先进工艺的性能，缓解对先进工艺和HBM等高带宽存储的依赖，为算力提供新的解法。”

从这一视角来看，十五五规划对存算一体的高度关注也显得更为顺理成章。熊大鹏说道，列入规划代表国家已经完成了技术原理论证与产业价值论证，政策信号已较为明确。

04.

结语：存算一体

走向产业化的关键阶段

从政策支持到企业探索，存算一体正逐步走出概念验证阶段，迈向产业化落地。在这一过程中，通用计算能力、软件生态兼容以及工程实现路径，将成为决定胜负的关键因素。

对于产业发展阶段，熊大鹏给出了一个形象类比，现在的AI就像3G移动互联网，雏形已现、令人兴奋，但贵、慢、还没有成为人们生活、工作中不可或缺的组成部分。真正的爆发，还需要持续提高性能、降低成本。

他将未来理想的AI算力定义为 “3+1”特征，即更低功耗、更高吞吐、更低成本，以及良好的软件生态。目前，国际主流厂商至多做到1+1，比如软件生态做的好，但无法实现功耗、吞吐、成本三者兼顾。而亿铸的团队正致力于用“通用存算一体”技术，实现真正的 “3+1” 闭环。

熊大鹏也认为，随着智能化时代进一步的发展，算法的发展已经带来更加多元的算力需求，存算一体不是万用良方，它有着很强的适用性，且和存储介质本身的物理特点和工艺现状息息相关，但它一定会和更早的CPU、GPU、TPU、NPU一样，在与其特点高度匹配的场景里发挥不可或缺的作用。