RISC-V+NPU+存算一体:多智能体端云协同与物理智能毫秒级响应的新计算架构

半导体产业研究 2026-03-10 18:25
 

 

国家大基金首次入股具身智能,RISC-V+AI赋能具身智能新纪元。3月11日下午,湾芯沙龙邀你一起解锁底层算力密码!

 

 

一、产业范式重塑:AI时代的算力主权路径

在大模型长上下文推理及实时具身智能场景下,算力需求呈指数级增长。RISC-V与存内计算(CIM的融合,不仅是技术层面的演进,更是实现算力主权与自主可控的非避让性战略支点。这种架构设计的底层逻辑源自中国传统的“算盘”理念——即将计算逻辑直接注入存储介质,实现计算与存储的物理一体化。在AI时代,通过架构创新而非单纯依赖先进制程突破,是国产算力实现“换道超车”的核心逻辑。存算一体架构能从根本上消除搬运开销,将能效比提升5-10倍,这使得在成熟工艺(如22nm)下实现等同于先进制程(如7nm)的算力密度成为可能,且成本可压缩约4倍。

二、 核心架构解析:微纳核芯 3D-CIM™ 与算力逻辑重定义

架构变革已从二维平面演进至三维垂直堆叠。微纳核芯NCC首创的  3D-CIM™  技术体系,通过将存储单元与计算逻辑在三维空间内高密度集成,彻底重定义了物理互联的带宽边界。

RISC-V+NPU+存算一体:多智能体端云协同与物理智能毫秒级响应的新计算架构图2
2.1 3D-CIM™ 的技术核心

带宽与 KV Cache 优化:  3D-CIM™ 提供的内部有效带宽远超外置 HBM3 方案,将 KV Cache 访问延迟压缩至极限,极大优化了大模型推理中的首字延迟(TTFT)。

99/1 算力分配:    RV-CIM™  异构架构中,99% 的张量(Tensor)计算由 CIM 阵列原位完成,而剩余 1% 的标量(Scalar)/控制流逻辑则由 RISC-V CPU 处理,实现了计算资源的最优配置。

物理指标:  微纳核芯公布的数据,相比传统架构,3D-CIM™ 实现了 4 倍以上的算力密度提升和 10 倍以上的功耗降低。

2.2 核心算力架构对比分析

微纳核芯的CIM架构相比传统GPU以及Groq 语言处理单元(LPU)架构,有如下优点。

RISC-V+NPU+存算一体:多智能体端云协同与物理智能毫秒级响应的新计算架构图3
2.3 物理互联、经济性与能效评估

3D-CIM™的核心在于利用混合键合(Hybrid Bonding)和垂直通孔TSV技术,将计算层与存储层紧密集成。

跨代制程红利:  3D-CIM™可以在 22nm成熟工艺 下实现比肩7nm先进制程 芯片的算力密度。该方案可将单位算力的成本降低约4倍 ,极大缓解了对先进制程设备及工艺的依赖。

能效比飞跃:  “原位计算”消除了总线上的长距离搬运,实现 5-10倍的能效比提升 。需指出的是,虽然未来实验室阶段的近阈值RRAM(阻变存储器)存算芯片可达到55.21至88.51 TOPS/W的极端能效,但当前基于SRAM/DRAM的3D-CIM已足以在商用层面支撑边缘大模型的部署。

三、RISC-V与存算一体的协同效应:开源指令集在专用加速中的角色

如果说3D-CIM是强劲的动力引擎,那么RISC-V指令集则是最灵活的“控制平面”。其模块化特性使其成为存算一体架构天然的搭档,有效避免了SoC设计中的“集成地狱(Integration Hell)”。

3.1  异构架构(RV-CIM™)逻辑拆解

RV-CIM™模型中,资源配置遵循最优效率原则:

99%的任务(张量计算):  由高密度的CIM阵列负责,实现极致吞吐。

1%的任务(复杂逻辑调度):  RISC-V CPU负责。 这种架构不仅提供了丰富的工具链支持,更通过“软件定义硬件”实现了灵活性。例如, 清微智能(TsingMicro)的可重构(RPU)技术 DeepSeek等模型推理中实现了3倍的能效提升,能够动态适配快速迭代的AI算法。

RISC-V+NPU+存算一体:多智能体端云协同与物理智能毫秒级响应的新计算架构图4
3.2 高性能演进与Turnkey方案

国产RISC-V内核已进入高性能阵列时代。 进迭时空(SpacemiT)K3 (符合RVA23标准)和 希姆计算NPC架构 ,通过支持FP8精度及1024位向量并行计算,构建了理想的算力底座。相比碎片化的IP授权,这种“交钥匙(Turnkey)”方案显著降低了下游厂商的开发门槛。

RISC-V+NPU+存算一体:多智能体端云协同与物理智能毫秒级响应的新计算架构图5
四、国产半导体价值链图谱:异构协作的深层网络

中国已构建起从基础 IP、芯片设计到系统软件的紧密协作矩阵,形成了以 RISC-V 为底座、CIM 为核心加速器的异构算力集群。

RISC-V+NPU+存算一体:多智能体端云协同与物理智能毫秒级响应的新计算架构图6
4.1 高性能演进矩阵

进迭时空 (SpacemiT):  其发布的  K3 芯片  是全球首颗符合 RVA23 标准的量产 RISC-V 芯片,主频达  2.4GHz K3 搭载 8 颗支持 1024 位宽向量并行计算的 X100 大核,并率先支持原生 FP8 精度。其单核性能对比 ARM A76,能够流畅运行 30B 至 80B 参数模型。

算能科技 (Sophgo):  凭借其高性能 RISC-V 处理器,其  SRA3-40  服务器已实现对 DeepSeek “满血版”(非量化)模型的本地部署支持,是智算中心国产化替代的关键力量。

希姆计算 (Stream Computing):  基于 NeuralScale  NPC 架构   STCP920 计算卡,在电信、金融等级别的长视频理解与高并发 OCR 场景中展现了卓越的 DSA(领域专用架构)优势。

4.2 存算一体先行者

清微智能 (TsingMicro):  依托  RPU(可重构计算)  技术实现“软件定义硬件”。在 DeepSeek 等推理任务中,其能效比提升 3 倍,成本降低 50%,标志着 CIM 已具备替代 GPU 的商用价值。

千芯科技:  专注于端侧多模态,其 AT690 芯片通过集成的芯来科技 U900 内核,在 22nm 工艺下实现了  24 Tops/W  的稀疏优化能效比。

4.3 生态基石

芯来科技 (Nuclei):  作为本土 RISC-V IP 龙头,其  NACC (Micro-NPU)  为存算一体芯片提供了标准化的协处理接口。

隼瞻科技(Wingsemitech):提供面向DSA(领域特定架构)的 RISC-V 专用处理器IP及NPU端侧AI 解决方案,以及ArchitStudio 和 Wing Studio 等敏捷开发EDA设计平台。

软件适配:  麒麟软件 澎峰科技 通过优化底层算子库与操作系统内核,确保了架构在 Linux 及 OpenHarmony 上的稳定运行,实现了软硬件的解耦与兼容。

五、战略协作与生态整合:兆易创新入股的资本信号

最近,微纳核芯官宣获得超亿元B轮战略融资,国产IC设计头部企业兆易创新(GigaDevice)战略投资微纳核芯,这一举措并非单纯的财务投资,而是存储巨头向下游算力市场的深度卡位。

国产 LPU 研发路径:  兆易创新利用其 NOR Flash/DRAM 资源,配合微纳核芯的 3D-CIM™ 架构,致力于开发具有极致 Token 生成速率的国产化 LPU。

市场份额目标:  兆易创新计划于 2027-2028 年推出 DRAM 存算一体芯片,目标直指 全球 18% 的市场份额 。预计届时每部 AI 手机中存算一体存储的价值量将达到 18 美元。

战略价值:  该合作完成了“感、存、算、控、连”五位一体生态的闭环,为中国企业在端侧 AI 手机、AI PC 等千亿级蓝海市场中夺取主导权奠定了基础。

六、高价值应用场景分析:从云端实时到边缘感知
6.1 云端长上下文与多智能体(AI Agents)

3D-CIM™ 架构通过“原位 Cache 处理”解决了大模型向 128K/1M 上下文演进时的显存带宽饥渴。在支撑大规模智能体集群时,终端与云端的成本配比通常维持在 1:2 至 1:3  之间,有效降低了系统的 TCO(总体拥有成本)。

RISC-V+NPU+存算一体:多智能体端云协同与物理智能毫秒级响应的新计算架构图7
6.2 移动终端与个人助手

 AI 手机场景下,基于存算一体的移动终端可实现 100-500ms 的低延迟感知响应。

案例:  搭载 3D-CIM™ 的终端可实现“帮我订一张明早 9 点去深圳的最优机票,并预订公司附近五星级酒店”的本地闭环操作。小米  MiMo-V2-Flash  模型在此类架构支持下,推理效率达 150 tokens/秒,成本仅为闭源模型的 2.5%。

6.3 物理智能(具身机器人)

具身机器人对“感知-决策-控制”三位一体的实时性要求极高。

毫秒级响应:  进迭时空 K3 芯片通过专用的双实时核与 10 路 CAN-FD 接口,在处理 30B 参数大模型时输出速率达 15 tokens/秒,首字延迟(TTFT)控制在 1 秒以内,确保了机器人电机动作在毫米级的精准控制。

七、产业挑战与未来展望:构建标准化算力底座
7.1 关键技术挑战

工艺良率:  目前 3D 堆叠工艺良率约  60% ,预计 2027 年需通过工艺优化提升至 80% 以上以降低规模化成本。

精度控制:  在实现高能效的同时,存内计算需解决模拟/数字混合信号在复杂任务下的精度损失问题。

7.2 标准化机遇

2025 年启动的“全球首个 RISC-V 存算一体标准”标志着中国正从技术的跟随者向定义者转变。该标准通过下设的 算子库、扩展指令集、工具链验证、生态推进 四个子工作组,旨在解决软件生态碎片化问题,实现软硬件全链路的标准化解耦。

7.3 未来三年趋势预测

1.架构融合深度化:  RISC-V 内核将与 CIM 单元实现“颗粒级”融合,形成原生 AI 处理器。

2.3D 堆叠常态化:  3D-CIM™ 将成为高性能推理芯片的标配,彻底缓解对 HBM 高端制程的依赖。

3.具身智能爆发:  物理智能硬件将成为存算一体芯片最大的增量市场,推动机器人从单任务向通用服务进化。

结论:定义AI 算力的“中国方案”

“RISC-V + NPU + 存算一体”的融合,是中国半导体产业在地缘政治挤压下,基于底层架构创新给出的必然回答。通过微纳核芯、兆易创新、进迭时空、算能科技等企业的深度协同,中国正利用 3D-CIM™ 与 RISC-V 的灵活性,在成熟制程上构筑起足以对标国际先进制程的算力护城河。这不仅是解决存储墙瓶颈的突破口,更是保障中国在AI下半场竞争中拥有自主、高效且可持续算力主权的核心战略。

RISC-V+NPU+存算一体:多智能体端云协同与物理智能毫秒级响应的新计算架构图8

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
RISC-V
more
中国电科58所(1):筑牢RISC-V技术产品矩阵,共推自主软硬件生态成熟
行业速递丨 RISC-V 协同创新、生态共建、技术多域突破
[生态进展] VSCode RISC-V 插件正式支持进迭时空(SpacemiT)AI 拓展指令集
TC1 RISC-V 芯片成功点亮、验证完成!欧洲超算自主可控里程碑
RISC-V+行业智能 | 金刚V:当卫星通信遇见RISC-V,窄带传输不再“窄”
昇显微电子:深耕RISC-V架构研发,打造自主可控的显示驱动芯片新生态
openEuler 24.03 LTS SP3 RISC-V 版本正式进入长期维护阶段
中移芯昇携手达实物联网,共创基于RISC-V架构的国密门禁新篇章
帕孚信息科技:引领PUF+RISC-V技术融合,赋能RISC-V安全新生态
力芯微电子:以RISC-V为核心驱动电源管理芯片创新,拓展物联网与汽车电子应用
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号