RISC-V进入NVLink生态:SiFive推动CPU接入主流AI计算系统的技术路线

芝能智芯 2026-01-20 09:02
芝能智芯出品

 

AI 计算平台的演进的趋势是算力规模持续放大,系统架构越来越异构,高带宽互连与软件栈协同成为决定性能上限的关键因素。

 

随着 NVLink Fusion 项目的推出,第三方芯片厂商可以通过 IP 授权与外部芯片组接入完整的 NVLink 网络体系,使 CPU、GPU 以及其他加速器之间实现高带宽、缓存一致的互连。

 

在 Arm、Intel 和 AWS 先后加入之后,SiFive 成为首家加入该生态的 RISC-V 厂商,对 RISC-V 在高性能 AI 系统中的定位具有象征意义。

 

RISC-V进入NVLink生态:SiFive推动CPU接入主流AI计算系统的技术路线图2

 

对 SiFive 而言,接入 NVLink Fusion 的核心价值在于解决 RISC-V CPU 与 NVIDIA GPU 之间的高速互连问题。

 

当前主流 AI 训练和推理系统高度依赖 NVIDIA GPU,如果 CPU 无法通过 NVLink-C2C 这样的高带宽、低延迟互连方式与 GPU 协同工作,就很难进入高端 AI 基础设施的核心架构层。

 

通过 IP 授权方式将 NVLink-C2C 集成到未来的数据中心级 RISC-V 芯片中,SiFive 实际上为其 CPU IP 打开了进入主流 AI 系统设计的通道。

 

英伟达也通过引入 RISC-V 选项,为不希望采用 x86 或 Arm 架构的客户提供了更多选择空间,与其此前将 CUDA 和驱动体系扩展到 RISC-V 的战略形成呼应。

 

硬件互连只是高性能 AI 计算体系的一部分,真正决定 AI 工作负载效率的核心仍然是矩阵运算能力。

 

无论是大模型训练还是推理部署,矩阵乘法始终是最主要的计算热点。

 

RISC-V 在这方面的竞争力,很大程度上取决于其向量和矩阵扩展的设计,以及软件栈能否充分释放这些硬件能力,SiFive 在 2025 年北美 RISC-V 峰会上展示的 AI/ML 软件栈改进。

 

RISC-V进入NVLink生态:SiFive推动CPU接入主流AI计算系统的技术路线图3

 

RISC-V 向量矩阵扩展(VME)的设计目标,是为矩阵乘法提供更高效的执行路径。

 

与传统基于向量寄存器的实现方式相比,VME 为结果矩阵 C 引入了专用的大型矩阵累加器状态,而源操作数 A 和 B 仍然通过标准的 RISC-V 向量寄存器提供。这种结构允许在累加器内部直接执行外积式乘法,减少中间数据搬运的开销。

 

同时,“胖 K”支持机制使得系统能够更高效地处理较窄数据类型,从而在 AI 推理等场景中提高吞吐效率。

 

由于累加器靠近算术单元布置,矩阵引擎可以实现更高的持续计算带宽,这为计算密集型 AI 工作负载提供了良好的硬件基础。

 

在软件层面,如何将这种硬件优势转化为真实应用性能,关键在于分块矩阵乘法(tiled matmul)的实现方式。

 

大规模矩阵运算如果直接按原始尺寸处理,会受到缓存容量、内存带宽和寄存器数量的限制。

 

通过将矩阵分解为多层次的分块,可以让外层数据驻留在缓存中,内层数据驻留在寄存器中,从而显著提升数据局部性并降低内存访问成本。

 

SiFive 展示的 tiled_matmul 伪代码清晰地体现了这种思路:外层循环按 tile_m、tile_n、tile_k 划分子矩阵视图,内层循环再按更小的 tile_m_v、tile_n_v、tile_k_v 执行寄存器级运算。

 

最终的核心操作仍然是对小块矩阵执行乘加累积,但整体结构更贴近硬件层级的资源分布。

 

分层分块策略在 K 维度较大的神经网络中尤为重要, IREE 在 RISC-V 平台上主要支持单图块 K 循环模式,源矩阵 A0 和 B0 只加载一次,结果累加到单个 C 图块中。

 

改进之后,多图块 K 循环允许将同一批源矩阵数据复用到多个 C 图块的更新过程中,例如 C00、C10、C01、C11 分别对应不同的输出子块。

 

这种方式显著减少了冗余加载次数,提高了运算强度,使内存带宽能够更集中地服务于计算本身,对于深度神经网络中常见的大 K 维矩阵乘法场景尤其有效。

 

支撑这一整套优化的核心软件基础设施,是 SiFive 深度参与构建的 IREE 体系。

 

IREE 基于 MLIR 构建,既是编译器框架也是运行时环境,能够将高层 AI 模型描述映射到具体的硬件执行路径上。

 

通过支持 PyTorch 等主流前端,IREE 可以接收来自大模型训练和推理场景的算子描述,并根据目标微架构应用特定的分割与并行策略。随后,经过 SiFive 优化的 LLVM 编译器与可扩展内核库生成底层代码,微内核(ukernel)进一步针对矩阵运算路径进行精细化优化。

 

运行时系统通过异步调度和任务管理实现操作间并行化,覆盖 Linux 和裸机等多种部署环境。

 

SiFive 的 AI/ML 软件栈呈现出明显的“软硬件协同”特征。

 

 硬件层面提供面向矩阵运算的 VME 扩展,

 

 软件层面通过 IREE 自动化分块、调度和代码生成,确保这些扩展在真实工作负载中能够被充分利用。

 

XM 系列处理器将 VME 集成到紧凑的核心设计中,使得 RISC-V 在 AI 推理和部分训练场景中具备可观的能效潜力。通过持续向 IREE 社区贡献多图块支持等关键特性,SiFive 也在推动 RISC-V 生态向更成熟的 AI 软件方向发展。

 

将这一软件栈进展与 NVLink Fusion 的战略动作放在一起,可以看到 SiFive 正在同时补齐“系统互连”和“算力执行”两个关键环节。

 

 通过 NVLink-C2C 接入 NVIDIA GPU 生态,使 RISC-V CPU 有机会参与到高端 AI 系统的构建中;

 

 通过 VME 和 IREE 提升自身在矩阵运算效率上的竞争力,为 AI 工作负载提供更高性价比的计算选择。

 

这种双线推进的策略,反映出 RISC-V 阵营对 AI 时代系统级竞争格局的清醒认知。

 

小结

 

RISC-V 在 AI 领域的发展路径与其开放 ISA 的定位高度契合。

 

指令集层面的开放性允许厂商根据应用需求设计专用扩展,例如面向矩阵运算的 VME;软件层面通过标准化编译器和运行时框架降低生态碎片化风险;

 

系统层面再通过高速互连技术融入主流异构计算平台,有助于 RISC-V 在边缘 AI、定制加速器以及部分数据中心场景中逐步建立存在感,SiFive 将 RISC-V 推向 AI 主流应用的长期意图,我们可以期待一下。

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI RISC-V
more
在RISC-V上释放AI算力:如意社区为Torch-CPU推理侧提供全面解决方案
Anolis OS 23.4 发布:全面支持 RVA23 RISC-V 架构,强化安全与云原生生态
江南大学:以教促研、以产育人,推动RISC-V“芯”实践
北京人形天工平台核心运控系统率先完成国产RISC-V芯片验证
行业速递丨RISC-V新产品测试、新应用突破、新平台成立
RISC-V+行业智能 | 金刚V高通量智能视频存储赋能煤炭行业智能化转型
英麒智能科技:聚焦RISC-V端侧AI多模态加速,构建开放协同的算力底座
隼瞻科技:ArchitStudio全面革新DSA处理器设计
【RVEI】佛山泛家居产业与“RISC-V+开源鸿蒙”生态协同发展闭门研讨会召开
中移芯昇携手达实物联网,共创基于RISC-V架构的国密门禁新篇章
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号