RISC-V进入NVLink生态：SiFive推动CPU接入主流AI计算系统的技术路线

芝能智芯出品

AI 计算平台的演进的趋势是算力规模持续放大，系统架构越来越异构，高带宽互连与软件栈协同成为决定性能上限的关键因素。

随着 NVLink Fusion 项目的推出，第三方芯片厂商可以通过 IP 授权与外部芯片组接入完整的 NVLink 网络体系，使 CPU、GPU 以及其他加速器之间实现高带宽、缓存一致的互连。

在 Arm、Intel 和 AWS 先后加入之后，SiFive 成为首家加入该生态的 RISC-V 厂商，对 RISC-V 在高性能 AI 系统中的定位具有象征意义。

对 SiFive 而言，接入 NVLink Fusion 的核心价值在于解决 RISC-V CPU 与 NVIDIA GPU 之间的高速互连问题。

当前主流 AI 训练和推理系统高度依赖 NVIDIA GPU，如果 CPU 无法通过 NVLink-C2C 这样的高带宽、低延迟互连方式与 GPU 协同工作，就很难进入高端 AI 基础设施的核心架构层。

通过 IP 授权方式将 NVLink-C2C 集成到未来的数据中心级 RISC-V 芯片中，SiFive 实际上为其 CPU IP 打开了进入主流 AI 系统设计的通道。

英伟达也通过引入 RISC-V 选项，为不希望采用 x86 或 Arm 架构的客户提供了更多选择空间，与其此前将 CUDA 和驱动体系扩展到 RISC-V 的战略形成呼应。

硬件互连只是高性能 AI 计算体系的一部分，真正决定 AI 工作负载效率的核心仍然是矩阵运算能力。

无论是大模型训练还是推理部署，矩阵乘法始终是最主要的计算热点。

RISC-V 在这方面的竞争力，很大程度上取决于其向量和矩阵扩展的设计，以及软件栈能否充分释放这些硬件能力，SiFive 在 2025 年北美 RISC-V 峰会上展示的 AI/ML 软件栈改进。

RISC-V 向量矩阵扩展（VME）的设计目标，是为矩阵乘法提供更高效的执行路径。

与传统基于向量寄存器的实现方式相比，VME 为结果矩阵 C 引入了专用的大型矩阵累加器状态，而源操作数 A 和 B 仍然通过标准的 RISC-V 向量寄存器提供。这种结构允许在累加器内部直接执行外积式乘法，减少中间数据搬运的开销。

同时，“胖 K”支持机制使得系统能够更高效地处理较窄数据类型，从而在 AI 推理等场景中提高吞吐效率。

由于累加器靠近算术单元布置，矩阵引擎可以实现更高的持续计算带宽，这为计算密集型 AI 工作负载提供了良好的硬件基础。

在软件层面，如何将这种硬件优势转化为真实应用性能，关键在于分块矩阵乘法（tiled matmul）的实现方式。

大规模矩阵运算如果直接按原始尺寸处理，会受到缓存容量、内存带宽和寄存器数量的限制。

通过将矩阵分解为多层次的分块，可以让外层数据驻留在缓存中，内层数据驻留在寄存器中，从而显著提升数据局部性并降低内存访问成本。

SiFive 展示的 tiled_matmul 伪代码清晰地体现了这种思路：外层循环按 tile_m、tile_n、tile_k 划分子矩阵视图，内层循环再按更小的 tile_m_v、tile_n_v、tile_k_v 执行寄存器级运算。

最终的核心操作仍然是对小块矩阵执行乘加累积，但整体结构更贴近硬件层级的资源分布。

分层分块策略在 K 维度较大的神经网络中尤为重要， IREE 在 RISC-V 平台上主要支持单图块 K 循环模式，源矩阵 A0 和 B0 只加载一次，结果累加到单个 C 图块中。

改进之后，多图块 K 循环允许将同一批源矩阵数据复用到多个 C 图块的更新过程中，例如 C00、C10、C01、C11 分别对应不同的输出子块。

这种方式显著减少了冗余加载次数，提高了运算强度，使内存带宽能够更集中地服务于计算本身，对于深度神经网络中常见的大 K 维矩阵乘法场景尤其有效。

支撑这一整套优化的核心软件基础设施，是 SiFive 深度参与构建的 IREE 体系。

IREE 基于 MLIR 构建，既是编译器框架也是运行时环境，能够将高层 AI 模型描述映射到具体的硬件执行路径上。

通过支持 PyTorch 等主流前端，IREE 可以接收来自大模型训练和推理场景的算子描述，并根据目标微架构应用特定的分割与并行策略。随后，经过 SiFive 优化的 LLVM 编译器与可扩展内核库生成底层代码，微内核（ukernel）进一步针对矩阵运算路径进行精细化优化。

运行时系统通过异步调度和任务管理实现操作间并行化，覆盖 Linux 和裸机等多种部署环境。

SiFive 的 AI/ML 软件栈呈现出明显的“软硬件协同”特征。

◎ 硬件层面提供面向矩阵运算的 VME 扩展，

◎ 软件层面通过 IREE 自动化分块、调度和代码生成，确保这些扩展在真实工作负载中能够被充分利用。

XM 系列处理器将 VME 集成到紧凑的核心设计中，使得 RISC-V 在 AI 推理和部分训练场景中具备可观的能效潜力。通过持续向 IREE 社区贡献多图块支持等关键特性，SiFive 也在推动 RISC-V 生态向更成熟的 AI 软件方向发展。

将这一软件栈进展与 NVLink Fusion 的战略动作放在一起，可以看到 SiFive 正在同时补齐“系统互连”和“算力执行”两个关键环节。

◎ 通过 NVLink-C2C 接入 NVIDIA GPU 生态，使 RISC-V CPU 有机会参与到高端 AI 系统的构建中；

◎ 通过 VME 和 IREE 提升自身在矩阵运算效率上的竞争力，为 AI 工作负载提供更高性价比的计算选择。

这种双线推进的策略，反映出 RISC-V 阵营对 AI 时代系统级竞争格局的清醒认知。

小结

RISC-V 在 AI 领域的发展路径与其开放 ISA 的定位高度契合。

指令集层面的开放性允许厂商根据应用需求设计专用扩展，例如面向矩阵运算的 VME；软件层面通过标准化编译器和运行时框架降低生态碎片化风险；

系统层面再通过高速互连技术融入主流异构计算平台，有助于 RISC-V 在边缘 AI、定制加速器以及部分数据中心场景中逐步建立存在感，SiFive 将 RISC-V 推向 AI 主流应用的长期意图，我们可以期待一下。