RISC-V+类TPU架构:国产算力实现从"堆砌"到"精耕"的范式跃迁

电子发烧友网 2026-02-11 07:00
电子发烧友网报道(文/吴子鹏)在AI大模型技术迅猛发展的今天,算力已成为决定模型性能与商业价值的关键因素。然而,随着模型参数量与训练计算量的激增,传统"算力堆砌"模式已难以为继。当前行业正经历从单纯追求规模向注重效率与生态的范式跃迁——长期以来,以GPU为核心的算力体系深陷“高功耗、高成本、生态锁定”的三重困境,而国产算力更是面临“跟随式创新”的瓶颈。
 
在此背景下,奕行智能推出的Epoch芯片率先采用RISC-V+RVV指令集架构,结合自研的VISA(虚拟指令集)技术和类TPU的双脉动矩阵计算引擎,不仅在算力效率、数据精度支持、生态兼容上实现突破,更推动国产算力完成从“规模堆砌”到“效率精耕”的关键一跃,为AGI时代的算力底层创新提供了中国方案。
 
算力困局:从“堆芯片”到“提效能”的必然转向
AI大模型的飞速发展,正倒逼算力产业进行一场深刻变革。数据显示,AI模型参数量和训练计算量的增长速度,已远超硬件算力的提升速度,算力供需矛盾日益突出。与此同时,大模型的发展模式也从“预训练主导”演进为“预训练→训练后优化→测试时推理”的三阶段扩展模式,推理需求迎来爆发,推动算力竞争的核心从“规模”转向“效率与规模并重
 
RISC-V+类TPU架构:国产算力实现从"堆砌"到"精耕"的范式跃迁图1
在传统模式下,“算力堆叠”是提升AI性能的主要手段——通过增加GPU数量、扩大集群规模来满足计算需求。但这种模式的边际效益正在递减,不仅带来高昂的硬件和电力成本,还面临算力利用率低、延迟高等问题。并且,长期以来,英伟达凭借CUDA生态构筑了近乎封闭的护城河。尽管不少国产芯片尝试通过“CUDA兼容”切入市场,但正如奕行智能所指出的CUDA是为英伟达硬件量身定制的钥匙,在英伟达的GPGPU上才能充分发挥其强大性能,而API层面的兼容普遍存在着水土不服的问题,且难以跟上其快速迭代节奏。
 
此外,随着大模型进入推理时代,Token成为核心产品形态。与软件近乎零成本复制不同,Token的生产以算力和电力为原料,提升算力利用率与能效,直接等同于降低推理成本、提高毛利率。在此背景下,以谷歌TPU为代表的领域专用AI计算架构(DSA)凭借突出的能效比崛起。高盛最近的一份报告指出,谷歌TPU v6 TPU v7,每百万 token 的推理成本降低了约70%
 
RISC-V+类TPU架构:国产算力实现从"堆砌"到"精耕"的范式跃迁图2
与兼顾通用性的 GPU 不同,TPU采取了精简的架构设计,砍掉与AI推理无关的图形处理单元,将宝贵的晶体管资源集中于大模型最核心的矩阵运算。其独特的脉动阵列架构,让数据如流水般在计算单元间连续流动,大幅减少了对寄存器的频繁读写。配合大容量片上 SRAM 缓存与高效的数据搬运引擎 DMA,TPU 显著降低了“数据搬运”这一主要能耗瓶颈。
 
谷歌TPU v7构建起规模达9216个TPU的“World Size”,并引入光学电路交换(OCS)技术,根据计算任务动态优化网络拓扑,实现高效定制化互联。在软件层面,谷歌借助XLA编译器及StableHLO中间表示层,实现对TensorFlow、JAX和PyTorch等主流框架的高效兼容,并通过OpenXLA开源项目构建起跨框架的通用编译生态,TorchTPU项目实现TPU对PyTorch的原生支持,显著降低开发者的迁移门槛。
 
与此同时,英伟达在GPGPU中持续提升DSA的比例,从Volta架构首次引入Tensor Core,到Blackwell架构进一步扩大张量核心规模并加入针对Transformer的优化引擎,体现出向领域定制化演进的趋势。
 
架构创新:RISC-V + 类TPU的双重优势
在这场全球AI基础设施的范式重构中,国内AI芯片企业奕行智能敏锐地捕捉到了行业趋势变革,创新性地将RISC-V的开放灵活性与类TPU架构的高效性相结合,打造出全新的AI计算底座。
 
不同于传统指令集的封闭性,奕行智能在业内率先采用RISC-V + RVV(向量扩展)指令集构建AI芯片架构并且率先支持RVV 1024 bit位宽,拓宽数据通道
 
相较于传统的X86和ARM架构,RISC-V在AI计算领域的优势尤为突出:
·开放的图灵完备指令:天然支持复杂控制流,可避免NPU的灵活性短板;
·RVV向量优势:天然契合AI张量计算,掩码操作原生支持稀疏矩阵;
·成熟生态借力:GCC/LLVM主流编译器已完全支持,主流AI框架正在积极适配;
·定制化潜力:允许在标准之上扩展专用指令,完美平衡通用性与专用性。
 
据介绍,奕行智能Epoch芯片的EVAMIND AI内核集成多组RISC-V高性能核。其中,RISC-V标量计算引擎负责核内计算和控制,支持双发射核内的VISA指令发射及调度运行;RISC-V向量加速引擎中,图灵完备的高性能RVV向量加速RV核,超宽的D-length及I-Length利用RVV扩展技术对AI常用的超越函数硬件指令化,大幅提升AI计算性能。
 
RISC-V+类TPU架构:国产算力实现从"堆砌"到"精耕"的范式跃迁图3
在内核设计上,奕行智能的Epoch芯片采用了与谷歌TPU相似的架构思路。
据介绍,该芯片集成了高性能RISC-V核与性能强大的双脉动流水矩阵运算引擎,其矩阵、向量、标量的精简架构设计,完全匹配大模型的计算特点,显著降低了传统 GPGPU 架构中用于调度与资源分配的额外开销(包含算力、带宽、编程投入等,通常占总开销的10%-20%),有效提高能效比与面积效率,打满算力。
 
其大尺寸矩阵运算引擎,采用类TPU的双脉动流水设计,数据复用率提升数倍,且显著减少了数据前处理的开销。相比同类方案,编程也更为简单易用,限制更少——例如几乎无需为规避bank冲突特意做手动编排,能够直接支持模型中开发难度大的卷积矩阵乘算子等。
 
面对AI计算中频繁出现的4D数据,奕行智能的高性能4D DMA引擎展现出明显优势。相比竞品往往需要多次数据搬移与处理,该引擎仅通过一次操作即可完成4D数据的整体搬移,并在过程中同步完成数据变换与重排。此外,通过配置大容量片上缓存,将热点与关键数据置于 L1/L2 中,其访问速度相比存放在 DDR 的方案提升1–2个数量级。其近存计算设计,让产品在实测中 Flash Attention 关键算子利用率相比竞品提升4.5倍。
 
奕行智能指出,该公司推出的国内业界首款RISC-V AI算力芯片Epoch及计算平台解决方案于2025年启动量产,目前正在大规模量产出货中。
 
除了RISC-V+类TPU,奕行智能的AI芯片还有一大创新,即精准卡位“低位宽高精度”技术浪潮。在深度学习领域,数据精度与计算效率始终存在权衡关系。例如,TPU Tensor Core FP8模式下可提供2倍于BF16的算力密度;IronwoodTPU v7)的FP8峰值算力达到4.6PetaFLOPS,而BF16仅为2.3PFLOPS20256月,NVIDIA正式发布NVFP4将大模型精度进一步压缩至4-bit,精度却接近BF16水准标志行业进入4-bit时代。
 
奕行智能AI芯片支持DeepSeek所需的基于分块量化的FP8计算精度,并在其新一代产品支持NVFP4、MXFP4、MXFP8、MXINT8等前沿的数据格式,可高效释放算力,大幅降低存储开销,助力客户在大模型时代以更低功耗、更小成本,获得更卓越的智能体验。
 
奕行智能自研的互联技术方案 ELink,支持超大带宽与超低延迟的 Scale Up 扩展,并且配合交换侧,已经实现对前沿在网计算技术的支持,意味着可将部分计算卸载至网络交换节点,而无需在计算卡间搬运大量数据,从而减轻带宽负担,降低通信延迟。
 
为了提升开发人员基于奕行智能AI芯片部署AI大模型的效率,奕行智能以独创的虚拟指令(VISA)技术在软件与硬件之间建立中间抽象层,上层的算子及AI编译器建立在VISA之上,而硬件则负责VISA宏指令的执行。这一设计巧妙地隔离了硬件迭代对上层软件的冲击,有效解决了芯片升级带来的软件兼容性挑战。同时,VISA通过软流水、循环展开等极致优化,解决了AI计算中高级Tensor操作直接编译到底层指令时性能陡降的行业痼疾。
 
RISC-V+类TPU架构:国产算力实现从"堆砌"到"精耕"的范式跃迁图4
针对AI数据规整性强的特点,奕行智能推出了Tile级动态调度架构。该架构由Tile级虚拟指令集、智能编译器和硬件调度器组成,原生适配当前兴起的Tile(如Triton、TileLang)编程范式。它能够自动管理指令间依赖、顺序流水和内存切分,不仅大幅提高了编程的易用性,更突破了静态优化的性能天花板。
 
同时,基于自研的ETK基础软件栈,奕行智能全面兼容PyTorch、TensorFlow、JAX等主流框架,提供丰富的深度优化高性能算子。目前,奕行智能正与Triton国际社区展开重量级合作,计划开源其虚拟指令集,合力打造RISC-V DSA领域的“CUDA”级生态。
 
结语
从“算力堆叠”到“精耕细作”,国产AI芯片正在探索一条属于自己的进阶之路。奕行智能通过RISC-V+类TPU的架构创新,确立硬件的高效与灵活;通过低位宽高精度的技术突破,高效软硬件协同以及动态调度架构实现商业成本的极致优化;通过VISA虚拟指令集架构、兼容主流框架的软件栈等,打破生态壁垒。这款正在大规模量产出货的Epoch芯片,不仅是奕行智能技术实力的集中展现,更是国产算力在AGI时代实现弯道超车、迈向高质量发展的一个重要缩影。
 

RISC-V+类TPU架构:国产算力实现从"堆砌"到"精耕"的范式跃迁图5

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
RISC-V
more
RISC-V创新中心的技术服务
RISC-V+行业智能 | 金刚C信创智能NAS存储重塑高校与科研院所数据基座
开芯院重磅发布 RISC-V 车规系列 IP EDGE-5-Sa:从硬核技术到量产突破,引领汽车芯片自主创新
北京人形天工平台核心运控系统率先完成国产RISC-V芯片验证
重磅发布|Powered by XuanTie,Qwen Inside:阿里通义大模型携手玄铁 RISC-V开启“端侧智能”新纪元
行业速递丨RISC-V+AI、国产RISC-V芯片突破、RISC-V生态加速拓展
赋能全球RISC-V形式化验证生态建设:阎明铸当选Sail RISC-V Model项目Collaborator
国产RISC-V AI算力芯片规模量产!类TPU架构迎爆发
RISC-V+行业智能 | 金刚V高通量智能视频存储筑牢智慧轨交安全防线
进迭时空再获数亿元融资,下一代 RISC-V AI 芯片  K3 即将发布
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号