
#科技区角科技商业资讯,RISC-V生态参与者
高性能计算长年来一直都是以 x86 架构生态为主导,过往十年,在 TOP500全球最强超级计算机榜单中,近九成的超级计算机都基于英特尔技术。而如今,这一比例已降至 57%。
英特尔或许曾在高性能计算(以下简称:HPC)领域占据绝对主导地位,但其影响力正不断减弱。如今,其他类型的处理器正取得重大进展,逐步抢占市场。
自 20 世纪 70 年代中期Cray率先推出向量处理器以来,超级计算的发展便呈现出阶段性演进的态势。
此后,精简指令集计算(以下简称:RISC)架构应运而生,随之出现的芯片包括 64 位的 DEC Alpha、IBM POWER、Sun / 富士通 SPARC、SGI MIPS 以及惠普 PA-RISC 等。这些芯片各自具备独特的性能特征:其更简洁的指令集不仅实现了快速的指令解码与流水线处理,相比基于向量的系统,还能适用于更多通用型应用场景。
商用集群时代的来临
RISC 架构此前面临的核心问题在于成本问题。小批量生产的 RISC 芯片,其成本远高于 x86 这类商用芯片。美国国家航空航天局(NASA)早在上世纪 90 年代就意识到了这一点,并于 1994 年开始将英特尔芯片应用于其 “贝奥武夫”(Beowulf)超级计算集群。这一实践证明,将廉价芯片以并行方式运行,不仅能在性能上接近甚至达到专用硬件的水平,还能大幅降低成本。
在这一探索的基础上,英特尔于 1997 年推出了ASCI Red 超级计算机。该计算机搭载了 9152 颗原本为工作站设计的奔腾 Pro 处理器,成为全球首台运算速度达到万亿次浮点运算(teraFLOPS)级别的超级计算机。
英特尔稳步发展,而 GPU 的重要性日益凸显
英特尔虽在上述基础上持续占据市场优势,但随着图形处理器(GPU)技术的发展,GPU在产业内的重要性已愈发显著。2006 年,英伟达推出了 CUDA 技术,这一产品将GPU转变为了通用计算设备,大幅提升了并行数据处理任务的运算速度。
然而,GPU 仍需依赖 CPU 来处理部分计算任务。
那些需由 CPU 承担的任务包括作业调度、工作流管理、输入 / 输出(I/O)操作,以及难以并行化的标量运算。Cambria-AI Research 的创始人兼首席分析师卡尔・弗罗因德解释道:“比如计算一组数字的平均值,在这类任务上,GPU 的运算速度并不比 Arm 芯片或 x86 芯片更快。因此,当你完成一个计算层,进而需要在各个节点间计算平均值时,交给 Arm 芯片来处理就足够了。”
随着产业的发展,无论是英特尔还是 AMD 生产的 x86 芯片,越来越多地与 GPU 协同工作,共同承担繁重的并行计算任务。例如,2012 年,美国橡树岭国家实验室(Oak Ridge)的 “泰坦”(Titan)超级计算机就凭借独特的架构登顶 TOP500 榜单,该计算机包含 18688 个节点,每个节点均搭配 AMD 皓龙(Opteron)CPU 与英伟达 K20 GPU,运算速度达到 17.6 千万亿次浮点运算每秒(petaflops)。
在 HPC 领域的 GPU 市场中,英伟达之所以能占据主导地位,核心在于其打造了一套覆盖硬件与软件、完整且高度集成的技术生态体系。
Intersect360 Research 的高级分析师史蒂夫・康韦指出:“英伟达更大的优势体现在软件层面。他们很早就投入资源开发软件,以管理 CUDA 这一「生态霸主」。
他表示,这套技术生态体系才是英伟达真正的 “护城河”。英伟达不仅持续拓宽和加深这一 “护城河”,还通过投入资源,一方面支持当前商业开发者对该体系的使用,另一方面也在高校中培养下一代熟悉该技术的开发者。
AMD 的高性能计算布局
AMD 在 CPU 和 GPU 两大领域均展现出可观的发展潜力。其面向服务器与嵌入式系统的 EPYC 架构,助力美国橡树岭国家实验室的 “前沿”超级计算机于 2023 年再度登顶 TOP500 榜单,该计算机搭载了 9472 颗 AMD EPYC CPU,以及 37888 颗 AMD Instinct GPU。
AMD 的 EPYC 系列历经 “米兰”(Milan)、“热那亚”(Genoa)到 “都灵”(Turin)多代迭代,芯片集成度不断提升,也因此斩获了更多重大订单。2023 年 11 月,美国劳伦斯利弗莫尔国家实验室(LANL)的 “埃尔卡皮坦”(El Capitan)超级计算机凭借 AMD EPYC CPU 与 Instinct GPU 的组合架构,成功保住了 TOP500 榜单榜首位置。
布里斯托尔超级计算中心主任西蒙・麦金托什 - 史密斯对 AMD 的前景十分看好:“AMD 的竞争力正不断增强,其硬件性能确实出色,与英伟达处于同一水平。但AMD 在软件层面的实力相对薄弱。” 他呼吁 AMD 在软件领域加大投入。
Arm:从移动领域到百亿亿次计算的稳健之路
在竞争激烈的 x86 高性能计算市场中,AMD 虽显著抢占了英特尔的市场份额,但 Arm 仍是该领域的另一大强劲竞争者。2011 年,巴塞罗那超级计算中心启动 “勃朗峰”项目,通过在实验性集群中采用嵌入式 Arm 芯片,为 Arm 架构在欧洲高性能计算领域的可行性提供了验证机会,这也是 Arm 架构最早应用于高性能计算机的实验案例之一。
近十年里,Arm 迎来了里程碑式成就:2020 年,日本理化学研究所(Riken)计算科学中心部署的 “富岳”(Fugaku)超级计算机问世。这台运算速度达 442 千万亿次浮点运算每秒(petaFLOPS)的巨型设备,搭载了 48 核 A64FX 处理器,成功登顶 TOP500 榜单。
2021 年,Arm 在其数据中心级 Neoverse 处理器架构中引入向量处理能力,推出了支持 “可扩展向量扩展”技术的 Neoverse V1 CPU。
同时,Arm 与英伟达达成合作,为其在高性能计算领域奠定了重要的战略支点。2021 年双方宣布合作后,基于 Arm 架构的英伟达 “Grace” CPU 应运而生,英伟达将其与自家 Hopper GPU 整合,打造出 “Grace Hopper 超级芯片”。
目前已有超过 40 个超级计算机项目宣布支持 Grace Hopper 架构,其中包括德国的 “朱庇特”(Jupiter)系统 ,该系统近期以 1 百亿亿次浮点运算每秒(exaFLOPS)的性能,成为欧洲首台百亿亿次超级计算机。
多项研究也证实了 Arm 芯片的高能效优势。例如,2023 年一项针对 AI 系统的基准测试显示,在相同任务下,采用 Arm 芯片的系统比采用同类 x86 芯片的系统节能约 25% 至 30%。
布里斯托尔超级计算中心同样也选择了 Arm 架构,2018 年,该中心推出首台基于 Arm 的 “伊桑巴德”(Isambard)超级计算机,如今,其新一代 “伊桑巴德 - AI”(Isambard-AI)超级计算机则同样基于英伟达 Grace Hopper 节点构建。作为英国规模最大的超级计算机,它拥有超过 5500 个 Grace Hopper 节点。
而另外一方面,英伟达也正计划开发自主 CPU 架构。该公司与 Arm 签订了为期 20 年的IP 授权协议,且已明确表示将基于该 IP 研发自主核心,这意味着未来其 CPU 可能不再采用现成的Arm Neoverse 核心。
开放架构的新主张——RISC-V
尽管 Arm 如今发展势头迅猛,但高性能计算领域仍有其他潜在竞争者崭露头角,RISC-V 便是其中之一。它与 Arm 的核心差异在于授权策略,RISC-V 采用完全免费的开源授权模式。该架构由美国加州大学伯克利分校提出,是一套无任何授权费用的开放指令集架构。
战术计算实验室(Tactical Computing Labs, TCL)创始人兼首席科学家约翰・莱德尔表示,这是 RISC-V 的一大巨大优势。莱德尔曾任职于Cray和Silicon Graphics,在软件开发与硬件设计领域拥有深厚资历,目前他运营着一家小型研发公司,专注于为高性能计算和高性能数据分析开发创新型软硬件。
他解释道:“如果你想基于 x86 处理器定制一款芯片,以适配特定的科学应用,就必须先从英特尔获得授权,随后还要经历一个成本高达数十亿美元、且极为艰巨的研发过程。”
当然,Arm 处理器的定制也面临类似问题。但莱德尔指出,这并非 RISC-V 相对 x86 的唯一优势,x86 这一成熟架构背负着沉重的 “历史包袱”。
莱德尔强调:“x86 是一种遗留架构,从定义上讲,它必须支持所有 x86 处理器曾出现过的遗留指令。1989 年编写的、用于桌面会计系统的程序,如今仍需能在 TOP500 超级计算机中的现代 x86 芯片上运行。”
“RISC-V 则摆脱了这一束缚,研发者认为兼容所有遗留指令这种要求完全不合理,” 他解释道,“他们的思路是,为何不从头开始设计一套全新架构?清空历史负担、从零出发,从一开始就把事情做对。”
莱德尔表示,RISC-V 的核心设计理念是提供一套基础指令集,在此之上允许用户自主开发可选扩展模块。通过这种方式,用户能够为自身独特的应用场景定制专属芯片。
启动于2018年的“欧洲处理器计划”就是RISC-V生态的重要参与者,计划旨在采用 RISC-V 架构开发高性能计算(HPC)领域的加速器技术,目前已汇聚了来自 10 个国家的 27 家合作伙伴。
该计划采取了 “双架构” 战略,通用处理器采用 Arm 架构,专用加速卡则采用 RISC-V 架构。其中,RISC-V 架构的加速器包括一款基于 RISC-V 指令集架构中向量扩展技术的 CPU。2021 年,欧洲处理器计划成功流片了基于 RISC-V架构的加速器测试芯片。
除了这款源自巴塞罗那超级计算中心研究成果的向量加速器外,欧洲处理器计划还同步研发了可变精度加速器与张量加速器。
目前,欧洲处理器计划已进入收尾阶段,并将接力棒移交至 “欧洲 RISC-V 数字自主权计划”(Digital Autonomy with RISC-V in Europe, DARE),该计划于 2023 年 3 月启动,预算达 2.4 亿欧元,涵盖来自 13 个国家的 38 家合作伙伴。该计划目前设定的实施周期将延续至 2030 年,核心目标是研发一款通用处理器、一款向量加速器以及一款人工智能处理单元。
Arm 花了约十年时间,才凭借其芯片设计打造出具有说服力的超级计算案例,而2011 年推出的 64 位处理器仅仅是个开始,它还需要完善的软件生态体系与验证环境作为支撑。
如今,RISC-V 也必须走完同样的路。毫无疑问,RISC-V 的生态体系目前尚未成熟,甚至可以说还未真正建立起来,要打造一个稳定、成熟的环境,仍有大量工作要做,但该生态参与者们坚信这只是时间问题。
同时,RISC-V 领域已出现一些积极进展。2023 年 10 月,Meta收购了 RISC-V 初创企业 Rivos。这一举措将使 Meta 获得一套自主研发的、兼容 CUDA 的 RISC-V 混合架构。另有报道称,Meta 内部也在研发专属的 RISC-V 芯片。