随着人工智能的飞速发展,公司面临着一个难题:如何在确保当前性能最佳的同时,为未来可能出现的未知人工智能模型,或者截然不同的训练和推理方法做好准备。目前市面上有大量针对高端和预算型手机、超大规模数据中心以及低成本、低功耗边缘设备的方案可供选择。尽管 GPU 不断占据头条,但许多设计者也正在使用 ASIC、NPU、MPU 和 FPGA。
Imagination Technologies 技术洞察副总裁 Kristof Beets 表示:“我们看到云空间和边缘设备的发展方向存在非常合理的区分。边缘设备指一切不属于云或数据中心范畴的设备,但其种类繁多。例如,手机是一种非常小巧且带电池的边缘设备,而汽车也是边缘设备,但其散热和功耗特性却截然不同。”
尽管人工智能训练大多在云端进行,但推理也占了很大比重。 “许多非常复杂、数据密集型网络都有着很高的速度要求。这主要取决于你能投入的资源量。而如果你观察边缘设备的使用场景,它们主要以推理为主,并且更注重隐私。‘我如何将我的数据和信息保存在设备本地?’可靠性主要取决于网络连接,即便网络连接越来越好,但它并非时刻都存在。同时,这些设备上的响应速度和效率也同样重要。”
Cadence 硅解决方案事业部 Tensilica DSP 产品管理与市场总监 Amol Borkar 表示,根据不同的环境,推理工作负载能从不同的芯片架构中获益。Cadence 最近推出了一款旨在与 NPU(网络处理单元)协同工作的 AI 协处理器 (AICP)。他指出:“每种实现方式都有其独特的作用,具体取决于应用场景,需要在功耗、性能、灵活性和成本之间进行权衡。”
Borkar 提到了多种人工智能推理选项,包括:
GPU:GPU 功能强大、用途广泛,是数据中心的首选处理器,在数据中心,可扩展性和灵活性是关键。但其高功耗限制了其在移动设备中的应用。
NPU:NPU 针对人工智能任务进行了优化,具备低功耗和低延迟的特点,非常适合移动和边缘设备。它在性能和效率之间取得了很好的平衡,但灵活性不如 GPU。
DSP:DSP 通常介于 GPU 和 NPU 之间,但更接近 NPU。与 GPU 相比,DSP 在更小的占用空间内为人工智能及其他工作负载提供更高的能效。在许多情况下,它还能作为人工智能协处理器,提供 NPU 的备用和卸载机制。
ASIC:ASIC 为特定推理任务提供最高的效率和性能。它在移动设备(如人脸解锁、语音识别)和数据中心(如搜索、推荐系统)中表现出色,但由于缺乏灵活性和高昂的开发成本,最适合大规模、有针对性的部署。这类固化芯片非常适合特定工作负载,可以实现投资回报率的最大化。但如果工作负载发生变化或无法在其上执行,你可能会陷入拥有一块昂贵芯片的困境。
CPU 具有极高的灵活性、可编程性和适应性,但它并非并行处理引擎。然而,CPU 的一大优势是能够运行任何 C 代码。Beets 说:“它的运行速度会非常慢,但它能运行。这就是为什么很多时候 CPU 是一个有用的备用引擎,因为它们总能编译代码,但 GPU 在这方面是更有效的解决方案。”
ASIC 与 GPU 之争
对于特定推理任务,ASIC 是一种更具成本效益和性能更强的替代方案,与 GPU 相比,它们在特定功能上通常能提供更好的性能和更低的功耗。不过,由于其成本高且不灵活,这种特定应用的方法更适合最大的手机或系统公司。ASIC 的例子包括英伟达的数据处理单元 (DPU)、谷歌的张量处理单元 (TPU) 或 AWS 用于人工智能训练的 Trainium 芯片。
Ansys(现为 Synopsys 的一部分)产品营销总监 Marc Swinnen 表示:“大型系统公司会说,‘我确实想要我自己的芯片。我确实想要我自己的硅芯片。’这变得如此重要,如此成为我所有系统工作的核心,以至于只有我自己制造芯片才能做到我想要的、我希望的方式、我想要的功耗,并针对我希望运行的软件进行优化,我才能参与竞争。这已成为我们现在所说的‘定制化硅’。你可能会问,‘这不就是 ASIC 的另一种叫法吗?’我想是的。但在人们的观念中,它与传统的低成本 ASIC 有所区别。这是因为制造这些芯片的公司都是高端公司——英伟达、微软、亚马逊、Facebook、谷歌。这些都是系统公司。它们曾是软件公司,与制造芯片毫无关系。但现在它们都开始涉足芯片制造,因为这对它们来说变得如此重要,所以它们想要自己的定制化硅。而这些都是应用特定集成电路。”
Imagination 的 Beets 在两种情况下看到了定制化人工智能加速器。“一种是真正的差异化解决方案。以谷歌为例。他们正在对人工智能进行大规模投资,提出新的创新技术,并将其与自己的硬件相结合。如果你真正完全拥有这些算法,并且你能预见到它们未来的发展,你就可以为其设计定制化的硬件。这种方法效果很好,但成本非常高。”
然而,高端定制芯片,尤其是在移动设备中,存在一个问题,即原始设备制造商 (OEM) 无法维护所有软件所有权。“你可以开发一些东西和一些算法,但最终你需要一个生态系统,”Beets 说。“你需要赋能广大的开发者社区。当他们审视更广阔的生态系统时,他们会发现,‘我如何将这个东西提供给正在尝试编写应用程序的开发者?’这就是这些东西失败的地方。它只适用于他们能够预见和预期的算法。”
此外,高端 ASIC 可能无法像 GPU 那样轻松适应新的人工智能模型和用例。Imagination 产品管理、战略高级总监 Vitali Liouti 表示:“灵活性有多种形式,但通用 GPU 最重要的优点是,即使语言模型的架构发生变化,它也能运行。鉴于人工智能的各种用例、模型及其变体变化速度快于硬件,这是一个非常重要的一点。”
Synopsys 移动、汽车和消费 IP 产品管理执行总监、MIPI 联盟主席 Hezi Saar 表示:“我们看到过去两年人工智能是如何进化的,它变得更强大、更普及,因为模型的资源成本更低——功耗更低,面积更小。但我们真的不知道它会走向何方。我们认为它会呈线性发展,因为人类大脑就是这么想的,但它可能会跳跃或做出其他举动。因此,选择的架构需要有足够的灵活性来适应未知因素。如果人工智能的能力呈指数级增长,我的芯片架构或芯片堆栈需要能够跟上。这给决策者带来了巨大的压力,让他们不得不考虑如何应对。”
Imagination 的 Liouti 也表示赞同。“人工智能不是一个稳定的工作负载,我们看到的最大进展是在算法方面。与算法相比,硬件的发展相对缓慢,这确实推动了硬件对灵活性和适应性的需求,而不仅仅是纯粹的固定功能引擎。人工智能主要仍然是一个并行计算问题。它有大量的计算,但从结构上看,它是并行计算、顺序计算,或者一种分支式计算。因此,它非常适合并行计算引擎。”
人工智能和 DSP 的角色转变
在移动领域,人工智能也正在渗透到非常特定的处理领域,例如相机接口。
Beets 说:“经典的相机接口是严格的流水线。它们实现了固定的算法。我们现在看到的是,一些传统的处理模块,比如去噪器,正在被人工智能引导的去噪器版本所取代。在某种程度上,他们正在设计一个碰巧使用人工智能创建的新型固定功能模块。他们使用人工智能技术重新设计了一个算法,并将其固化到该流水线中。你可以将很多这类东西归类为特定领域的人工智能实现。它们最终仍然是固定的,但你可以在不同代产品之间对其进行调整。”
英飞凌科技物联网、消费和工业 MCU 高级副总裁 Steve Tateosian 表示,DSP 也可能越来越多地被人工智能专用处理器取代,或者干脆被人工智能算法取代。“一些事情做得更好了,因为人工智能正在接管这些应用程序或代码库,摆脱了传统的 DSP 方法。这意味着测量会变得更精确,并且可以做更复杂的事情,比如通过检测运动来区分俯卧撑和举过头顶的动作。用 DSP 来做这件事非常困难。有了人工智能,它会变得更有能力。”
一个正在发生巨大转变的领域是音频,从关键词识别和语音识别,到波束成形、噪声抑制和回声消除。Tateosian 说:“我们能够利用人工智能以比传统 DSP 更高效、更有效的方式来完成这些工作。这是一个非常大的变化,而整个行业正处于这个转折点,或者说在这个领域,它已经发生了转变。这是一个巨大的进步,因为用 DSP 处理音频已经有几十年的历史了。可能有成千上万的博士一生都在致力于优化这项能力,而现在人工智能进入了这个领域,并且说,‘那确实很好,但我们可以用不同的方式来做,而且可能比传统方式更简单。’”
另一个转折是,在手机中,NPU 实际上可能就是 DSP。Imagination 的 Liouti 说:“最著名的例子是高通的 Hexagon,它是一个 DSP,他们将一堆东西组合在一起,现在它就成了一个低功耗的人工智能加速器。DSP 是为音频信号设计的,但由于它现在正在做的事情,它成了一个人工智能加速器——一个带有 SIMD(单指令、多数据)扩展的 CPU,允许它并行运行操作,并具有人工智能加速功能。”
FPGA的应用前景
本质上,CPU 更通用,ASIC 效率更高,而 GPU 介于两者之间。然而,有些人认为这里最好的处理器可能是 FPGA。
Altera 公司可编程架构研究员兼总监 Ilya Ganusov 在最近的一次小组讨论中说:“过去 15 年的大部分讨论都围绕着通用 GPU,它们在商业上取得了成功,以及粗粒度可重构阵列 (CGRA),它们在市场上不那么成功。FPGA 提供了一种算法上的替代方案,我们认为 FPGA 更具灵活性和可管理性。”
与此同时,其他人认为 嵌入式 FPGA (eFPGA) 融合了两者的优点。QuickLogic IP 销售副总裁 Andy Jaros 表示:“ASIC 总是能让你获得最低的功耗、最快的速度和最小的面积,但当你想要添加一些计算能力来处理那些更困难的算法时,你就可以在 ASIC 本身上面嵌入少量 FPGA。”
这方面的一个很好的用例涉及稀疏度算法,这种算法一直在不断变化。Jaros 说:“很多大学都在研究如何用模型实现更高效的稀疏度。通常,这都是在 ASIC 门或硬件中完成的,但如果该算法一直在变化,那么你就需要能够更新你的 ASIC 以适应最新的算法。你可以将特定的 RTL 放在嵌入式 FPGA 上,一旦新的、最好的稀疏度算法出现,你只需替换 ASIC 上的嵌入式 FPGA 算法即可。”
Mirafra 工程与美国业务副总裁 Mayank Varshney 表示,FPGA 内部也可能有定制的 ASIC,这有助于满足许多处理需求。“通常,人工智能数据中心使用 GPU、CPU、DSP。它们往往是不确定的,因为有大量的写入和读取内存操作,因此数据传输量很大。而 FPGA 传统上擅长的是确定性结果。如果你正在运行宽并行处理,如果你正在做大量的信号处理类型的能力,它们在这方面表现出色。”
MCU和NPU的用例
对于低功耗边缘设备,带有 DSP、NPU 和神经网络加速器的 MCU 可以满足需求。英飞凌的 Tateosian 说:“与我们日常生活中使用的其他应用,如健身手表和追踪器、便携式医疗或家用医疗设备以及家电相比,手机拥有巨大的处理能力。后者的这些例子通常都运行在微控制器上,而不是像手机或笔记本电脑中那样的高性能微处理器。”
手机和低功耗边缘人工智能设备之间的另一个区别是,特定应用的手机处理器运行的是像 Linux、Windows 或 iOS 这样的高端操作系统。Tateosian 指出:“微控制器将运行一个实时操作系统,如 FreeRTOS 或 Zephyr,这是一种轻量级的软件基础架构,开发人员可以在其上编写应用程序。”
英飞凌提供支持机器学习的 MCU。而 Synaptics 则有具备情境感知的人工智能 MCU。
高端移动设备和数据中心通常除了 NPU 外还配备 GPU,而低功耗边缘人工智能设备可能只配备 MCU 和 NPU,因为它们的效率更高。
例如,Expedera 最近推出了其 Origin Evolution NPU IP,它带有硬件加速功能,旨在满足在资源受限的边缘设备、智能手机、汽车和数据中心上运行 LLM、卷积神经网络和循环神经网络的计算需求。
Fraunhofer IIS 自适应系统工程部门负责人 Andy Heinig 表示,神经形态计算也是手机人工智能处理的一个备选方案,因为它可以降低功耗。“在电子方面有进展,但神经形态加速器的生态系统、框架和合作伙伴尚不可用。”
结论
尽管英伟达 GPU 继续在大数据领域占据头条,但在边缘领域,不存在一刀切的解决方案,这里的应用范围从企业数据中心到移动设备不等。功耗、性能和面积/成本仍然是主要考虑因素,但它们的重要性会因领域、最终客户、实际工作负载以及供电方式(插头或电池)而异。
边缘领域正在形成一个由特定领域、特定工作负载和通用计算设备组成的复杂组合。但与过去市场趋于融合的情况不同,目前的趋势似乎朝着一个截然不同的方向发展,即只要设计预算允许,就会有更多的定制化和更细粒度的优化。一刀切的解决方案在这里行不通,而且目前尚不清楚它是否会存在。
参考链接
https://semiengineering.com/complex-mix-of-processors-at-the-edge/
点这里👆加关注,锁定更多原创内容
*免责声明:文章内容系作者个人观点,半导体芯闻转载仅为了传达一种不同的观点,不代表半导体芯闻对该观点赞同或支持,如果有任何异议,欢迎联系我们。
推荐阅读

喜欢我们的内容就点“在看”分享给小伙伴哦~