AI芯片的定义及分类
AI芯片已成为支持大规模运算任务方面不可或缺的硬件,在AI模型开发和部署的两个基本阶段—训练和推理中,均发挥著至关重要的作用。
训练涉及利用大规模数据集和机器学习算法开发AI模型。作为AI发展的基石,此阶段
推理则与之相对,其将应用训练好的模型来处理新数据,可执行影像、语音、文字识别、分类及预测等任务。其效能取决于併发处理及响应速度,针对特定部署情境进行定製。鑑于该等阶段的运算强度、处理频率及部署环境上的显著差异,各阶段都需使用专门AI芯片:
训练芯片擅长构建大规模AI模型,强调高运算精度、大内存带宽及高吞吐量。该等芯片主要用于云端数据中心,用于处理高负荷工作。
推理芯片则优化效率,强调低延迟、高性价比、能效比及可扩展性。该等芯片可覆盖云平台至边缘及终端等多样化场景,满足各种应用的即时需求。
AI推理芯片的架构演变
随着人工智能应用的快速普及,为满足市场对极致推理性价比的高能效人工智能推理系统的需求,用于人工智能推理的芯片架构正在发生根本性变革,从CPU通用计算,GPU通用并行计算转向NPU面向人工智能推理领域优化的并行计算。
在人工智能的早期阶段,人工智能模型的训练和推理计算,採用的是面向通用计算的基于CPU的IT基础设施,但CPU在并行处理能力和能效方面的局限,促使行业开始採用具备通用并行计算能力的图形处理器(GPU)。
当前,多数人工智能模型的训练是利用GPU完成的。但是,人工智能模型的训练和推理是两类不同的任务,它们之间存在显著的差异。儘管GPU具备更出色的并行计算能力,但其面向图形处理的架构,对于张量运算(即大规模矩阵运算),尤其是仅关注神经网络前向计算的AI推理而言,并非最优选择。随着人工智能应用採用的深度学习模型日趋複杂,GPU在功耗和计算密度上的短板逐渐暴露,行业由此转向专门设计的神经处理单元(NPU)。
NPU是人工智能推理加速计算领域的一次巨大飞跃,它原生支持张量运算,支持低精度量化,并具备大规模并行处理能力。这种架构专用化的芯片在四个关键维度实现了前所未有的提升:
(1)延迟降低(支持实时推理);
(2)能效提升(最大化每瓦吞吐量,将部署范围扩展至边缘设备和终端设备);
(3)计算密度提高(单位尺寸的芯片可容纳更强的专用工作负载计算性能);
(4)成本效益优化(推动其在各类应用场景中更广泛、更可持续地落地。)通过软硬件协同设计,NPU实现了算法感知层面的优化,将人工智能推理从一种功能性能力转变为可扩展、高性价比且可投入生产的解决方案。
从通用CPU到半专用GPU,再到针对人工智能推理工作负载优化的NPU,这种架构演进历程映射出人工智能部署的成熟过程。场景特定化优化的趋势将进一步强化,未来的芯片会更精准地适配垂直领域应用的独特计算模式。这种硬件专用化与算法优化的结合,正形成一个良性循环,推动人工智能从实验室走向实际应用,产生真实世界价值。
AI推理芯片的主要部署地点及分类
AI推理芯片可按部署地点分为三类:云端推理芯片、边缘推理芯片及终端推理芯片。
云端推理芯片用于数据中心及公众云服务器,提供每秒100至超过1,000次TOPS的运算能力,用于高併发任务及大模型推理。虽然该等芯片具有优秀处理能力及可扩展性,但其高能耗带来显著能源管理挑战。
边缘推理芯片用于云服务器及终端,通常为边缘网关、机器人等应用提供100-300TOPS的计算能力。该等芯片以低延迟、高可靠度及均衡能效为设计核心,通过本地数据处理以降低对云端的依赖及带宽需求。该等芯片的中阶运算效能使其非常适合需要快速响应及在数据来源附近稳定运作的场景。该等芯片亦能够执行压缩的AI模型,支持各种边缘智能任务。
终端推理芯片直接集成至智能手机(1至50 TOPS+)及可穿戴设备(0.1至0.5 TOPS)等轻量级商业产品,
AI推理芯片相关产品及服务的技术演进
AI应用在各行各业的快速扩展,正提高推理芯片的三项关键需求:更高的性价比、更高的能源效率以及更强的场景适应性。该等需求正加快四大关键技术领域的创新。
算法及芯片架构协同优化。深度学习模型的演进需要更灵活的芯片架构。先进的共同优化方法现已整合整个开发链,从算法分析到工具链开发,创造出专门针对目标工作调整的硬件。该协同效应可提供更快更精准的推理,同时最大程度提升资源效率,特别是在面积及能耗受限的环境中。
神经网络效率及能耗优化。边缘及终端部署需要完美平衡吞吐量与能源效率。前沿技术通过优化乘加单元(MAC)结构、实现稀疏计算以及精简存储访问路径,在保持模型精度的同时大幅降低能耗。
存算一体(「PIM」)技术。传统的芯片架构将计算与存储分开,造成能源密集的资料传输,减慢AI处理速度。近存计算将计算单元放置在更靠近存储的位置,部分解决了该问题。PIM技术将计算直接嵌入存储单元,毋需移动即可处理数据。这项突破可大幅提升效率与速度,让PIM架构成为未来AI芯片的必要条件。
基于Chiplet的异构集成。AI複杂度不断提升,单片芯片已难以满足需求。Chiplet技术将系统拆解为模块化的NPU、存储器、I/O接口及存储块,允许在先进封装载体上灵活组合集成。此模式转变带来了三个关键优势,包括通过优化IP重用提高性能、通过更小的裸片提高产量以及通过并行开发缩短产品上市时间。Chiplet集成正在成为下一代高效能AI芯片设计的关键方针。
AI推理芯片相关产品及服务的应用场景
AI推理芯片相关产品及服务为企业、消费者及工业应用的重要基础设施。在企业场景中,该等芯片相关产品及服务为互联网公司、AI公司、电信营运商及研究机构提供AI推理服务器、边缘网关及机器人等。该等平台提供实时大规模推理任务所需的运算能力,推动企业营运与创新。对于消费者应用而言,该项技术可透过设备、云端或混合应用展现。
可穿戴设备採用专用芯片,著重超低能耗与紧凑设计,以提供反应迅速、注重隐私的AI体验。同时,云端部署著重支持高併发性和节能处理,以处理跨服务的动态用户需求,例如智能玩具、学习设备与智能家居硬件。
工业应用透过针对特定垂直需求打造的边缘及云端解决方案,充分利用该等芯片相关产品及服务。从智慧城市基础设施到智慧交通系统,该技术可实现本地化处理、定製化功能及实时响应能力。该等芯片相关产品及服务在不同场景中的适应能力突显其在整个AI价值链中的转型潜力。
中国全场景AI推理芯片相关产品及服务的需求
中国全场景AI推理芯片相关产品及服务行业涵盖了广泛的硬件和软件解决方案,旨在支持AI推理的多样化应用场景—包括企业、消费者和工业应用。该产业可实现全面的全场景佈局,确保将AI功能无缝嵌入数字化生态系统的各个层级。
AI推理芯片相关产品及服务与智能设备形成紧密整合的系统,可实现高效率、适应性和智算。透过紧密的协同合作,可支持云端、边缘与终端之间的全面部署,确保智能处理能力可横跨所有场景。AI推理芯片相关产品及服务作为计算骨干,正逐渐嵌入智能设备,以满足不同应用场景下对实时、设备端AI的日益增长的需求。智能设备透过收集宝贵的真实数据(包括视觉、音频、语义和行为数据)及提供重要的表现回馈,积极推动AI创新。
此外,已部署设备的运作指标与已识别的效能瓶颈,可为算法与芯片架构的共同优化提供重要的见解,创造出一个持续改善的循环,让实际应用推动软硬件的进步。全场景生态系统的发展不仅推动了AI推理芯片的演进,亦促进了向智能设备等下游应用的扩展,为整个价值链带来了显著优势。AI应用场景正在稳步扩大,从工业製造、智慧城市到消费电子,增强了智能设备的数据处理和自主决策能力。全场景部署不仅提高了AI推理芯片和智能设备的实用价值,也为行业释放了更广阔的市场潜力。
在此背景下,具备全场景能力的公司将获得更强的竞争优势。在全场景AI能力不断扩展的过程中,NPU架构的发展不仅体现在芯片设计的进步,还推动了智能设备的变革。智能设备在此被单独说明,因为它们不仅是计算平台、数据生成和智能用户交互的重要载体,还具有自身的品牌价值。以下内容将分为两部分进行分析:AI推理芯片相关产品及服务与智能设备,因这两部分在各自的价值主张方面存在差异。
更多行业研究分析请参考思瀚产业研究院官网,同时思瀚产业研究院亦提供行研报告、可研报告(立项审批备案、银行贷款、投资决策、集团上会)、产业规划、园区规划、商业计划书(股权融资、招商合资、内部决策)、专项调研、建筑设计、境外投资报告等相关咨询服务方案。



·官方网站: Chinasihan.com