
黄仁勋预判成真!芯片赛道迭代升级。

英伟达CEO黄仁勋今年曾表示,“AI推理时代才刚刚开始”。过去两年,AI运算需求暴涨百万倍,行业正式从算力竞赛迈入高效推理新阶段,产业发展重心正稳步向智能体AI(Agent AI)迁移。AI发展初期,为缩短大语言模型(LLM)研发周期,企业不惜成本采购英伟达H100等高端GPU,主要用于模型训练环节。而随着大模型技术逐步成熟、商业化落地规模持续扩大,行业核心运算重心,已经从模型训练全面转向模型推理。

AI训练以高吞吐量、长时持续矩阵运算为主,高度依赖GPU算力支撑;而AI推理除了需要基础算力加持,还需兼顾内存带宽、延迟控制、大规模并发等核心指标,单位功耗算力比成为核心竞争指标。推理效果以秒级体验为评判标准,微小的延迟波动,都会直接影响终端用户使用体验。
对于云计算厂商(CSP)而言,推理成本直接决定AI应用的盈利空间。当前市场除了英伟达持续保持绝对主导地位,AWS Inferentia、谷歌TPU、Groq LPU等一众推理专用ASIC芯片快速崛起,凭借定制化优势争相抢占AI推理市场份额。

智能体AI爆发,拉动ASIC、CPU双重需求增长
从产业趋势来看,头部云计算厂商近年持续加码自研ASIC芯片。相较于通用GPU,云厂商自研芯片深度适配自身模型架构与业务场景,能够精准匹配标准化、高重复的AI推理负载,在大规模商用场景中,可实现更低功耗、更低成本的海量用户流量承载。
与此同时,智能体AI的落地,彻底改变了传统AI计算的任务形态,也让CPU重新成为产业焦点。GPU擅长处理大规模并行神经网络运算,但智能体AI所需的复杂逻辑判断、多分支指令预测等任务,是CPU的核心优势,这也直接带动英特尔、AMD通用CPU的市场需求持续攀升。
智能体AI对芯片的数据交互效率提出极致要求:AI自主拆解、分步执行指令的过程中,数据需要在处理器、内存、网络接口之间高频高速传输,内存墙与网络通讯延迟,成为制约智能体AI性能释放的核心瓶颈。
集邦咨询分析指出,AI产业从生成式模型迈入智能体模型时代后,大模型Token解码阶段面临严重的延迟过高、内存带宽不足等问题,行业突破方向开始聚焦内存架构优化。

目前业内已涌现多条技术路径:部分厂商发力跨芯片内存共享、CXL高速互联技术,打通硬件间内存资源壁垒;还有企业通过缓存优化、数据压缩技术降本提速,例如英伟达、谷歌的TurboQuant量化压缩方案,可有效降低AI推理成本、提升模型运行效率。
为抢占智能体AI市场红利,英伟达此前与AI芯片初创企业Groq达成价值200亿美元的非独家技术授权合作,推出主打低延迟推理的Groq 3 LPU加速器,精准适配智能体AI系统对低延迟、超长上下文处理的核心需求。除此之外,英伟达去年针对性推出Rubin CPX GPU,全面卡位智能体AI与大规模推理赛道的新一轮产业机遇。
AI推理普及的核心:算力次之,成本优先
中国台湾资策会MIC产业顾问郑凯安认为,智能体AI是生成式AI的延伸升级形态。落地层面来看,成本控制是当前AI推理规模化普及的核心关键,直接决定AI应用的落地速度与产业边界。当前绝大多数AI推理场景集中在AIoT终端设备,性价比是落地刚需,高端GPU、高成本存储方案无法适配大规模终端部署,过高的硬件成本会直接阻碍商业化落地。
郑凯安表示,终端推理设备极少搭载HBM高带宽内存,主流配置以GDDR内存及定制化内存方案为主,市场已形成清晰的产品层级与差异化格局。而当前推理赛道最大的挑战,依旧是极致的成本管控。
短期来看,芯片与内存共封装技术难以成为行业主流,核心原因是先进封装工艺成本居高不下。即便内存采用成熟制程生产,整体封装成本依然偏高,多数终端系统仍会采用传统载板、PCB电路板方案完成硬件整合。
业内预判,模块化架构将成为未来AI推理规模化扩张的核心方向。一方面模块化方案可精准控制硬件成本,另一方面在行业规格尚未完全定型的阶段,能为产品迭代保留充足弹性。若企业过早投入定制ASIC研发,一旦终端出货量不及预期,高昂的研发成本将难以摊销回本。
机器人、机械臂、自动驾驶、自主移动机器人(AMR)等大型终端设备,均可通过板级模块化架构落地AI推理运算。而这类模块化硬件方案,将以传统封装工艺为核心载体,成为短期AI终端落地的主流选择。




