电子发烧友网综合报道,近期,半导体研究机构SemiAnalysis发布的“H100一年期租赁合约价格指数”显示,英伟达四年前发布的H100芯片租赁费用近半年飙升近40%。这款“老芯片”租赁合约价格从2025年10月的每小时1.7美元,在今年3月涨至每小时每块GPU 2.35美元。 H100租赁费用飙升的背后 SemiAnalysis的指数基于对100多家云服务提供商、算力资源买家和卖家的直接调查数据构建,每月采集一次。最新报告指出,按需租用的GPU算力在所有类型中均已售罄,即便价格上涨,已锁定按需实例的客户也不愿释放算力。该机构比喻,2026年初寻找GPU算力,如同预订“最后一班离开航班”的机票,价格高昂且资源稀缺。 研究人员补充,客户正争相以每块GPU每小时14美元的价格抢购亚马逊云服务的p6 - b200竞价实例,一些新兴云服务巨头甚至不再提供单节点销售。部分英伟达H100 GPU仍按2 - 3年前签订的原价续约,有些合同直接续签到2028年。 至于架构更先进的Blackwell芯片,由于对开放权重模型的强劲需求以及推理需求持续激增,新部署Blackwell的交付周期延长至6到7个月。2025年晚些时候,市场曾预期随着性能更强、算力成本更低的Blackwell芯片加速部署,Hopper芯片(H100、H200)租赁价格会大幅下降,但实际情况相反,H100需求不仅坚挺,许多情况下还在增强。 H100芯片推理需求高涨的原因 首先是应用场景驱动,过去几年,AI行业的主旋律是“大模型训练”,各大科技公司竞相投入,比拼谁能训练出参数更多、能力更强的模型。然而,进入2026年,行业重心正以前所未有的速度从模型训练大规模转向实际应用和部署,这一转变直接引爆了推理需求的“核聚变”。 AI原生应用的普及让推理需求无处不在。以字节跳动的“即梦”(Seedance)、谷歌的“Nano Banana”为代表的AI视频和图像生成工具,正迅速成为普通用户内容创作的新宠。用户不再满足于简单的滤镜和模板,而是希望通过自然语言描述,实时生成高质量的个性化视频和图像。每一次点击“生成”按钮,背后都是一次复杂的AI模型推理过程,需要消耗海量算力来理解用户意图、生成内容并进行优化。这些应用的病毒式传播,使得推理请求量呈指数级增长。 多智能体(Multi - agent)工作负载的兴起,成为算力消耗增长最快的领域。与传统的单次问答不同,多智能体系统(如近期火热的“龙虾”模型)模拟了多个AI智能体协同工作的复杂场景。例如,一个智能体负责理解用户指令,另一个负责规划任务,还有一个负责调用工具执行,最后再由一个智能体整合结果并反馈给用户。这种“团队协作”模式功能更强大,但也导致词元(token)的消耗量呈抛物线式增长,对推理算力的要求远超单一模型。 此外,爆款大模型应用的持续火爆,带来了稳定且高频的推理需求。Anthropic的Claude系列、Kimi、GLM等热门大模型,已经深度融入了程序员、研究人员、内容创作者等群体的实际工作流中。每天都有海量的日常推理请求涌入,这种需求是持续性的,而非像模型训练那样是一次性的投入。 其次是H100有它的技术优势,应用场景的爆发是需求侧的“拉力”,而H100芯片自身在推理方面的颠覆性技术优势,则是供给侧的“推力”,使其成为处理海量请求的理想选择。 H100内置的专用Transformer引擎,是其架构的核心创新,堪称“为推理而生”。大语言模型的计算瓶颈主要集中在注意力机制上,而Transformer引擎能够智能地优化这部分计算。它通过硬件级的动态稀疏计算,自动识别并跳过权重矩阵中大量的无效运算(即接近零值的计算),从而将千亿参数模型的推理延迟从秒级压缩到毫秒级,极大地提升了处理效率。 同时,H100是首批支持FP8(8位浮点)精度的芯片之一,这是其提速降本的关键。与传统的FP16精度相比,FP8格式在几乎不损失模型精度的前提下,能将数据带宽需求降低一半,显著提升推理速度并降低能耗。这意味着在相同的硬件成本和功耗预算下,企业可以部署更少的H100芯片来处理更多的用户请求,实现经济效益的最大化。 最后,H100的动态批处理技术,像一位高明的“交通指挥官”,最大化了GPU的吞吐量。面对高并发、大小不一的实时请求,该技术能够智能地将多个请求合并成一个批次进行处理,将GPU算力资源的利用率提升至92%以上。这就像高效的拼车系统,在保证每个乘客(请求)都能快速到达目的地(低延迟)的同时,让车辆(GPU)始终保持满载运行,避免了算力资源的浪费。 未来GPU租赁价格走势观察 展望未来,研究人员给出三个关键观察点判断GPU租赁价格是否维持高位。首先,随着GB300集群在2026年逐步放量,市场关注新增供给能否缓解算力紧张局面。GB300是英伟达推出的新一代人工智能计算平台,于2025年5月19日由首席执行官黄仁勋宣布,计划2025年第三季度量产,2026年第二季度大规模交付。相比前代,GB300在算力、内存和散热能效方面有改进,算力为前代36倍,搭载288GB HBM3e内存,单GPU容量从192GB增至288GB,可支持参数规模达1.2万亿的AI模型运行,采用全液冷散热方案,可将数据中心能耗降低30%以上。 其次,需关注芯片短缺是否进一步恶化。最后,要观察各大AI巨头的年度经常性收入扩张情况,以及AI应用的普及速度和词元消耗规模的持续增长节奏。 总之,当前GPU市场在需求、供应、价格等方面都处于动态变化中,未来走向充满不确定性,各方都在密切关注市场动态,以应对可能出现的各种情况。 声明:本文由电子发烧友综合报道,转载请注明以上来源。如需入群交流,请添加微信elecfans999,投稿爆料采访需求,请发邮箱wuzipeng@elecfans.com。