迄今为止,用于训练和运行大型AI模型的处理器中,绝大多数由英伟达支持。
但用户并不愿过度依赖单一芯片供应商,尤其是在计算需求持续增长的情况下,因此他们正寻求更多元化的方案。于是,AMD、华为、谷歌、亚马逊等厂商纷纷积极开发自家的AI加速器芯片。
这场核心算力芯片间的战争最终会让英伟达目前的领先地位被迫降格为“众多AI芯片供应商之一”吗?这会动摇行业的技术根基吗?抑或是AI芯片需求的激增足以让所有参与者的营收“水涨船高”?这些都是万亿美元级别的问题。
谷歌曾对外表示,其新模型Gemini 3 Pro完全使用自家的TPU训练,TPU是另一种类型的AI加速器芯片。这一消息在行业内引发讨论,AI行业对英伟达芯片的广泛依赖是否合理?毕竟,相对而言英伟达芯片价格高昂,当前为建设AI算力中心所耗费的巨额投入中,很大一部分流向了英伟达芯片。
而谷歌TPU正愈发像英伟达的替代品。该公司可在自有数据中心出租TPU,并有报道称正考虑向其他AI公司直接出售芯片。路透社此前曾报道称,Meta正就2027年起斥资“数十亿美元”购买谷歌TPU展开谈判,甚至将考虑在2026年先租赁谷歌数据中心的算力部署。而另外一家AI工具厂商Anthropic 10月份宣布,将在谷歌数据中心使用多达100万枚TPU开发其Claude模型。
从技术上讲,谷歌将与英伟达形成直接竞争。但这并不意味着谷歌在全力抢夺英伟达的芯片业务,毕竟,谷歌本身也是英伟达芯片的大买家。谷歌向客户出售TPU硬件更多的目的可能是希望扩大其涉及TPU部分的云算力租赁业务的补充。
IDC分析师布兰登·霍夫表示,如果客户希望执行TPU特别擅长的AI处理任务,选择TPU这种更经济的方式一定是合情合理的。而英伟达的GPU是能胜任多种工作的“主力芯片”,其能力更全能万用,但多数大型科技公司用户也都为自己业务领域自研了适合自己业务发展的算力加速器,为其最关键的业务数据类型量身定制产品,其中包括微软开发了针对Azure云服务优化的芯片;亚马逊的Trainium芯片尤其擅长电商相关任务,如产品推荐、配送物流优化;谷歌TPU则擅长在其平台和网络中投放广告。
这一点谷歌与Meta 有共同点,两家都做广告业务,所以Meta 想试试谷歌的TPU产品就显得非常合理。不仅如此,多数大型科技公司都会混用多种加速器,因为它们将机器学习和AI用于各类任务。苹果也在尝试TPU、AWS的芯片,当然还有英伟达的GPU,就是在尝试不同工作负载下哪种芯片效果更好。
英伟达GPU的一大优势在于它是出色的通用型芯片,适用于多种AI工作负载。此外,其灵活性以及平台泛用性都非常高。例如,若某公司想在混合云服务平台上运行AI模型,很可能会开发能在英伟达芯片上运行的模型,因为目前所有云平台都用英伟达芯片。只要客户看重灵活性,英伟达仍是显而易见的最佳选择。
由于英伟达芯片的性能优势,许多AI公司已将CUDA标准化,这一英伟达专属的软件栈能让开发者控制GPU如何协同工作以支持其AI应用。大多数从事大型AI模型的工程师、开发者和研究者都熟悉CUDA,这在另外一个层面实现了生态上的垄断。但基于当前行业内动辄数千亿美元的支出规模,或许也让各大科技巨头看到了打破CUDA这一技术护城河的最佳契机。
随着AI在商业和消费领域中找到的更多应用场景,AI模型被要求执行越来越多样化的任务,每项任务都需要通用芯片与专用芯片的不同组合。因此,尽管英伟达面临的竞争压力日益增大,但谷歌、亚马逊等玩家仍有充分理由与英伟达合作,这是客户需求所决定的。或许五年内英伟达仍是GPU市场的主导者,且行业分析师们甚至都认为其市场占有率在五年后还将会保持在70%左右,但行业生态势必将更加多样化,会有更多的技术厂商参与进来。科技的最大魅力在于不断突破技术壁垒后给行业带到的革命式的惊喜,行业内的厂商都想在英伟达的蛋糕上切上一块,但英伟达或许在考虑的是如何将整个蛋糕做到多大。
欢迎点击查看原文,一键直达您的科技区角