深度丨OpenAI年底将上线100万张GPU，新一轮芯片竞速打响了

·聚焦:人工智能、芯片等行业

欢迎各位客官关注、转发

前言：

当奥特曼喊出[百万GPU]时，整个硅谷的服务器仿佛都震动了一下。这一数字甚至超出了业界最疯狂的预测。

就在今年2月，OpenAI还因[没有足够GPU]而不得不推迟GPT-4.5的发布。

作者 | 方文三

图片来源 | 网络

OpenAI年底将上线100万张GPU

7月21日，OpenAI首席执行官萨姆・奥尔特曼宣布，公司计划在2025年末前部署超过100万张GPU，并首次提出[百倍扩容]的技术目标。

考虑到公司日益增长的规模，阿尔特曼暗示OpenAI的自研定制芯片计划并非偶然。

马斯克旗下xAI用于训练Grok 4的算力集群规模约为22张GPU。

这意味着OpenAI计划构建的算力相当于五个同等规模的[超级大脑]。

马斯克也提出明确目标，计划[五年内部署具备五千万片H100等效算力]。

若按每片四万美元单价计算，此计划需投入两万亿美元，接近全球半导体行业两年的总产值。

这一看似激进的目标，实则意在吸引更多资源——在算力竞争中，令外界认可自身能力亦属实力体现。

OpenAI计划采购的一百万片GPU，仅采购成本即达四百亿美元，已接近苹果公司一年的资本支出规模。

当前，OpenAI面临三大关键挑战：Stargate项目、芯片供应链重组及能源问题。

Stargate是一家新成立的企业，承诺在未来四年内投资5000亿美元，为OpenAI在美国建设全新AI基础设施。

该项目首期位于得克萨斯州阿比林市，占地1000英亩，旨在打造全球最大的AI训练集群。

阿尔特曼[登月计划]式的思维方式

2025年，以OpenAI、Google和Anthropic为首的国际科技巨头正持续推动技术创新。

整体而言，大模型的发展已从早期聚焦参数规模的[规模效应]阶段，转向对推理能力的深入优化。

受限于算力和数据瓶颈，大模型主版本的迭代速度与参数增长明显放缓。

例如，OpenAI从ChatGPT到GPT-4间隔约4个月，但之后一年多仅推出GPT-4 Turbo等衍生版本，GPT-5则多次推迟发布。Anthropic和Meta等公司的模型更新也呈现类似趋势。

这一变化标志着AI正从量变转向质变，更强调模型在复杂任务中的逻辑推理、问题解决和高效决策能力，以更好地满足实际应用需求。

根据当前市场价格，采购一亿片GPU的成本约为三万亿美元，这尚未包含电力需求或容纳这些GPU所需的数据中心建设成本。

短期内，英伟达几乎无法生产如此巨量的芯片，更遑论满足所有GPU的能源需求。

然而，这正是阿尔特曼[登月计划]式的思维方式。

与其说这是一个字面目标，不如视其为奠定AGI基础的努力，无论这基础来自定制芯片、新型架构抑或其他尚未面世的技术。

最显著的例证是OpenAI位于德克萨斯州的数据中心。

该设施目前为全球最大的单体数据中心，耗电量约达300兆瓦（MW），足以为一座中型城市供电，预计至2026年年中将扩展至1吉瓦（GW）。

如此巨大且难以预测的能源需求已引发德克萨斯州电网运营商的关注。

其警告称，为稳定此规模数据中心的电压与频率，亟需进行成本高昂且反应迅速的基础设施升级，其挑战性甚至令州内公用事业公司亦难以应对。

OpenAI想用除大模型以外的[多条腿]走路

2025年1月，OpenAI联合软银、甲骨文推出星门项目，计划四年内在美国投资5000亿美元建设算力基础设施。

项目首期投资1000亿美元，其中软银承担财务责任，OpenAI负责运营。

关键在于，运营权是奥特曼在星门计划中力图掌握的核心要素——其分配方式、是否实施价格战等关键决策均由其主导。

四个月后，OpenAI再次联合G42、甲骨文、英伟达、软银等合作伙伴，启动一个[阿联酋版]星门计划，拟在当地建设一座1吉瓦规模的数据中心，预计于2026年投入运营。

在这些宏大的基础设施项目落地之前，OpenAI的算力供给仍依赖于微软。

双方自2019年展开合作，微软已向OpenAI提供超过130亿美元的直接投资，并成为其独家算力提供商。

作为回报，微软在OpenAI的模型使用权、收入分成等方面享有优先权，例如可享有OpenAI最高达49%的利润分配权，上限为1200亿美元。

OpenAI在依赖微软的同时，也需避免受其制约。

尽管微软Azure仍是其重要依托，OpenAI已积极拓展与甲骨文、CoreWeave等云服务商的合作关系。

今年1月，微软与OpenAI修订合作条款，允许后者使用第三方计算资源，标志着两者关系出现微妙变化。

OpenAI并非仅依赖囤积英伟达硬件。

尽管微软Azure仍是其主要的云服务骨干，但OpenAI已与甲骨文合作构建自有数据中心，并有消息称其正探索谷歌的TPU加速器以实现计算架构多元化。

从据传7万亿美元的芯片制造计划，到5000亿美元的星门计划，再到阿联酋版星门项目，OpenAI的核心战略在于构建一个由其主导、不断强化其主导地位的宏大算力叙事。

因此，百万量级GPU集群已不仅是性能指标，更成为重构硅谷产业格局的关键标志。

英伟达持续主导算力基础设施供应，而算力采购方正形成战略联盟；

微软从单一主导型云服务商转变为多方竞争者之一；谷歌的TPU技术体系首次面临规模显著占优的GPU生态包围。

在算力主权维度，技术架构与地缘首次形成结构性对应关系。

芯片市场的[蝴蝶效应]经历多方博弈

在OpenAI宣布计划之前，全球市场对GPU的需求就已经十分旺盛。

如今，OpenAI的百万GPU需求加入其中，使得原本就紧张的GPU供应市场更加供不应求。

随着OpenAI需求的增加，这种短缺现象在短期内将进一步加剧，价格也可能继续上涨。

然而，从长期来看，OpenAI的大规模需求也将刺激芯片制造商加大产能投入。

英伟达等主要GPU供应商，为了满足市场需求并抓住这一商业机遇，必然会加快生产设施的建设和升级，提高芯片的产量。

同时，也可能吸引更多新的参与者进入GPU市场，试图分一杯羹。这将促使整个GPU产业不断扩大产能，提升供应能力，以应对日益增长的市场需求。

作为当前GPU市场的领军企业，英伟达无疑将从OpenAI的百万GPU计划中获得巨大的商业利益。

OpenAI的大规模采购订单将直接增加英伟达的营收和利润，巩固其在 GPU 市场的主导地位。

这实为更大规模军备竞赛的一部分：从Meta到亚马逊，各大企业均在自主研发人工智能芯片，并大力投资HBM以支撑庞大模型训练。

AMD等竞争对手正在加快研发步伐，推出性能更优、价格更具竞争力的GPU产品，试图在这一市场中分得一杯羹。

此外，一些新兴的芯片企业也在积极布局，通过创新的技术和商业模式，寻求在GPU市场的突破。

同时，随着AI技术的发展，除了GPU，其他类型的芯片如TPU、NPU等也在逐渐崭露头角，它们在特定的AI任务中表现出了优于GPU的性能，这也进一步加剧了芯片市场的竞争态势。

结尾：

OpenAI的百万GPU计划只是序章。全球AI竞赛的下一幕，将是算法、芯片、能源、资本的超级协同之战。

那些在开放合作中构建多元算力生态的企业，可能最终突破单一巨头的封闭围墙。

科技巨头们在算力上的万亿豪赌，赌的不仅是商业回报，更是未来世界的主导权。

当奥特曼望向那100万张GPU之外的[百倍扩容]愿景，他看到的或许是机器超越人类智能的临界点。

然而，芯片的晶体管数量可以统计，但真正的算力霸权，永远无法仅凭GPU数量来衡量。

部分资料参考：AI云原生智能算力架构：《突发！OpenAI 宣布 GPU 规模扩张计划‌，将在 2025 年底前上线超 100 万个 GPU！2025》，腾讯科技：《芯片战争来了！100万卡 vs 5000万卡，奥特曼、马斯克[神仙打架]》，机器之心：《刚刚，OpenAI星际之门要建5GW数据中心，马斯克祭出AI基建5年计划》

本公众号所刊发稿件及图片来源于网络，仅用于交流使用，如有侵权请联系回复，我们收到信息后会在24小时内处理。

END

推荐阅读：