最近半导体圈里又传出一个重磅消息:OpenAI 正在和博通(Broadcom)联手,准备搞一颗属于自己的 AI 芯片。没错,就是那个做 ChatGPT 的 OpenAI,终于忍不住了,要下场“造芯”了。为什么?原因其实很简单:靠英伟达太贵了。英伟达的 GPU 价格高昂,需求又呈爆炸式增长,OpenAI 光是租 GPU 服务器就得烧掉天价的资金。于是,自己做芯片、把成本和算力牢牢握在手里,几乎是必然的选择。那么问题来了:如果真是 OpenAI 和博通联手搞芯片,这颗神秘的 AI 加速器会长什么样呢?从目前曝光的信息来看,博通 CEO 陈福阳(Hock Tan)在财报电话会上提到的一个价值 100 亿美元的神秘客户,很可能就是 OpenAI。博通本身虽然不太会单独设计整颗 AI 核心,但它掌握着一系列关键技术,包括 SerDes 高速接口、网络交换芯片、光电互联以及 3D 封装技术(3.5D XDSiP)。简单来说,博通能够把 AI 芯片的“骨架、血管和神经”搭建好,让 OpenAI 只需要专心设计大脑部分,也就是真正的计算核心。从目前曝光的 Broadcom 3.5D XDSiP 技术来看,这种设计方式和 AMD MI300 系列的思路非常相似。底层有一个基底 Die,负责 I/O 和内存控制,上面可以堆几层计算核心 Die,这些就是执行矩阵运算的部分。四周再围上高带宽存储(HBM)堆栈,为计算核心提供源源不断的数据带宽。这种“模块化+叠罗汉”的方式比传统 GPU 更灵活,OpenAI 可以自由选择要用多少计算核心、是否加入自研逻辑,而博通则负责把所有模块“拼”在一起。这种方式就像搭乐高,你只需要告诉博通你想做跑车还是大卡车,其余的零件和拼装工作都由它来完成。当然,光有“骨架”和“封装”,芯片还是跑不起来的。AI 芯片真正的灵魂在于矩阵乘累加(MAC)单元,也就是大家常说的 Tensor Core。大模型训练,本质上就是一堆巨大的矩阵相乘,MAC 单元越强,训练速度越快,推理延迟越低。而博通不会替 OpenAI 提供 MAC 单元,这部分必须由 OpenAI 自己来设计,或者从其他地方授权。也就是说,OpenAI 芯片最关键的创新点就在这里:它会不会设计一套完全针对 GPT 模型优化的矩阵核心,如果答案是肯定的,那么这颗芯片可能会比现有 GPU 在训练或推理 GPT 系列时更高效。消息人士透露,这颗芯片预计最快在 2026 年就能上线,但不会卖给外部客户,只会用在 OpenAI 自家的服务器上。也就是说,你不会在市面上买到“OpenAI GPU”,更不会在家里装上它跑游戏。它的定位更像是为内部训练提供算力,为 ChatGPT、API 调用等推理服务提供支持。这种策略和 Google 的 TPU、AWS 的 Trainium 非常相似:先满足自家云业务需求,不考虑零售市场。有意思的是,博通之前还和苹果传过“绯闻”,一起搞所谓的 Baltra AI 芯片。但后来这个项目几乎没了消息。对比之下,OpenAI 的需求更直接:就是要大模型跑得快、成本低、可控性强。从这个角度看,OpenAI 与博通的合作,算是“各取所需”,博通提供稳定的封装、互联和网络方案,而 OpenAI 专注在算力核心上“对症下药”。总结来看,OpenAI 的芯片大概率会是一颗基于博通 3.5D 封装技术的多芯片 AI 加速器,内置针对 GPT 模型优化的矩阵运算核心,配合超大带宽的 HBM 内存,用来替代部分英伟达 GPU 的训练与推理工作。它的外观可能类似 AMD MI300,但“灵魂”是 OpenAI 自己的。未来如果成功,OpenAI 就能在“算力独立”这条路上迈出关键一步,既省钱,又不再完全受制于英伟达的产能和定价。至于它会不会像英伟达 GPU 那样通用、好卖,大概率不会,OpenAI 更关心的是:能不能让自家的大模型跑得更顺、更便宜、更可控。
往期精彩内容回顾:
中国芯,我的心,点个关注支持一下呗!
声明:本文素材引自官方媒体和网络新闻资料,如有错误,请以最新资料为准。本文绝不构成任何投资建议、引导或承诺,请审慎阅读。