Meta 自研 AI 推理芯片:四代路线图深度解读

芝能智芯 2026-04-03 11:48
芝能智芯出品

 

Meta 在AI领域有些豪赌的意味,花了好几年时间,专心做推理芯片,基于 RISC-V 架构的、模块化的、可以快速迭代的推理芯片。

 

MTIA是Meta 的人工智能加速器系列,Meta 发布了新的硬件路线图,四代产品终于完整浮出水面:MTIA 300、400、450、500。

 

Meta 自研 AI 推理芯片:四代路线图深度解读图2

 

Part 1

为什么是推理?

 

很多人可能不理解:为什么 Meta 不去做训练芯片?答案很简单训练不是 Meta 的核心需求。

 

Meta 的日常运转,依赖的是排名和推荐系统。每天数十亿用户在 Facebook、Instagram、WhatsApp 上的每一次滑动、每一次点击,背后都有一套推荐算法在实时运算。

 

这套系统需要的是什么?不是超级算力,而是海量、频繁的推理。

 

生成式 AI 兴起之后,这个逻辑没有改变,只是推理的规模变得更大了。

 

Meta 的判断是:与其把训练芯片的算力拿来跑推理,不如专门为推理设计芯片。用他们自己的话说,这是"针对自身特定需求高度优化的硬件"——不是最强的,但是最合适的。

 

MTIA 平台基于行业标准软件生态构建,PyTorch、vLLM、Triton 都原生支持,遵循 OCP 硬件标准。这些选择让 MTIA 的部署成本远低于完全自研体系。

 

Meta 自研 AI 推理芯片:四代路线图深度解读图3

 

● MTIA 300:第一块基石

 

2024 年,Meta 推出了第一代 MTIA 加速器——MTIA 300。

 

这款芯片的设计目标很明确:排名和推荐模型的推理加速。在生成式 AI 成为行业焦点之前,这两类模型是 Meta 最大的算力消耗来源。

 

MTIA 300 基于 RISC-V 架构,这一点本身就值得注意——RISC-V 是开源指令集,不存在授权问题,也为后续迭代留足了自由度。

 

MTIA 300 已经投入生产,主要用于排名和推荐训练。它奠定了模块化设计的基础,也验证了 Meta 自研推理芯片这条路是走得通的。

 

Meta 自研 AI 推理芯片:四代路线图深度解读图4

 

● MTIA 400:生成式 AI 的入场券

 

生成式 AI 的爆发,让 Meta 意识到 300 的能力已经不够用了。

 

MTIA 400 的计算性能是 300 的五倍以上,HBM 内存带宽提升了 50%,达到 9.2TB/s。这个数字放到当下的 AI 芯片市场里不算顶尖,但已经足够支撑 Meta 跑更大规模的生成式 AI 推理任务。

 

更重要的是扩展能力。MTIA 300 最多支持 16 个节点的集群扩展,MTIA 400 一举拉到 72 个节点。这意味着 MTIA 400 的性能和成本竞争力,终于可以和主流商用 AI 加速器正面较量了。

 

Meta 方面表示,MTIA 400 已完成实验室测试,正在推进数据中心部署。

 

Meta 自研 AI 推理芯片:四代路线图深度解读图5

 

● MTIA 450:带宽才是瓶颈

 

从 400 到 450,Meta 的优化方向发生了微妙的转变。

 

这次是内存带宽的直接翻倍——从 9.2TB/s 到 18.4TB/s。选择背后有一套清晰的逻辑:生成式 AI 推理中,内存带宽往往比原始算力更关键。

 

大模型需要频繁访问海量参数,带宽不够,算力再强也只是空转。MTIA 450 为推理做了专门优化,HBM 带宽翻倍的同时,还加强了对低精度数据类型——包括 Meta 自定义数据类型——的支持。

 

这种定制化的数据类型支持,是通用芯片很难做到的。计划 2027 年初开始大规模部署。

 

Meta 自研 AI 推理芯片:四代路线图深度解读图6

 

● MTIA 500:模块化的终极形态

 

路线图上最后一款芯片是 MTIA 500,也是最能体现 Meta 设计哲学的一款。HBM 带宽再提升 50%,达到 27.6TB/s,容量最高可达每台加速器 512GB。如果 HBM 技术演进顺利,这个容量数字还有进一步提升的空间。

 

更重要的是封装方式的变化:MTIA 500 将采用 2×2 的小型计算芯片组配置。

 

Meta 在 300 到 400 的迭代中积累了大量模块化设计经验,2×2 配置意味着计算芯片、HBM 堆栈、网络芯片、SoC 芯片可以独立演进、单独替换。

 

芯片从设计到量产需要两年以上,在这个周期里工作负载可能已经发生巨大变化——模块化是 Meta 给这个问题准备的答案。同样计划 2027 年大规模部署。

 

Part 2

产品的迭代

 

从 300 到 500,Meta 给出了一组数据:HBM 带宽提升 4.5 倍,计算浮点运算能力提升 25 倍。

 

时间跨度不到三年。四代产品,平均每代半年到一年的迭代周期。这对于芯片行业来说,是相当快的节奏。

 

传统芯片从设计到量产通常需要两到三年,Meta 能做到这一点,靠的就是模块化——每一代都基于上一代产品,更新最关键的部分,其他部分尽量复用。

 

400、450、500 三代芯片共用同一套机架和网络基础设施,新芯片推出时可以直接替换旧芯片,不需要重建数据中心。

 

MTIA 还有一个容易被忽视的优势:开放生态。

 

Meta 是 Open Compute Project(OCP)的重要成员,MTIA 的硬件设计遵循 OCP 标准。软件层面,PyTorch、vLLM、Triton 都原生支持,不需要额外的软件适配。

 

这些选择降低了整个生态的门槛——客户或者合作伙伴可以更平滑地接入 Meta 的硬件体系。

 

RISC-V 是开源指令集,OCP 是开放硬件标准,这两件事加在一起,意味着 MTIA 的技术路线本身不存在出口管制风险。这也是为什么 MTIA 的演进路径对国内 AI 芯片行业具有相当的参考价值。

 

小结

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI 芯片
more
AI竞技场上演「死间计」:GPT-5被DS和Gemini玩坏了
OpenAI收购科技播客TBPN,首次进军媒体领域
这些芯片厂商,都在加码物理AI
独家丨前Nothing AI负责人许奇离职创业,要做硬件版输入法
国产AI芯片七强出货量出炉!华为占一半
2025芯片上市企业业绩出炉,AI赛道全线爆发
B站牢固的座次,被AI撕开一个口子
雷军投的前英伟达员工要IPO了!冲刺“AI眼镜第一股”
CTyunOS技术生态联盟定调2026:All in AI+安全!
甲骨文全球突袭裁员3万人,AI重投入下成本压力凸显
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号