Meta 自研 AI 推理芯片：四代路线图深度解读

芝能智芯出品

Meta 在AI领域有些豪赌的意味，花了好几年时间，专心做推理芯片，基于 RISC-V 架构的、模块化的、可以快速迭代的推理芯片。

MTIA是Meta 的人工智能加速器系列，Meta 发布了新的硬件路线图，四代产品终于完整浮出水面：MTIA 300、400、450、500。

Part 1

为什么是推理？

很多人可能不理解：为什么 Meta 不去做训练芯片？答案很简单训练不是 Meta 的核心需求。

Meta 的日常运转，依赖的是排名和推荐系统。每天数十亿用户在 Facebook、Instagram、WhatsApp 上的每一次滑动、每一次点击，背后都有一套推荐算法在实时运算。

这套系统需要的是什么？不是超级算力，而是海量、频繁的推理。

生成式 AI 兴起之后，这个逻辑没有改变，只是推理的规模变得更大了。

Meta 的判断是：与其把训练芯片的算力拿来跑推理，不如专门为推理设计芯片。用他们自己的话说，这是"针对自身特定需求高度优化的硬件"——不是最强的，但是最合适的。

MTIA 平台基于行业标准软件生态构建，PyTorch、vLLM、Triton 都原生支持，遵循 OCP 硬件标准。这些选择让 MTIA 的部署成本远低于完全自研体系。

● MTIA 300：第一块基石

2024 年，Meta 推出了第一代 MTIA 加速器——MTIA 300。

这款芯片的设计目标很明确：排名和推荐模型的推理加速。在生成式 AI 成为行业焦点之前，这两类模型是 Meta 最大的算力消耗来源。

MTIA 300 基于 RISC-V 架构，这一点本身就值得注意——RISC-V 是开源指令集，不存在授权问题，也为后续迭代留足了自由度。

MTIA 300 已经投入生产，主要用于排名和推荐训练。它奠定了模块化设计的基础，也验证了 Meta 自研推理芯片这条路是走得通的。

● MTIA 400：生成式 AI 的入场券

生成式 AI 的爆发，让 Meta 意识到 300 的能力已经不够用了。

MTIA 400 的计算性能是 300 的五倍以上，HBM 内存带宽提升了 50%，达到 9.2TB/s。这个数字放到当下的 AI 芯片市场里不算顶尖，但已经足够支撑 Meta 跑更大规模的生成式 AI 推理任务。

更重要的是扩展能力。MTIA 300 最多支持 16 个节点的集群扩展，MTIA 400 一举拉到 72 个节点。这意味着 MTIA 400 的性能和成本竞争力，终于可以和主流商用 AI 加速器正面较量了。

Meta 方面表示，MTIA 400 已完成实验室测试，正在推进数据中心部署。

● MTIA 450：带宽才是瓶颈

从 400 到 450，Meta 的优化方向发生了微妙的转变。

这次是内存带宽的直接翻倍——从 9.2TB/s 到 18.4TB/s。选择背后有一套清晰的逻辑：生成式 AI 推理中，内存带宽往往比原始算力更关键。

大模型需要频繁访问海量参数，带宽不够，算力再强也只是空转。MTIA 450 为推理做了专门优化，HBM 带宽翻倍的同时，还加强了对低精度数据类型——包括 Meta 自定义数据类型——的支持。

这种定制化的数据类型支持，是通用芯片很难做到的。计划 2027 年初开始大规模部署。

● MTIA 500：模块化的终极形态

路线图上最后一款芯片是 MTIA 500，也是最能体现 Meta 设计哲学的一款。HBM 带宽再提升 50%，达到 27.6TB/s，容量最高可达每台加速器 512GB。如果 HBM 技术演进顺利，这个容量数字还有进一步提升的空间。

更重要的是封装方式的变化：MTIA 500 将采用 2×2 的小型计算芯片组配置。

Meta 在 300 到 400 的迭代中积累了大量模块化设计经验，2×2 配置意味着计算芯片、HBM 堆栈、网络芯片、SoC 芯片可以独立演进、单独替换。

芯片从设计到量产需要两年以上，在这个周期里工作负载可能已经发生巨大变化——模块化是 Meta 给这个问题准备的答案。同样计划 2027 年大规模部署。

产品的迭代

从 300 到 500，Meta 给出了一组数据：HBM 带宽提升 4.5 倍，计算浮点运算能力提升 25 倍。

时间跨度不到三年。四代产品，平均每代半年到一年的迭代周期。这对于芯片行业来说，是相当快的节奏。

传统芯片从设计到量产通常需要两到三年，Meta 能做到这一点，靠的就是模块化——每一代都基于上一代产品，更新最关键的部分，其他部分尽量复用。

400、450、500 三代芯片共用同一套机架和网络基础设施，新芯片推出时可以直接替换旧芯片，不需要重建数据中心。

MTIA 还有一个容易被忽视的优势：开放生态。

Meta 是 Open Compute Project（OCP）的重要成员，MTIA 的硬件设计遵循 OCP 标准。软件层面，PyTorch、vLLM、Triton 都原生支持，不需要额外的软件适配。

这些选择降低了整个生态的门槛——客户或者合作伙伴可以更平滑地接入 Meta 的硬件体系。

RISC-V 是开源指令集，OCP 是开放硬件标准，这两件事加在一起，意味着 MTIA 的技术路线本身不存在出口管制风险。这也是为什么 MTIA 的演进路径对国内 AI 芯片行业具有相当的参考价值。

小结