Meta 在AI领域有些豪赌的意味,花了好几年时间,专心做推理芯片,基于 RISC-V 架构的、模块化的、可以快速迭代的推理芯片。
MTIA是Meta 的人工智能加速器系列,Meta 发布了新的硬件路线图,四代产品终于完整浮出水面:MTIA 300、400、450、500。

Part 1
很多人可能不理解:为什么 Meta 不去做训练芯片?答案很简单训练不是 Meta 的核心需求。
Meta 的日常运转,依赖的是排名和推荐系统。每天数十亿用户在 Facebook、Instagram、WhatsApp 上的每一次滑动、每一次点击,背后都有一套推荐算法在实时运算。
这套系统需要的是什么?不是超级算力,而是海量、频繁的推理。
生成式 AI 兴起之后,这个逻辑没有改变,只是推理的规模变得更大了。
Meta 的判断是:与其把训练芯片的算力拿来跑推理,不如专门为推理设计芯片。用他们自己的话说,这是"针对自身特定需求高度优化的硬件"——不是最强的,但是最合适的。
MTIA 平台基于行业标准软件生态构建,PyTorch、vLLM、Triton 都原生支持,遵循 OCP 硬件标准。这些选择让 MTIA 的部署成本远低于完全自研体系。

● MTIA 300:第一块基石
2024 年,Meta 推出了第一代 MTIA 加速器——MTIA 300。
这款芯片的设计目标很明确:排名和推荐模型的推理加速。在生成式 AI 成为行业焦点之前,这两类模型是 Meta 最大的算力消耗来源。
MTIA 300 基于 RISC-V 架构,这一点本身就值得注意——RISC-V 是开源指令集,不存在授权问题,也为后续迭代留足了自由度。
MTIA 300 已经投入生产,主要用于排名和推荐训练。它奠定了模块化设计的基础,也验证了 Meta 自研推理芯片这条路是走得通的。

● MTIA 400:生成式 AI 的入场券
生成式 AI 的爆发,让 Meta 意识到 300 的能力已经不够用了。
MTIA 400 的计算性能是 300 的五倍以上,HBM 内存带宽提升了 50%,达到 9.2TB/s。这个数字放到当下的 AI 芯片市场里不算顶尖,但已经足够支撑 Meta 跑更大规模的生成式 AI 推理任务。
更重要的是扩展能力。MTIA 300 最多支持 16 个节点的集群扩展,MTIA 400 一举拉到 72 个节点。这意味着 MTIA 400 的性能和成本竞争力,终于可以和主流商用 AI 加速器正面较量了。
Meta 方面表示,MTIA 400 已完成实验室测试,正在推进数据中心部署。

● MTIA 450:带宽才是瓶颈
从 400 到 450,Meta 的优化方向发生了微妙的转变。
这次是内存带宽的直接翻倍——从 9.2TB/s 到 18.4TB/s。选择背后有一套清晰的逻辑:生成式 AI 推理中,内存带宽往往比原始算力更关键。
大模型需要频繁访问海量参数,带宽不够,算力再强也只是空转。MTIA 450 为推理做了专门优化,HBM 带宽翻倍的同时,还加强了对低精度数据类型——包括 Meta 自定义数据类型——的支持。
这种定制化的数据类型支持,是通用芯片很难做到的。计划 2027 年初开始大规模部署。

● MTIA 500:模块化的终极形态
路线图上最后一款芯片是 MTIA 500,也是最能体现 Meta 设计哲学的一款。HBM 带宽再提升 50%,达到 27.6TB/s,容量最高可达每台加速器 512GB。如果 HBM 技术演进顺利,这个容量数字还有进一步提升的空间。
更重要的是封装方式的变化:MTIA 500 将采用 2×2 的小型计算芯片组配置。
Meta 在 300 到 400 的迭代中积累了大量模块化设计经验,2×2 配置意味着计算芯片、HBM 堆栈、网络芯片、SoC 芯片可以独立演进、单独替换。
芯片从设计到量产需要两年以上,在这个周期里工作负载可能已经发生巨大变化——模块化是 Meta 给这个问题准备的答案。同样计划 2027 年大规模部署。
Part 2
从 300 到 500,Meta 给出了一组数据:HBM 带宽提升 4.5 倍,计算浮点运算能力提升 25 倍。
时间跨度不到三年。四代产品,平均每代半年到一年的迭代周期。这对于芯片行业来说,是相当快的节奏。
传统芯片从设计到量产通常需要两到三年,Meta 能做到这一点,靠的就是模块化——每一代都基于上一代产品,更新最关键的部分,其他部分尽量复用。
400、450、500 三代芯片共用同一套机架和网络基础设施,新芯片推出时可以直接替换旧芯片,不需要重建数据中心。
MTIA 还有一个容易被忽视的优势:开放生态。
Meta 是 Open Compute Project(OCP)的重要成员,MTIA 的硬件设计遵循 OCP 标准。软件层面,PyTorch、vLLM、Triton 都原生支持,不需要额外的软件适配。
这些选择降低了整个生态的门槛——客户或者合作伙伴可以更平滑地接入 Meta 的硬件体系。
RISC-V 是开源指令集,OCP 是开放硬件标准,这两件事加在一起,意味着 MTIA 的技术路线本身不存在出口管制风险。这也是为什么 MTIA 的演进路径对国内 AI 芯片行业具有相当的参考价值。