亚马逊Trainium芯片实验室首度开放，揭秘AI算力“破局者”背后的硬核工程

【科技24时区】在亚马逊首席执行官安迪·贾西（Andy Jassy）宣布AWS与OpenAI达成高达500亿美元的重磅合作后不久，关于这项合作核心，位于美国德克萨斯州奥斯汀的AWS芯片研发实验室近日对外曝光。本文将浅谈Trainium芯片如何挑战英伟达在AI推理领域的近乎垄断地位，并为行业提供更具成本效益的替代方案。

值得注意的是，微软作为 OpenAI 的主要投资方，随着AWS与OpenAI达成协议，成为后者新一代AI智能体构建平台“Frontier”的独家云服务商，微软的处境非常尴尬，各家的合作格局或将重塑。据《金融时报》近日报道称，微软可能认为该协议违反了其与OpenAI之间的排他性条款，尤其是关于模型与技术共享的部分，合作前景将存变数。

吸引OpenAI的关键，在于AWS承诺为其提供高达2吉瓦（gigawatts）的Trainium计算能力。这一承诺可谓雄心勃勃，虽然目前Anthropic和亚马逊自家的Bedrock服务已填满Trainium芯片的整体产能。据公司披露，目前三代Trainium芯片总部署量已达140万颗，其中Anthropic的Claude模型运行在超100万颗Trainium2芯片之上。

值得注意的是，Trainium最初聚焦于降低大模型训练成本，但如今已全面转向推理场景优化。以Amazon Bedrock为例，其大部分推理流量均由Trainium2承担，支撑着众多企业客户构建多模型AI应用。

与英伟达GPU相比，Trainium不仅缓解了供货紧张问题，更在性价比上形成显著优势。亚马逊称，基于Trn3 UltraServer的新一代系统，在同等性能下运行成本可降低高达50%。配合去年12月发布的Trainium3芯片，AWS还同步推出了自研Neuron交换机。这种全互联网状架构大幅降低芯片间通信延迟，这正是Trainium3在‘每瓦性能价格比’上屡破纪录的核心原因。

生态兼容性曾是自研芯片的最大障碍。但AWS团队表示，Trainium现已全面支持主流开源框架PyTorch，包括Hugging Face上大量模型。此外，AWS本月还宣布与Cerebras Systems合作，将后者专用推理芯片集成至Trainium服务器，进一步强化低延迟AI性能。

然而，亚马逊的野心不止于芯片。从服务器主板“sled”、虚拟化技术“Nitro”，再到先进的液冷系统，均由该团队垂直整合设计，这种端到端的控制旨在最大化性能与成本效率。虽然实验室位于奥斯汀高端商业区“The Domain”，虽非芯片制造工厂，却是“芯片点亮”（silicon bring-up）的关键战场。为了芯片能够成功点亮，团队会连续数周24小时值守，确保芯片首次上电即符合设计。

尽管OpenAI合作备受瞩目，但工程师们坦言日常重心仍聚焦Anthropic与内部需求。目前最大规模部署是2025年底上线的“Rainier项目”，全球顶级AI计算集群之一，搭载50万颗Trainium2芯片。

不远处的专属测试数据中心内，满架Trn3 UltraServer正安静运行。液冷系统闭环循环，既提升能效又降低环境影响。面对日益增长的 scrutiny，团队压力巨大。每次“bring-up”周期，工程师需连续三至四周昼夜奋战，确保芯片顺利量产。

Trainium已成长为AWS数十亿美元级业务，成为其最引以为傲的技术支柱之一。这场从芯片到系统的全栈自研豪赌，正悄然改写AI基础设施的竞争规则。