
【科技24时区】在亚马逊首席执行官安迪·贾西(Andy Jassy)宣布AWS与OpenAI达成高达500亿美元的重磅合作后不久,关于这项合作核心,位于美国德克萨斯州奥斯汀的AWS芯片研发实验室近日对外曝光。本文将浅谈Trainium芯片如何挑战英伟达在AI推理领域的近乎垄断地位,并为行业提供更具成本效益的替代方案。
值得注意的是,微软作为 OpenAI 的主要投资方,随着AWS与OpenAI达成协议,成为后者新一代AI智能体构建平台“Frontier”的独家云服务商,微软的处境非常尴尬,各家的合作格局或将重塑。据《金融时报》近日报道称,微软可能认为该协议违反了其与OpenAI之间的排他性条款,尤其是关于模型与技术共享的部分,合作前景将存变数。
吸引OpenAI的关键,在于AWS承诺为其提供高达2吉瓦(gigawatts)的Trainium计算能力。这一承诺可谓雄心勃勃,虽然目前Anthropic和亚马逊自家的Bedrock服务已填满Trainium芯片的整体产能。据公司披露,目前三代Trainium芯片总部署量已达140万颗,其中Anthropic的Claude模型运行在超100万颗Trainium2芯片之上。
值得注意的是,Trainium最初聚焦于降低大模型训练成本,但如今已全面转向推理场景优化。以Amazon Bedrock为例,其大部分推理流量均由Trainium2承担,支撑着众多企业客户构建多模型AI应用。
与英伟达GPU相比,Trainium不仅缓解了供货紧张问题,更在性价比上形成显著优势。亚马逊称,基于Trn3 UltraServer的新一代系统,在同等性能下运行成本可降低高达50%。配合去年12月发布的Trainium3芯片,AWS还同步推出了自研Neuron交换机。这种全互联网状架构大幅降低芯片间通信延迟,这正是Trainium3在‘每瓦性能价格比’上屡破纪录的核心原因。
生态兼容性曾是自研芯片的最大障碍。但AWS团队表示,Trainium现已全面支持主流开源框架PyTorch,包括Hugging Face上大量模型。此外,AWS本月还宣布与Cerebras Systems合作,将后者专用推理芯片集成至Trainium服务器,进一步强化低延迟AI性能。

然而,亚马逊的野心不止于芯片。从服务器主板“sled”、虚拟化技术“Nitro”,再到先进的液冷系统,均由该团队垂直整合设计,这种端到端的控制旨在最大化性能与成本效率。虽然实验室位于奥斯汀高端商业区“The Domain”,虽非芯片制造工厂,却是“芯片点亮”(silicon bring-up)的关键战场。为了芯片能够成功点亮,团队会连续数周24小时值守,确保芯片首次上电即符合设计。
尽管OpenAI合作备受瞩目,但工程师们坦言日常重心仍聚焦Anthropic与内部需求。目前最大规模部署是2025年底上线的“Rainier项目”,全球顶级AI计算集群之一,搭载50万颗Trainium2芯片。
不远处的专属测试数据中心内,满架Trn3 UltraServer正安静运行。液冷系统闭环循环,既提升能效又降低环境影响。面对日益增长的 scrutiny,团队压力巨大。每次“bring-up”周期,工程师需连续三至四周昼夜奋战,确保芯片顺利量产。
Trainium已成长为AWS数十亿美元级业务,成为其最引以为傲的技术支柱之一。这场从芯片到系统的全栈自研豪赌,正悄然改写AI基础设施的竞争规则。