亚马逊Trainium芯片实验室首度开放,揭秘AI算力“破局者”背后的硬核工程

科技区角 2026-03-23 00:00

【科技24时区】在亚马逊首席执行官安迪·贾西(Andy Jassy)宣布AWS与OpenAI达成高达500亿美元的重磅合作后不久,关于这项合作核心,位于美国德克萨斯州奥斯汀的AWS芯片研发实验室近日对外曝光。本文将浅谈Trainium芯片如何挑战英伟达在AI推理领域的近乎垄断地位,并为行业提供更具成本效益的替代方案。

值得注意的是,微软作为 OpenAI 的主要投资方,随着AWS与OpenAI达成协议,成为后者新一代AI智能体构建平台“Frontier”的独家云服务商,微软的处境非常尴尬,各家的合作格局或将重塑。据《金融时报》近日报道称,微软可能认为该协议违反了其与OpenAI之间的排他性条款,尤其是关于模型与技术共享的部分,合作前景将存变数。

吸引OpenAI的关键,在于AWS承诺为其提供高达2吉瓦(gigawatts)的Trainium计算能力。这一承诺可谓雄心勃勃,虽然目前Anthropic和亚马逊自家的Bedrock服务已填满Trainium芯片的整体产能。据公司披露,目前三代Trainium芯片总部署量已达140万颗,其中Anthropic的Claude模型运行在超100万颗Trainium2芯片之上。

值得注意的是,Trainium最初聚焦于降低大模型训练成本,但如今已全面转向推理场景优化。以Amazon Bedrock为例,其大部分推理流量均由Trainium2承担,支撑着众多企业客户构建多模型AI应用。

与英伟达GPU相比,Trainium不仅缓解了供货紧张问题,更在性价比上形成显著优势。亚马逊称,基于Trn3 UltraServer的新一代系统,在同等性能下运行成本可降低高达50%。配合去年12月发布的Trainium3芯片,AWS还同步推出了自研Neuron交换机。这种全互联网状架构大幅降低芯片间通信延迟,这正是Trainium3在‘每瓦性能价格比’上屡破纪录的核心原因。

生态兼容性曾是自研芯片的最大障碍。但AWS团队表示,Trainium现已全面支持主流开源框架PyTorch,包括Hugging Face上大量模型。此外,AWS本月还宣布与Cerebras Systems合作,将后者专用推理芯片集成至Trainium服务器,进一步强化低延迟AI性能。



然而,亚马逊的野心不止于芯片。从服务器主板“sled”、虚拟化技术“Nitro”,再到先进的液冷系统,均由该团队垂直整合设计,这种端到端的控制旨在最大化性能与成本效率。虽然实验室位于奥斯汀高端商业区“The Domain”,虽非芯片制造工厂,却是“芯片点亮”(silicon bring-up)的关键战场。为了芯片能够成功点亮,团队会连续数周24小时值守,确保芯片首次上电即符合设计。

尽管OpenAI合作备受瞩目,但工程师们坦言日常重心仍聚焦Anthropic与内部需求。目前最大规模部署是2025年底上线的“Rainier项目”,全球顶级AI计算集群之一,搭载50万颗Trainium2芯片。

不远处的专属测试数据中心内,满架Trn3 UltraServer正安静运行。液冷系统闭环循环,既提升能效又降低环境影响。面对日益增长的 scrutiny,团队压力巨大。每次“bring-up”周期,工程师需连续三至四周昼夜奋战,确保芯片顺利量产。

Trainium已成长为AWS数十亿美元级业务,成为其最引以为傲的技术支柱之一。这场从芯片到系统的全栈自研豪赌,正悄然改写AI基础设施的竞争规则。

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI 芯片
more
欧洲越来越难买芯片了
鲜猪肉竟是数个月前屠宰?山姆:是失误!网友称品质「不如菜市场」;马斯克宣布:进军2nm芯片制造!挑战台积电三星;OpenAI扩招至8000人
不只是卖芯片,英伟达GTC Preview全面梳理
苹果要找中国厂商买存储芯片?
三星电子面临史上最大规模罢工威胁,芯片产能或受重创
亚马逊Trainium芯片实验室首度开放,揭秘AI算力“破局者”背后的硬核工程
这种芯片,被数据中心看好
中国信号链模拟芯片行业产业链、市场规模、竞争格局及未来趋势分析:国产替代进程加速,高端产品技术瓶颈有望突破[图]
刚刚!马斯克发布全球最大2nm芯片工厂
马斯克官宣:年产1万亿瓦芯片,人类迈向星际文明打响第一枪
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号