AWS科普:什么是芯片?

半导体行业观察 2025-09-04 09:21

公众号记得加星标⭐️,第一时间看推送不会错过。

资讯配图

来源:内容编译自AWS 

就像人类生存的许多基本要素(电、自来水、跳动的心脏)一样,计算机芯片也是那种你不会去想的东西,因为它已经融入到你日常生活的方方面面。


在智能手机上滚动屏幕?芯片。在观看您最喜欢的节目?芯片。在开车?芯片。使用食品加工机制作薯片?芯片。然而,大多数人对这个位于许多现代设备核心的基本构造块知之甚少,因此他们错过了整个世界。


在亚马逊,自 2015 年收购专业微电子公司 Annapurna Labs以来,我们一直在为 AWS 数据中心构建和设计芯片。我们的硬件和软件工程师在从芯片设计到服务器部署的每个开发阶段进行协作。我们不是构建芯片,将其集成到系统中,然后再编写软件,而是开发整个系统并从头开始工作,为我们试图加速的特定类型的工作负载创建更加定制的芯片。


这种垂直整合、系统优先的思维模式正是我们芯片的秘诀。我们将向您展示它是如何实现的。




什么是芯片?




计算机芯片是一块薄如晶圆的半导体材料薄片,通常由硅制成,内嵌电子电路。您可以将其视为电子设备内的决策者。


所有芯片,无论是用于智能手机、笔记本电脑还是用于训练人工智能的芯片,外观都大同小异,并且都采用先进技术制造而成。但它们的设计目的各不相同,各有不同。


例如,智能手机芯片功能多样,可以管理消息传递和网页浏览等多种功能,同时尽可能延长电池寿命。相比之下,像 AWS Trainium 这样的定制人工智能芯片则拥有强大的计算能力,其设计目标只有一个:处理海量数据,助力生成式人工智能的发展。


在过去的几十年里,芯片变得越来越精密和强大。随着工程师们努力从这些微小的元件中榨取越来越强大的处理能力,芯片也变得越来越复杂。


这种处理能力很大程度上依赖于芯片以接近光速的超高速传输数据的能力。如果数据从A点到B点需要跨越哪怕是一点点额外的距离,都会对整体性能产生不利影响。


这意味着芯片架构师需要认真思考如何“优化”芯片蓝图或平面图,以最大限度地减少频繁交换信息的组件之间的空间。


就芯片而言,额外的接地长度可能只有单个原子的长度,比人类头发的宽度短数千倍,这使得我们的架构师几乎没有任何容错空间。哪怕是最微小的瑕疵,都可能使项目延误几个月甚至一年。考虑到价值数百万甚至数十亿美元的设备和材料,不难看出,芯片的设计和制造绝非经验不足或胆小之人所能胜任。


那么,说到AWS 的 Trainium 芯片,它的作用就在于训练机器学习模型。Trainium 旨在满足人工智能非常具体的要求,这需要极其强大的芯片来处理海量数据。


一块 Trainium 芯片每秒可以完成数万亿次计算。具体来说,一个人数到 1 万亿就需要 31700 多年的时间。


但要真正了解 Trainium 等芯片的强大功能和复杂性,您必须放弃高层视角,仔细观察。


让我们放大一下。


资讯配图




如果芯片是一座城市




为了更好地理解 Trainium 芯片的工作原理,我们可以将其想象成一座城市:硬件是建筑环境,数据流是货物和人员的流动,电力通过地下网络输送到需要的地方。


因此,芯片设计师的思维方式很像城市规划师,只是规模小到几乎无限。他们可能考虑如何以最佳方式连接交通繁忙区域和人流量较少的区域,如何确保交通系统尽可能高效运行,如何为不同需求区域提供合理的公共设施平衡,或者如何最大限度地降低能源消耗。通常情况下,他们考虑的是以上所有方面,甚至更多。


如果将 Trainium 芯片比作一座城市,它将包含不同的区域,每个区域都服务于特定的功能。


芯片的核心是其繁忙的“市中心”——脉动阵列(the systolic array)。这里是活动最频繁的地方,密集的计算昼夜不停地运行。


脉动阵列本质上是一个由数千个专用计算单元组成的网格,这些单元像城市街区一样排列,每个单元都能同时执行计算。这些单元以有节奏的脉动模式将数据传递给相邻的单元——类似于心脏泵血的方式——因此该阵列得名“脉动阵列”。


资讯配图


脉动阵列不断进行 MAC 运算,即“浮点乘法和累加计算” 。这是一种基本算术计算,一步执行两个运算:乘法和累加。


就像市中心的摩天大楼最大限度地利用垂直空间来容纳数千名工人一样,脉动阵列密集地封装计算单元,以同时处理数十亿个人工智能操作。


这个区域永不停歇。它不断地计算、处理,并将结果传递给邻近的单元。在高峰时段,数据流动如同高峰时段的行人,只不过速度超乎寻常,协调性也堪称完美。


为整个市中心供电的是数十亿个晶体管,它们排列在比邮票还小的区域。这些微型开关的作用类似于交通信号灯,只不过它们每秒可以变化数十亿次。它们通过导通或阻断电流来控制电流,并用数字语言表示为“1”或“0”。


当数十亿个晶体管以这种方式协同工作时,它们可以执行计算,从而使从沉浸式视频游戏到语音助手的一切成为可能。


资讯配图


没有高效的交通系统,任何城市都无法高效运转,我们的 Trainium 社区也不例外。数据通过被称为“数据总线”的专用路径和网络在芯片内部和芯片之间传输


就像道路、高速公路和公共交通系统一样,它们传输信息的方式与城市交通网络将人们送入和送出市中心的方式相同。


连接脉动阵列和内存的高流量区域需要类似“高速公路”的宽阔数据总线,以便快速传输大量信息。与此同时,连接监控系统的低流量数据总线可能更像较窄的“小巷”。


正如城市规划人员设计交通系统以避免交通拥堵一样,AWS 工程师也会优化数据路径以确保处理顺畅。当出现信息瓶颈时,性能就会受到影响——就像高峰时段的拥堵会减慢通勤速度一样。


资讯配图


虽然计算在市中心进行,但数据却驻留在芯片的存储单元中,或者就我们的目的而言是“外围区域”:高效的存储空间,可容纳人工智能处理所需的海量数据集。


它们对于确保市中心收缩阵列获得所需的信息至关重要。而且它需要快速获取这些信息。


存储单元被排列在战略位置。频繁访问的数据被放置在靠近脉动阵列的位置,而较大的数据集则可能位于较远的位置。


记忆区与市中心的距离决定了数据检索和处理的速度,就像您的通勤时间取决于您居住的地方与工作地点的距离一样。


进入地下:中介层。


两个计算核心芯片(市中心脉动阵列)和四个高带宽内存堆栈(外围区域)都位于称为中介层的顶部,中介层位于 Trainium 芯片的底部。中介层在计算核心和内存芯片之间建立重要的连接(微观电通路),使数据能够在芯片间无缝流动并管理电力传输。


资讯配图


就像城市地下的基础设施——电力线、水管和光纤铺设其中——一样,中介层创建了一个看不见却至关重要的运输和电力输送系统,将资源精准地输送到需要的地方。正如市中心通常比居民区需要更多的电力一样,芯片设计人员将更多的电力输送到计算密集型区域,同时在需求较低的区域节省能源。


正是这个网络使得不同芯片上的数十亿个晶体管能够像在一块硅片上构建一样进行通信,极大地扩展了芯片设计的物理可能性。


我们的旅程在单个芯片的城市边界处结束,但值得花一点时间再次缩小并思考当这些芯片连接起来形成更大的系统时会是什么样子 - 就像城市如何相互连接以形成更大的大都市区一样。


在 AWS 数据中心,一台 Trainium 服务器可以容纳 16 块芯片。AWS 现在将其中四台服务器连接在一起,形成一个称为“UltraServer”的服务器。这使得 64 块互连的芯片能够协同工作,显著加速复杂计算,并为下一波生成式人工智能提供动力。


当你将其乘以数十万个芯片和多个数据中心时,你最终可能会得到世界上最强大的用于训练人工智能的计算机之一,这一切都要归功于最细致的计划——以及在微观尺度上实施的伟大创意。


参考链接

https://www.aboutamazon.com/stories/ai-chips-aws-trainium2-explain


*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。


END


今天是《半导体行业观察》为您分享的第4146期内容,欢迎关注。


推荐阅读


一颗改变了世界的芯片

美国商务部长:华为的芯片没那么先进

“ASML新光刻机,太贵了!”

悄然崛起的英伟达新对手

芯片暴跌,全怪特朗普

替代EUV光刻,新方案公布!

半导体设备巨头,工资暴涨40%

外媒:美国将提议禁止中国制造的汽车软件和硬件

资讯配图


加星标⭐️第一时间看推送,小号防走丢



求点赞


资讯配图

求分享


资讯配图

求推荐


资讯配图

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
芯片
more
华为今天摊牌了!麒麟芯片时隔四年正式回归,全新三折叠加量降价
为什么MCU芯片的静电越高,产品的静电指标不一定更好?
芯报丨奥维领芯完成数千万元Pre-A轮融资,系高性能RISC-V芯片公司
收藏: 全球80+分类芯片厂商汇总
谷歌芯片公司,估值9000亿美金
陈大同丨芯片往事(续)
我天!一块板子跑12路视频流,140ms延迟,这就是国产芯片的实力!
国产AI推理芯片的双重博弈:围攻4090,谁能卡位成功?
TPU突围,谷歌积极推销自研芯片
前魅族高管放狠话:要让魅族22完全卖不掉;曝小米汽车国内营收已反超小米手机;传字节分拆芯片团队,由新加坡公司接盘丨雷峰早报
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号