公众号记得加星标⭐️,第一时间看推送不会错过。

人工智能数据中心即将达到其极限。
为了满足不断增长的需求,像英伟达公司这样的芯片制造商正在生产功能越来越强大的芯片,这就需要新一代数据中心,而新一代数据中心的耗电量将是上一代数据中心的数倍。
“人工智能工厂”消耗大量电力,足以维持数百万家庭的照明,这助长了电力消耗的激增,可能给美国电价带来更大压力,扩大人工智能的碳足迹,并有可能减缓人工智能的繁荣发展。
针对数据中心的政治反弹已经造成了摩擦,而行业领袖们警告说,另一个更根本的制约因素是:发电能力的极限。“很快,甚至可能就在今年晚些时候,我们生产的芯片数量就会超过我们实际能够使用的数量,”特斯拉和SpaceX首席执行官埃隆·马斯克今年早些时候表示。然而,需求仍在持续飙升。预计将有数万亿美元流入人工智能建设领域,这使得能源短缺有可能成为人工智能发展的最大阻碍之一。

这场危机迫使人工智能领域的关键参与者——超大规模数据中心运营商、芯片制造商和电力设备生产商——进行重新审视。随着规模的扩大,他们不得不重新构想数据中心的设计、建设和供电方式。
支持云存储、电子商务和网站托管等服务的传统数据中心使用被称为中央处理器(CPU)的芯片。这些任务通常比人工智能处理所需的能耗低得多。
这种数据中心的标准服务器机架可能需要 25 到 40 千瓦的电力,足以驱动大约 20 台交流发电机。

但人工智能数据中心也运行在密度更高、更先进的图形处理单元(GPU)上。


随着人工智能模型速度更快、功能更强大,机架在相同空间内集成的芯片数量也大幅增加。
两年前,每个机架仅配备 8 个 GPU,而现在已增至 72 个,耗电量约为 150kW。
而且,电力需求还在持续增长。专家表示,英伟达即将于今年晚些时候推出的新型 GPU 和机架系统 Rubin,最终运行所需的电力将达到约 300kW。
除了 Rubin 之外,业界还在为未来可能出现的芯片做好准备,这些芯片将使机架的功耗接近 1MW——相当于平均 750 个美国家庭的用电量。
“如今人工智能领域的游戏规则越来越是,芯片的性能越强,其密度就会越高,”云服务提供商 CoreWeave, Inc. 的首席运营官 Sachin Jain 表示。
据英伟达称,目前数据中心消耗的电力中约有30%并未用于人工智能开发。这些电力大部分用于冷却系统以防止服务器过热,以及电力在庞大的园区内长距离传输。鉴于运营商越来越依赖天然气和燃煤电厂为其项目供电,这加剧了数据中心能源消耗的碳排放。例如,据知情人士上月向彭博社透露,微软公司正在考虑是否推迟或放弃其雄心勃勃的清洁能源目标,以扫清可能阻碍其在人工智能竞赛中前进的障碍。
随着电力需求和数据中心的增长,能源损耗只会不断增加。但Gartner分析师托尼·哈维表示,任何能效提升带来的潜在收益也会随之增加。
“在这个规模上,这会产生很大的影响,”他补充道。
不过总的来说,考虑到数据中心项目规模越来越大、数量越来越多,这些措施能在多大程度上抑制数据中心的电力需求还不清楚。
在改造自身设施的同时,人工智能企业也在投资节能型初创公司。据彭博行业研究报道,英伟达的服务器和芯片占人工智能超大规模数据中心支出的70%,该公司已向Emerald AI投入数百万美元,后者开发的软件可以帮助数据中心在用电高峰期避免电网负荷过重。像Alphabet旗下的谷歌这样的超大规模数据中心运营商也在致力于提高其人工智能模型的能源效率。
“我们一直在不断追求从现有的电力容量中榨取每一分效率,”英伟达高性能计算和人工智能超大规模基础设施解决方案高级总监迪翁·哈里斯说道。
容量的指数级增长已经催生了一些新的数据中心设计。
英伟达于 2024 年发布的 Blackwell 芯片,在能耗与前代产品相同的情况下,提高了处理能力,实现了能源效率的飞跃。
但它也产生了更多的热量,传统的空气冷却系统无法防止其发生故障。

持续运行空气冷却循环需要大量能源,因此各公司开发了直接对芯片进行液体冷却的方法。

根据英伟达和电力设备制造商 Vertiv Holdings Co. 的一项研究,液冷技术可以将数据中心的能源效率提高 15%。该研究还发现,液冷技术有助于减少因使用外购化石燃料能源而产生的 10% 的排放。
如今,以英伟达为首的人工智能行业正试图通过简化从电网到芯片的电力传输路径来节约能源。
电力以交流电 (AC) 从电网进入数据中心园区,这是远距离输送大量电力的最有效方式。
但为了让芯片能够使用它,需要将其转换为直流电 (DC),从而提供稳定、持续的电力流,使芯片能够正常工作。
数据中心还会将电网电压从 34,500 伏(输电线路中危险的高电压)降至芯片所需的 12 伏。
这些转化过程需要很多步骤,每次都会以热的形式散失能量。
英伟达的哈里斯表示:“所有这些步骤都会带来一些效率损失。在很多情况下,这些损失都是渐进的,微乎其微,但当你在一个非常大的园区内进行这些操作时,累积起来的损失就相当可观了。”




英伟达目前正在试用一种新设备,该设备将这一过程简化为更少的步骤,从而节省能源和空间——即边车。
这种边车式(sidecar )扩展柜可以将交流电转换为直流电,从而将电源转换设备从机架中移除。由于更强大的机架需要更高的电压,边车式扩展柜可以为其提供 800 伏直流电,与现有系统相比,能源效率可提高 20%,据先进制造和人工智能基础设施公司 Flex Ltd. 称。边车式扩展柜可以添加到现有数据中心,使其能够支持更强大的芯片。
加上 1 兆瓦的边车,机架功率可以达到 500 千瓦,大约是以前的十倍。

未来数据中心正在酝酿一场更为彻底的变革。业界正竞相用固态变压器(一种更智能的电子设备,能够切换交流电和直流电,并能更好地处理更高的电压)来取代部分机房电气设备。据Flex公司估计,与现有系统相比,这将使机架密度更高,能源效率提升27%。
固态变压器取代了传统的变压器和低压开关设备,从而最大限度地减少了功率转换步骤和能量损耗。

最终目标是过渡到 800 伏直流系统。英伟达以及包括 Flex 和 Vertiv 在内的电力设备制造商预计,到 2030 年,许多人工智能工厂将采用这种供电方式。
Gartner分析师Harvey表示:“仅配电系统就占总电力损耗的三分之一左右,这与所有电压转换都有关。如果我们能达到最终的800伏直流电压,损耗率可能会降至1%以下。”
通过重新设计的电力系统节省的能源可以作为一项气候措施,尤其是在与使用更清洁能源的努力相结合时。改用直流电力系统的另一个潜在好处是,数据中心可以更容易地连接到可再生能源,而可再生能源通常能够产生这种电流。
Vertiv 首席产品和技术官 Scott Armul 表示:“直流电本质上与可再生能源更容易融合。”
例如,中国已经在可再生能源过剩的地区建设数据中心。美国远未达到可再生能源过剩的程度,但运营商正在寻求利用电池和太阳能来辅助数据中心的运行,尽管他们仍然需要依靠天然气发电来完成大部分繁重的能源消耗。
电力系统升级是人工智能领域企业最为关注的问题之一。例如,英伟达承诺每年都会发布一款性能更强大的新芯片。数据中心电力设备制造商GE Vernova公司已经发现,超大规模数据中心对800伏直流系统的需求十分强劲。
“每个人都要求我们为即将到来的订单提供解决方案,”GE Vernova 电气化部门首席执行官 Philippe Piron 说。
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
END
今天是《半导体行业观察》为您分享的第4429内容,欢迎关注。
推荐阅读
★
★
★
★
★
★
★
★

加星标⭐️第一时间看推送


