更热的芯片来了，液冷怎么选？

AI和高性能计算所需的计算能力正在飙升，并推动全球从10-15兆瓦的数据中心向50-100兆瓦甚至千兆瓦的AI工厂过渡。随着下一代AI超级芯片的运行功率达到2800瓦甚至更高，单个数据中心产生的热量预计将破纪录。

冷却市场现状：空气vs液体，还是两者兼而有之？

一个仅使用空气冷却的数据中心每运行1瓦计算需要1瓦的冷却。这意味着它们50%的能量将用于冷却！但有了液冷，每瓦特的冷却可以支持10瓦特的计算。在电力使用效率（power usage effectiveness, 简称PUE）方面，空气冷却的PUE约为1.5，而液体冷却可以将其降至1.1和1.04或更低。从1.5到1.1意味着巨大的节能。换句话说，同样的功耗使用直接芯片上的液体冷却将多支持75%的计算。

因此，分析人士预计，液冷市场将从2024年的56.5亿美元增长到2034年的484.2亿美元。

Direct-to-Chip vs. Immersion

有几种类型的液冷技术，可分为两类：immersion和direct-to-chip。

Direct-to-chip通常被称为“冷板”冷却，因为它使用位于GPU或CPU顶部的冷板，而不是immersion冷却，将服务器、芯片和其他设备浸入液体箱中。

在single-phase浸泡的情况下，服务器和其他IT设备浸泡在液体箱中的油性流体中，随着CPU或GPU的升温，流体会吸收热量。被加热的液体上升到液体箱顶部，然后被泵送到一个热交换装置，该装置冷却液体并将其送回液体箱，如下图所示：

这样做的好处是，它可以从服务器上带走100%的热量。然而，它仅限于冷却功率较低的芯片（500瓦及以下），因为液体上升到液体箱顶部以泵送冷却的速度很慢。此外，该液体在高温下可能是易燃的，并且由于它接触到所有组件，可能会减少设备的使用寿命。而且它需要大量的维护。

Two-phase浸没法还可以将服务器和IT设备浸没在液体箱中。与single-phase相比，不同之处在于它使用低沸点介质流体代替油。当板上的组件加热时，会使液体沸腾，产生蒸汽，从液体上升到液体箱顶部，那里有一个由管道组成的网络，流动着冷却设备的水。从液体箱中流出的蒸汽接触到冷管后凝结并滴回箱中。

Two-phase的优点是介质流体不会像水那样使元件和服务器短路。缺点是需要大量的数据中心基础设施投资，因为需要大型和重型箱体来容纳设备。

此外，设备要浸在液体箱中，所有部件必须与介质液体相容，这样才不会被介质本身损坏。这需要专门的设备或修改服务器。维护也是一个问题，因为two-phase通常涉及长时间的停机，需要使用起重机将服务器从液体箱中取出。

与single-phase浸泡一样，two-phase浸泡也可以100%去除热量。然而，这一过程需要在装有所有服务器设备的容器中煮沸介电流体。因此，来自主板和其他设备的材料通常会被“煮沸”。这可能会损害设备的使用寿命，并且随着材料脱落，需要不断过滤，需要大型和昂贵的过滤器，并定期维护。这对环境也是有害的，因为当液体箱打开时，介电液体被送入大气。

Direct-to-chip的液体冷却

Direct-to-chip将冷却液直接放置在高热流组件（如CPU/GPU）顶部的冷板上。这种液体从组件中除去热量，并将热量转移到冷板中，不会与芯片或其他服务器组件接触。

有两种类型的Direct-to-chip液体冷却：single-phase和two-phase。这两种方法都使用冷板，不会改变服务器和机架的设计。它只需要将基于空气的散热器替换为CPU或GPU顶部的冷板。

Single-phase direct-to-chip冷却使用水或水乙二醇混合物作为冷板中的冷却剂。水保持液态，这种方法带走热量的能力取决于水流。需要冷却的芯片功率越高，需要的水流量就越多。这就需要投资更大的水管、管道和连接器，以及耗电的水泵来持续地将水输送到系统中。

这种方法的挑战在于存在漏水和腐蚀的风险。随着服务器价格接近30万美元，一次泄漏就可能是灾难性的，更不用说瘫痪工厂的成本了。此外，随着时间的推移，水具有腐蚀性，还会导致霉菌、残留物和其他生物的生长。水必须不断地过滤、维护和测试，以确保它是平衡的，这增加了维护费用。

Single-phase direct-to-chip液体冷却的一个限制是热量的去除依赖于水流。炸薯片越热，需要的水就越多。对于一个1000瓦的芯片，使用这种方法，数据中心将需要每分钟1.2-1.5升的流量。最新的GPU功率为1.5千瓦，这意味着每个冷板的水流速度需要达到每分钟2升。当GPU功率超过2000瓦的阈值时，冷板将需要每分钟一加仑的流量。当我们接近千兆瓦级的数据中心时，对如此多的水流的需求使得这种方法的有效性降低，并且需要在灵活的管道中施加高压，这可能导致服务器漏水。

与single-phase direct-to-chip不同，two-phase direct-to-chip不需要液体流动，事实上，在冷板中不使用水。服务器和冷板内部是一种传热流体，对IT设备来说是100%安全的。来自GPU和CPU的热量使传热流体在低温下沸腾，吸收热量，这是一种有效的相变物理现象，使芯片保持恒温。

这类似于沸水将锅底保持在100⁰C的方式，只是在这种情况下使用温度较低的传热流体。随着冷板内液体的沸腾，即使温度提高3倍（如更高功率的GPU和CPU），冷板内的液体也不会超过沸点。这使得这项技术在冷却未来更高功率的芯片方面具有很高的可扩展性。

Two-phase direct-to-chip的液体冷却几乎不需要改变数据中心的基础设施，只需要一个简单的安装过程。维护也相当低，因为电介质流体不需要过滤，平衡或更换。与浸入式不同，它不会在服务器和机架维护期间释放到大气中。

更热的芯片来了——准备好了吗？

虽然超过2500瓦的芯片预计要到2025年底才会出现，但数据中心和AI工厂正在为它们的到来做准备。许多超大规模的企业都在回避水，因为它带来了太多的风险。即使是保险公司也在表达他们的担忧，因为为漏水投保可能是一笔巨大的费用。除此之外，还面临着使基础设施可扩展的压力，以便它可以处理更热的芯片，同时还要保持可持续、节能和长期的成本效益。

原文链接：

https://insideainews.com/2025/04/24/the-ai-factory-heats-up-liquid-cooling-options-explained/