

关注公众号,点击公众号主页右上角“ · · · ”,设置星标,实时关注旺材芯片最新资讯
随着人工智能大模型训练与推理需求的爆发式增长,高密度算力集群的功耗迎来了突破物理极限的红线挑战。英伟达Blackwell架构下单机柜GB200 NVL72配置的热设计功耗已骤升至120kW至132kW,传统空气对流散热面对此等热流密度已彻底失效。在AI算力的强力驱动下,全球液冷市场规模预计将从2024年的56.5亿美元暴增至2034年的484.2亿美元,温控架构的重构已成大势所趋。
在此背景下,直接芯片液冷(DLC)技术凭借其极高的传热效率,迅速确立了其作为AI数据中心主力温控手段的主流地位。据行业调查显示,直接芯片液冷在当前高密度集群部署中占据了约65%的市场份额,能够将数据中心电能利用效率(PUE)拉低至1.10至1.25的优异区间。要深度理解这一温控革命,必须剖析其从底层核心零部件到前沿新材料的全产业链演进逻辑。
1. 冷却分配单元(CDU)
冷却分配单元(CDU)作为液冷回路的控制枢纽,负责一次侧外部低温水源与二次侧内部循环介质之间的精确热量交换与流量隔离。根据CDU在数据中心机房中的物理摆放位置以及所承担的散热服务范围,业界将其主流部署方案划分为机架内液冷(In-Rack Cooling)和排间冷却(In-Row Cooling)。

机架内液冷是将小型CDU直接集成于单台IT机架内部,形成高内聚的闭环液冷温控回路,专门服务该机架内的芯片级冷板。这种"一柜一温控"的紧凑设计能够提供极其精准的机架级温度调控,缩短液冷管路行程,并在出现局部泵组故障时将宕机风险牢牢锁定在单台机架内部。然而,其代价是挤占了原本可用于部署算力服务器的宝贵机架空间,且在多机架大规模部署时维护成本呈线性攀升。

排间冷却则将CDU作为独立设备部署在服务器机架整排的侧方或作为落地式机柜,通过共享的大功率泵组集中为多台机架并行分发冷却流体。该模式彻底解放了IT机架内部的空间约束,在承载300 kW以上的超高功耗集群或大规模AI工厂部署时,具备极高的建设性价比与共享红利。不过,排间CDU需要设计更为复杂的二次侧地面或吊顶大管径输配管网,对系统的整体运行维护能力提出了更高的工程化门槛。


2.液冷板
液冷板作为贴合于高功耗ASIC或GPU芯片表面的一级导热部件,承载着将芯片内部核心微米级热量转移至循环流体介质的关键任务。冷板多采用高热导率的无氧铜材料精雕而成,设计者需在受限的封装空间内,精细计算内部流道的微观接触面积、流体压降以及表面湍流诱导机制。高散热能效的冷板不仅能显著压低核心结温,还能支撑芯片在不发生高温限频的前提下实现40%以上的超频性能攀升。

3.快接头(UQD)
快速断开接头(UQD)是保障服务器节点实现"热插拔"免工具无缝运维,且绝不发生冷却液滴漏的安防级连接零部件。符合OCP行业标准的UQD接头主要采用高强度的316L或303不锈钢,配合耐乙二醇或去离子水的EPDM多唇口密封圈,可在带压断开时实现双向完全无滴漏。其设计不仅要承受极端工作环境下的高工作压力,还需集成径向补偿和错位矫正技术,以保障盲插插拔时的万无一失。

4.分歧管(Manifold)
分歧管(Manifold)是布置在IT机架侧后方的冷却介质分配骨架,其物理作用类似于并联流体网络中的"等压腔"。通过精密的等压腔管路设计,分歧管将来自CDU总管的大流量循环液均匀且恒压地分流给各层服务器机箱内部的冷板流道,实现热交换效率的全局一致性。作为液冷主干道的毛细延伸,分歧管对各接口阀门的耐压防爆性以及流阻分布有着极其苛刻的技术标定。

1. 微通道冷板
传统的宏观流道在应对芯片局部超千瓦的极端热流密度时已显现出传热能力瓶颈,从而倒逼微通道冷板技术的快速普及。该技术通过在无氧铜基底上高精细铲齿或蚀刻出宽度仅50至200微米的微细通道流道,将固体与液体的换热接触面积提升了数倍至数十倍。微通道结构能够有效突破热边界层的束缚,使1000W至2500W高功率芯片的散热效率相比传统空气对流散热暴增5到10倍。

2. 3D打印冷板
增材制造(3D打印)技术的引入,彻底打破了传统机加工工具对复杂液体冷却冷板流道几何构型的设计限制。基于激光粉末床熔融(LPBF/SLM)工艺,设计者能够在一台冷板内部一体成型地打印出无任何外部接缝、螺纹或垫圈的单体无接缝冷板。这种一体化制造从根源上消除了钎焊或密封圈老化带来的潜在微渗漏风险,使系统承压性能轻松突破6 bar以上的极限制高点。更为革命性的是,3D打印支持拓扑优化和微米级三周期最小无界表面(TPMS)等异形复杂流道几何结构的设计。通过在核心芯片上方的局部热点正对区域精确布置“销钉鳍”或陀螺体点阵结构,人为在层流中制造高频微观涡流。这种局部微观紊流在极少牺牲整体系统流阻压降的大前提下,使介质换热系数实现阶跃,大幅削减了不必要的设备自重与金属原料消耗。

3. 金刚石
在极小封装尺寸内芯片热流密度的不断飙升,促使行业将视线转向具有热物性极限特性的超宽禁带半导体材料——金刚石。化学气相沉积(CVD)多晶金刚石的室温导热率可高达2000 W/(m·K)以上,远超金属铜或碳化硅等传统高导热材料,是目前已知传热效率最高的工业级材料。金刚石的加入,为发热源核心微米级热力斑点的瞬间能量铺展提供了完美的“热扩散器”通路。
典型的“金刚石上的氮化镓”(GaN-on-Diamond)封装晶圆制造,是在剥离原生衬底后,在活性沟道层背面直接外延生长微米级的CVD金刚石薄膜。实验表明,这种晶圆级物理结合能够使器件半导体核心沟道的温升骤减多达80%,使芯片的功率输出能力暴增5倍以上。金刚石优异的电绝缘性能使其能够充当完美的超薄电介质层,在超高频、大功率射频功放与新一代硅基光芯片温控中展现出无限的应用远景。
4. 液态金属
数据中心液冷革命的另一大焦点在于“热源—冷板”界面的接触阻抗,传统的硅胶基体导热膏由于热导率低下已沦为整个传热路径中最大的技术黑洞。为此,基于镓、铟等极低熔点低共熔合金的液态金属热界面材料(TIM)顺理成章地成为高密芯片散热的首选解决方案。这类液态金属在室温下呈现流体形态,具备13 W/(m·K)至86 W/(m·K)的极高热导率,比传统导热膏高出一个数量级。
当液态金属填充于硅芯片裸片背部与冷板底座之间时,它能够凭借卓越的流动性与材料表面极细微的粗糙不平度进行百分之百的微观分子级契合。其形成的极薄传热边界,可将界面接触热阻彻底降至极低的 0.01∼0.025 °C⋅cm2/W极限区间。这种超低接触阻抗能使高功率GPU的核心工作温度相比使用传统膏体下降15°C至25°C,从而赋予算力单元极高的性能余量。
然而,液态金属在重力或振动环境下容易发生微量侧漏进而引发电路板级短路灾难,且对裸铜或铝制底座具有极强烈的合金化腐蚀特性。为了攻克这一瓶颈,产业界相继研发出了“液态金属—铟箔—液态金属”三层夹心式固液复合结构,以及利用聚氨酯开孔微孔发泡海绵充当储液载体的控量涂敷工艺。这些复合防护设计不仅实现了优异的抗侧漏与机械自密性能,还彻底阻断了液态金属对核心金属基座的电化学侵蚀。

液冷温控革命正在超越传统的暖通空调和外围配套设施边界,加速转化为一场多维度跨界融合的技术竞争。从精密CDU的热力分配,到3D打印冷板的几何自由,再到金刚石与液态金属对微观传热屏障的极限跨越,温控已成保障算力上限的一等大事。唯有将微观界面材料的突破与宏观流体控制管路进行系统性的垂直整合,方能在兆瓦级绿色AI工厂的时代,彻底降服算力奔涌下的“热墙”猛兽。
来源:热能工匠
专心 专业 专注


