高密度AI超过空冷极限,液冷成为设计前提
AI服务器机柜功率超过100kW,并继续走向1MW时,依靠空气搬运热量的方式正接近实际极限。空冷通常以数十kW级机柜为大致适用范围;如果密度大幅超过这一水平,风量、地板下/冷热通道设计、机房空调的电力和空间都会变成约束。
实现层面已经在按液冷前提前进。NVIDIA的GB200 NVL72是将36个Grace CPU和72个Blackwell GPU组合在一起的机柜级液冷设计,后续的GB300和Vera Rubin NVL72也采用液冷机柜级配置(NVIDIA GB200 NVL72)。冷却不再是“之后再加的附属设备”,而是需要与计算、电源和设施一体设计的对象。本文在避免过度断言的前提下,整理这种变化会给电源和功率器件设计带来什么。
液冷的主要方式:direct liquid cooling(DLC)与immersion cooling
液冷大致可分为两大类。direct liquid cooling(DLC / direct-to-chip) 是让 cold plate 接触CPU/GPU等高发热部件,并通过液体回路回收热量的方式。它不是把整个服务器浸入液体,而是局部抽走高温部件的热。产品化也在推进,CoolIT的机柜型CDU「CHx200」在4U内可处理200kW热负荷,并可冷却最多200台服务器;同时支持ASHRAE W17至W+的温水冷却,并具备N+1冗余泵/电源(CoolIT Systems)。
另一类 immersion cooling 是将电子设备直接浸入介电液体。它包括液体不发生相变的 single-phase,以及利用沸腾和冷凝相变的 two-phase;two-phase通常被认为比single-phase具有更高的传热能力。在标准化方面,OCP的Advanced Cooling Solutions下设有“Cold Plate”和“Immersion”社区,各方式的规格制定正在推进(Open Compute Project)。
direct liquid cooling(DLC)
让cold plate接触高发热部件,用液体回收热量。CoolIT CHx200在4U内处理200kW。较容易应用于既有机柜。
immersion(single-phase)
浸入介电液体,在不发生相变的情况下循环并换热。布线和维护方式会不同于空冷。
immersion(two-phase)
通过沸腾和冷凝的相变实现高传热。冷媒、冷凝器设计和故障模式管理是要点。
标准化(OCP)
OCP的Cold Plate/Immersion社区制定规格和要求。生态系统成熟度会影响是否采用。
液冷为何影响电源与功率器件设计
液冷的本质效果在于,它会改变功率器件 junction temperature(Tj) 的前提。SiC MOSFET的开关损耗依赖Tj,高温下turn-on损耗会增加。如果冷却能力提高并能把Tj维持在较低水平,损耗、热失控余量和器件选择的前提就可能变化。不过Tj难以直接测量,需要从电气参数推定,这也会成为监测和保护设计的论点。
热点控制也成为具体的设计对象。针对GB200 Grace Blackwell Superchip进行cold plate优化的学术研究报告称,与平行流道基准相比,平均温度降低超过5℃,最高温度降低超过35℃(arXiv)。抑制封装内部的局部温度不均,会同时影响可靠性和性能。
另一方面,也需要注意。冷却能力提高,并不意味着可以立即提高功率器件额定值。Tj降低会带来“设计余量”,但额定值和可靠性仍需要在器件和保护电路层面另行确认。此外,液冷在冷却系统失效时容易集中风险。正如CDU需要N+1泵和电源,冗余性以及故障时的行为设计会成为安全性的关键。
效率与运行:PUE和控制优化
液冷也常在效率语境中被讨论,但“只要液冷就一定改善PUE”并不是简单成立的说法。PUE(Power Usage Effectiveness)是设施总能耗除以IT设备能耗的指标,理想值为1.0,并已作为ISO/IEC 30134-2标准化(ISO)。数值会随设施边界、服务器风扇处理方式、外气条件、水使用、是否余热利用而变化,不能仅凭冷却方式断定。
不过,液冷设施存在较大的控制优化空间。针对Frontier液冷基础设施的数字孪生研究显示,通过同时优化流量和供液温度,总能耗有可能降低30.1%(arXiv)。冷却不是“装上就结束”的设备,而是效率会随运行和控制而变化的对象。这一点同时影响电力设计和运营。
不同立场接下来应确认什么
液冷已不只是冷却问题,而是贯穿电源、器件、设施和运营的设计主题。
电源与器件设计
在Tj降低的前提下重新评估损耗和可靠性余量。但提高额定值仍需在器件和保护电路层面另行验证。Tj推定监测也是论点。
热与机构设计
选择DLC还是immersion cooling,改造既有机柜还是新建。确认CDU冷却能力、冗余性,以及冷却系统失效时的风险集中应对。
设施与运营
PUE不能只按方式断定,应按设施边界评价。流量和供液温度控制会显著影响效率。
采购与技术规划
关注OCP等标准化动向和生态系统成熟度。判断冷却、电源、器件一体采购设计前提的转换时点。
在高密度AI机柜中,电源设计和热设计已无法分开考虑。接下来需要确认的论点是:当前以空冷为前提的电源设计,能否原封不动带入100kW至1MW级液冷规模。
