高密度AIが空冷の限界を超え、液冷が前提になる
AIサーバーのラック電力が100kWを超え、さらに1MWへ向かう中で、空気で熱を運ぶ方式は実用上の限界に近づいている。空冷では数十kW級のラックが目安とされ、これを大きく超える密度では、風量・床下/通路設計・室内空調の電力とスペースが制約になる。
実装の側はすでに液冷を前提に動いている。NVIDIAのGB200 NVL72は、36基のGrace CPUと72基のBlackwell GPUを束ねるラックスケールの液冷設計で、後継のGB300・Vera Rubin NVL72も液冷ラックスケール構成だ(NVIDIA GB200 NVL72)。冷却は「あとから足す付帯設備」ではなく、計算・電源・施設と一体で設計する対象になった。本記事では、この変化が電源とパワーデバイスの設計に何をもたらすかを、過度な断定を避けて整理する。
液冷の主な方式 — 直接液冷(DLC)と液浸
液冷は大きく2系統に分けられる。直接液冷(DLC/direct-to-chip)は、CPU/GPUなど高発熱部品にコールドプレートを接触させ、液体ループで熱を回収する方式だ。サーバー全体を浸さず、ホットな部品の熱を局所的に取り出す。商品化も進んでおり、CoolITのラック型CDU「CHx200」は4Uで200kWの熱負荷を処理し、最大200サーバーを冷却できるとされる(温水冷却ASHRAE W17〜W+対応・N+1冗長ポンプ/電源)(CoolIT Systems)。
もう一方の液浸冷却(immersion)は、電子機器を誘電性の液体に直接浸す。液体が相変化しない単相(single-phase)と、沸騰・凝縮の相変化を使う二相(two-phase)があり、二相は単相より高い熱伝達が得られるとされる。標準化の側でも、OCPのAdvanced Cooling Solutionsに「Cold Plate」「Immersion」のコミュニティがあり、方式ごとの仕様策定が進む(Open Compute Project)。
直接液冷(DLC)
高発熱部品にコールドプレートを接触させ液体で熱回収。CoolIT CHx200は4Uで200kW処理。既存ラックへの適用がしやすい。
液浸(単相)
誘電性液体に浸し相変化なしで循環・熱交換。配線・保守の作法が空冷と変わる。
液浸(二相)
沸騰・凝縮の相変化で高い熱伝達。冷媒・凝縮器の設計と故障モードの管理が要点。
標準化(OCP)
OCPのCold Plate/Immersionコミュニティが仕様・要件を策定。エコシステムの成熟度が採否に効く。
液冷が電源・パワーデバイス設計に効く理由
液冷の本質的な効果は、パワーデバイスのジャンクション温度(Tj)の前提を変えることにある。SiC MOSFETのスイッチング損失はTj依存で、高温ではターンオン損失が増える。冷却能力が上がってTjを低く保てれば、損失・熱暴走マージン・デバイス選定の前提が変わり得る。ただしTjは直接測りにくく、電気的パラメータからの推定が必要で、ここは監視・保護設計の論点になる。
ホットスポット対策も具体的な設計対象だ。GB200 Grace Blackwell Superchipを対象としたコールドプレート最適化の学術研究では、平行流路のベースライン比で平均温度を5℃超、最大温度を35℃超低下させたと報告されている(arXiv)。パッケージ内の局所的な温度ムラを抑えることが、信頼性と性能の両面で効いてくる。
一方で、注意も要る。冷却能力が上がるからといって、ただちにパワーデバイスの定格を引き上げてよいわけではない——Tj低下は「設計余裕」をもたらすが、定格・信頼性は素子と保護回路で別途確認すべき領域だ。さらに、液冷は冷却系の失陥時にリスクが集中しやすい。CDUがN+1のポンプ・電源を備えるように、冗長性と故障時の挙動設計が安全性の要になる。
効率と運用 — PUEと制御最適化
液冷は効率の文脈でも語られるが、「液冷なら必ずPUEが改善する」という単純な話ではない。PUE(Power Usage Effectiveness)は施設全体のエネルギーをIT機器エネルギーで割った指標で、理想値は1.0、ISO/IEC 30134-2として標準化されている(ISO)。値は設備境界・サーバーファンの扱い・外気条件・水利用・熱再利用の有無で変わるため、方式だけで断定できない。
ただし、液冷設備には制御最適化の余地が大きい。Frontierの液冷インフラを対象としたデジタルツイン研究では、流量と供給温度の同時最適化で総エネルギーを30.1%削減できる可能性が示されている(arXiv)。冷却は「入れて終わり」ではなく、運用・制御で効率が動く対象だという点が、電力設計と運用の両面に効く。
立場別の「次に確認すべきこと」
液冷は、冷却だけの話ではなく、電源・デバイス・施設・運用を貫く設計テーマになった。
電源・デバイス設計
Tj低下を前提に損失・信頼性余裕を見直す。ただし定格引き上げは素子・保護回路で別途検証。Tj推定の監視設計も論点。
熱・機構設計
DLCか液浸か、既存ラック改修か新設か。CDUの冷却能力・冗長性と、冷却系失陥時のリスク集中への備え。
施設・運用
PUEは方式だけで断定せず設備境界で評価。流量・供給温度の制御最適化で効率が大きく動く。
調達・技術企画
OCP等の標準化動向とエコシステム成熟度。冷却・電源・デバイスを一体で調達する設計前提への移行時期。
高密度AIラックでは、電源設計と熱設計はもはや分けて考えられない。「現行の空冷前提の電源設計を、液冷の100kW〜1MWスケールへそのまま持ち込めるか」が、次に確認すべき論点になる。
