AIデータセンター電源の設計が、かつてない分岐点に立っている

GPT-4を動かすためのサーバー1ラックの消費電力は、2020年時点で平均10〜15kW程度だったが、最新のAIアクセラレーターを搭載したラックでは100kWを超えるケースが報告されている。NVIDIA H100を密集配置したラックは単体で70kWに迫り、次世代のBlackwellアーキテクチャでは1ラックあたり120kW超という水準も視野に入る。電力密度がこの5年で1桁変わろうとしている。

この変化は、電源設計の根本的な見直しを迫る。配電ロスを2%削減できれば1万ラックのデータセンターで数MW分の設備投資が変わる、という話になってくる。電源トポロジーの選択、パワーデバイスの選定、熱設計の方針——これらはもはや「インフラ屋の話」ではなく、AIシステム全体の競争力を左右するエンジニアリング課題だ。

何が変わったのか——電力密度10倍の現実

従来のサーバーラックは、電源ユニット(PSU)が48Vバスを生成し、そこからDC-DCコンバータが各デバイスへ1V前後の低電圧を供給するという構成が標準だった。この48Vアーキテクチャ自体は今も生きているが、問題は「48Vまでをどこで作り、そこからどう降圧するか」のパスが根本から問い直されていることにある。

Google、Meta、Microsoftといったハイパースケーラーが推進してきた「オープンコンピュート(OCP)」の標準では、ラック全体を48Vで統一し、サーバーボード上での変換効率を最大化するアプローチが採用されてきた。ここから進んで現在議論されているのが、400V〜800V直流給電(HVDC)へのシフトだ。交流から一度高電圧直流に変換し、ラック内で段階的に降圧する構成は、変換段数を減らすことで原理的には効率が高い。ただし高電圧直流の安全基準や保護設計の複雑化という別のコストが生まれる。

電力密度の増加は熱密度の増加と表裏一体で、空冷から液冷への移行が同時進行している。直接液体冷却(DLC)や液浸冷却の採用は冷却側の設計を変えるだけでなく、パワーデバイスのジャンクション温度の前提を変える。冷却能力が上がれば素子をより過酷な条件で動かせる一方、冷却系が失陥したときのリスクが集中するという構造にもなる。

AIデータセンター電源アーキテクチャの主要トレンド3軸
01

高電圧直流化(HVDC)

48VバスからHVDC(400〜800V)への移行が検討されている。変換段数の削減による効率向上が主目的だが、絶縁設計・保護回路の複雑化も伴う。

02

電力密度の急上昇

最新AIラックは100kW超。電源ユニットの小型高密度化、配電経路の低インピーダンス化が設計の前提になっている。

03

空冷から液冷へ

DLC・液浸冷却の普及により、パワーデバイスの熱設計前提が変わる。熱抵抗の余裕が増える一方、冷却系失陥時の保護設計が重要になる。

このグラフが示すのは、電源設計の変化が「効率1〜2%の改善」というレベルの話ではなく、アーキテクチャを根から替えるレベルの変化だということだ。それが、SiCやGaNといったワイドバンドギャップ(WBG)デバイスの採用議論を加速させている。

SiCとGaN、データセンターでどう使い分けるか

ワイドバンドギャップ半導体と呼ばれるSiC(炭化ケイ素)とGaN(窒化ガリウム)は、いずれもシリコン(Si)に比べてバンドギャップが広く、高電圧・高温・高周波数での動作に有利な材料だ。ただし、「WBGだから良い」という単純な話ではなく、電圧レンジと用途によって得意領域が異なる。

SiCは主に650V〜1700V以上の耐圧領域で使われる。データセンターの文脈では、UPS(無停電電源装置)、電力変換設備(PFC段・インバータ)、HVDCバスへの変換ステージが主な用途だ。スイッチング損失とオン抵抗を同時に下げられる点が、大電力変換での効率改善に直結する。

GaNはより低電圧側(650V以下が中心)で強みを発揮し、高スイッチング周波数での動作が得意だ。サーバーのPSU内部の変換段、特に数百V→48Vのステージや、高周波LLC共振コンバータへの採用が広がっている。スイッチング周波数を上げることで受動部品(インダクタ・コンデンサ)を小型化でき、基板面積と重量の削減につながる。

SiC vs GaN——データセンター電源での使い分け
01

SiC MOSFET(650V〜1700V)

UPS・大型PFC・HVDC変換ステージ向け。高電圧大電力での低損失が強み。短絡耐量やゲート駆動設計の考慮が必要。

02

GaN HEMT(650V以下)

PSU内部の高周波変換段向け。高スイッチング周波数で受動部品を小型化。ゲート電圧マージンの狭さに注意が必要。

03

Si IGBT・MOSFET(従来比較)

コストと調達安定性で依然優位。スイッチング周波数や損失の限界がWBGとの採用判断の分岐点になる。

04

ハイブリッド構成

大電力段はSiC、高周波降圧段はGaNという組み合わせも現れている。設計・調達の両面で複雑性が上がる。

SiC MOSFET選定で「短絡耐量」が設計を左右する理由

SiCをPSUやUPSの主スイッチに採用する際、技術的に見落とされやすいのが短絡耐量(SCWT:Short Circuit Withstand Time、または Tsc)の扱いだ。

短絡耐量は、負荷短絡が発生してからデバイスが破壊されるまでの時間を示す。つまり、保護回路がトリガーされてスイッチをオフにするまでの「猶予時間」だ。この時間内に保護が間に合わなければデバイスは破損する。

ここで重要なのが、SiCのダイが持つ物理的な特性だ。

SiCはダイが小さく電流密度が高い。短絡時に発生する熱が局所に集中するため、Siデバイスに比べて保護回路の応答時間の要件が厳しくなる。Microchip社の700V/1200V耐圧SiC MOSFETのデータシートには、特定条件下でのSCWTとしてtyp. 3μsが記載されている。この数字は、保護回路が3マイクロ秒以内に動作する必要があることを意味する。

短絡検出の実装として広く使われるのがDESAT(デサチュレーション)機能だ。

DESATはオン状態のドレイン-ソース間電圧(VDS)を監視し、短絡時の電圧上昇を検出してスイッチをオフにする。データセンター向けの設計では、DESAT閾値電圧(VDESAT)、DESAT電流(IDESAT)、短絡ブランキング時間の3パラメータの整合が、保護の確実性と誤動作防止のバランスを決める。

さらに考慮が必要なのが、短絡耐量はデバイスの動作条件によって変化するという点だ。ドレイン印加電圧、ゲート印加電圧、ジャンクション温度の三つが主な依存変数で、条件が緩和されると耐量は大きくなる傾向がある。逆に言えば、データシートに記載されたtypical値は特定条件での値であり、最悪ケースを見込んだマージン設計が必要になる。

温度依存性については、高温側ではRDSonが増加して飽和電流が制限されるため、短絡耐性はむしろ向上する方向に働くという特性がある。液冷を前提とした低ジャンクション温度の設計では、この点を意識した評価が判断材料になる。

オン抵抗と短絡耐量のトレードオフ——メーカーはどこで差をつけるか

SiC MOSFETの開発競争において、オン抵抗(Ron)の低減と短絡耐量の確保は、原理的にトレードオフの関係にある。オン抵抗を下げるためにセル密度を高めると、短絡時の電流密度が上がって耐量が下がる方向に働く。このトレードオフをどこで折り合いをつけるかが、メーカーの構造設計の差異として現れている。

この課題に対して、各社は独自のアプローチを取っている。三菱電機はトレンチ型SiC-MOSFETにおいてp型保護層を導入することで、短絡耐量を大幅に向上させた構造を開発している。ロームの第4世代SiC MOSFETは、独自のデバイス構造により低オン抵抗(RonA)と高短絡耐量を両立させているとされる。どちらも「トレードオフを構造で解消する」という方向性は共通しているが、アプローチの詳細は異なる。

設計者から見れば「データシートのSCWT値だけを比較しても不十分」という見方がある。条件の定義(どの電圧・温度で測定したか)や、繰り返し短絡時の信頼性劣化がカタログに記載されていないケースも多い。新製品採用時には、評価ボードや参照設計での実測が判断の根拠として機能する。

事業調達の観点では、SiC MOSFETのサプライヤー選定は単価や納期だけでなく、デバイス構造世代の更新サイクルや、後継品との互換性確認のコストも考慮に入る。ロームの第4世代のような世代更新は性能向上をもたらす一方で、ゲート駆動回路の再設計や信頼性評価のやり直しが生じる可能性がある。

効率を数字で整理する——どこに損失が集中するか

電源設計の効率議論で散漫になりがちなのが「どの変換段でどれだけ損失が発生しているか」の整理だ。データセンターの電力フローを大きく分解すると、系統交流→UPS/PFC段→直流バス→サーバーPSU→基板上DC-DCという変換チェーンになる。

Loading chart

このグラフが示すのは、各段の効率改善が積み重なることで、チェーン全体の損失は大きく変わるという点だ。UPS/PFC段をSiで構成するか、SiCで構成するかの差が2.5ポイントあるとすれば、1万ラック規模のデータセンターではMWオーダーの差になる。個別のデバイス比較が事業判断に直結する理由がここにある。

ただし、上記の数値はあくまで参考水準であり、実際の効率は回路トポロジー、動作点、冷却条件によって大きく変動する。重要なのは「どの段が支配的な損失源か」を特定することで、改善投資の優先順位が変わる。

設計・調達・技術企画それぞれの「次の問い」

ここまでの整理を踏まえると、立場によって焦点が変わってくる。

AIデータセンター電源設計——立場別の次の確認ポイント
01

回路設計・デバイス選定

SCWTの測定条件とDESATパラメータの整合を確認する。短絡ブランキング時間が保護回路の応答速度に合っているかが選定の分岐点になる。

02

信頼性・評価エンジニア

繰り返し短絡時の劣化データ、温度サイクルでのRonシフト、ゲート絶縁膜の長期信頼性がカタログ外の評価項目として機能する。

03

調達・サプライヤー管理

SiC第4世代など世代更新が続く中、後継品互換性と評価コストを含めた総所有コストを見ておく必要がある。複数ソース確保の難しさはSiCウェハ調達リスクとも連動する。

04

技術企画・事業開発

HVDCへのシフト時期と標準化動向(OCP等)が市場の転換点を決める。SiCとGaNのどちらに先行投資するかは、ターゲット変換段の電圧レンジで変わる。

電源設計の議論は、デバイス単体の性能比較から始まりやすいが、実際の判断は変換アーキテクチャ、保護回路設計、調達リスク、長期信頼性が絡み合う多層の問題だ。SiC MOSFETの短絡耐量ひとつを取っても、測定条件・デバイス構造・保護回路の応答時間という三つの層をそれぞれ確認する必要がある。

AIサーバーのラック電力が100kWを超えていく中で、「現行の設計を100kWスケールにそのまま持ち込めるか」という問いが、次の確認すべき論点になる。その答えは多くの場合「できない部分がある」であり、どの部分から手をつけるかが設計と事業の両面での判断材料になる。