AI数据中心电源：设计趋势全面解析

AI数据中心电源设计正处于前所未有的变革节点

运行GPT-4的服务器机架功耗，2020年平均约为10-15 kW，如今搭载最新AI加速器的机架已突破100 kW。NVIDIA H100高密度机架单体功耗接近70 kW，下一代Blackwell架构更已将目标指向每机架超过120 kW。五年之内，功率密度将提升一个数量级。

这一转变要求对电源设计进行根本性的重新评估。在一个拥有10,000个机架的数据中心里，分配损耗降低2%就意味着数兆瓦级别的资本投入差异。电源拓扑的选择、功率器件的选型以及散热设计策略，不再只是基础设施供应商的专项课题，而是决定AI系统整体竞争力的工程挑战。

发生了什么变化？10倍功率密度的现实

传统服务器机架采用电源模块（PSU）生成48V母线，再由DC/DC转换器向各设备供应约1V的低压。48V架构本身依然适用，但核心问题已转变为"如何将电压升至48V以及如何从48V逐级降压"。

谷歌、Meta、微软等超大规模云服务商主导推动的"开放计算项目（OCP）"标准，采用将整个机架统一在48V的方案，以最大化服务器板卡上的转换效率。在此基础上，当前讨论进一步转向400V-800V的直流高压（HVDC）供电方案。该方案将交流电转换为高压直流，再在机架内逐级降压，理论上因转换级数减少而效率更高。然而，高压直流也带来了安全标准合规和保护电路设计复杂性的新成本。

功率密度的提升与热密度的增加本质上是同步的，从风冷向液冷的过渡也在同步推进。直接液冷（DLC）或浸没式冷却的引入，不仅改变了冷却系统设计，也改变了功率器件结温的设计前提。冷却能力的提升虽然允许器件在更恶劣的条件下工作，但同时也使冷却系统一旦故障便高度集中风险。

AI数据中心电源架构的三大关键趋势

直流高压（HVDC）

正在探索从48V母线向HVDC（400-800V）的过渡。核心目标是通过减少转换级数提升效率，但同时也带来绝缘设计和保护电路复杂性的增加。

功率密度急剧提升

最新AI机架功耗超过100 kW，小型化与高密度电源单元，以及低阻抗配电路径，正成为设计的基本前提。

从风冷到液冷

DLC与浸没式冷却的普及改变了功率器件的散热设计前提。热阻裕量虽有所增大，但冷却系统故障时的保护设计变得至关重要。

上述变化表明，电源设计的革新并非仅仅是"提升1-2%效率"的层面，而是从根本上改变架构的量级。这也正在加速SiC与GaN等宽禁带（WBG）器件的应用讨论。

SiC与GaN：在数据中心中的差异化应用

SiC（碳化硅）和GaN（氮化镓）同属宽禁带半导体，禁带宽度均比硅（Si）宽，在高压、高温、高频工作场景下具有优势。但两者并非等同，其擅长领域因电压范围和应用场景不同而存在明显区分。

SiC主要应用于650V至1700V及以上的耐压范围。在数据中心场景中，其主要应用包括不间断电源（UPS）、电力转换设备（PFC级、逆变器）以及HVDC母线的转换级。其同步降低开关损耗和导通电阻的能力，直接有助于高功率转换效率的提升。

GaN则在较低电压范围（主要在650V以下）表现突出，擅长高开关频率工作。它在服务器PSU内部的转换级中的应用正不断扩展，特别是数百伏到48V的转换级，以及高频LLC谐振变换器。提高开关频率可缩小无源器件（电感和电容）的体积，从而减少板面积和重量。

SiC vs. GaN：在数据中心电源中的差异化定位

SiC MOSFET（650V-1700V）

适用于UPS、大功率PFC和HVDC转换级。优势在于高压大功率下的低损耗。需关注短路耐受时间与栅极驱动设计。

GaN HEMT（650V以下）

适用于PSU内部的高频转换级。在高开关频率下可缩小无源器件体积。需注意较窄的栅极电压裕量。

Si IGBT/MOSFET（传统对比）

在成本和供应稳定性方面仍有优势。开关频率和损耗的局限性是与WBG器件比较时的关键决策因素。

混合配置

大功率级采用SiC、高频降压级采用GaN的组合方案正在涌现，这在设计和采购两方面均增加了复杂性。

为何短路耐受时间决定SiC MOSFET选型中的设计方向

在PSU或UPS的主开关中采用SiC时，短路耐受时间（SCWT，即Tsc）的处理是一个容易被忽视的技术细节。

短路耐受时间表示从负载短路发生到器件损坏所经历的持续时间，即保护电路触发并关断开关的"缓冲时间"。若保护电路未能在此时间内完成动作，器件将损坏。

关键因素在于SiC芯片的物理特性。

SiC芯片尺寸小、电流密度高，短路时产生的热量局部集中，对保护电路响应时间的要求比Si器件更为严苛。Microchip的700V/1200V SiC MOSFET数据手册在特定条件下规定了典型SCWT为3 μs，这意味着保护电路必须在3微秒内完成动作。

短路检测的常见实现方式是DESAT（去饱和）功能。

DESAT通过监测导通状态下的漏源电压（VDS），在短路时检测到电压上升并关断开关。在数据中心设计中，DESAT触发阈值电压（VDESAT）、DESAT检测电流（IDESAT）与短路消隐时间的综合配置，决定了保护可靠性与误触发防止之间的平衡。

此外，短路耐受时间随器件工作条件变化而改变，三个主要影响变量为漏极电压、栅极电压和结温——条件越宽松，耐受时间越长。相反，数据手册中的典型值均基于特定条件，因此必须进行针对最差情况的裕量设计。

关于温度依赖性，温度升高时RDSon增大并限制饱和电流，短路耐受能力反而有所改善。对于假设液冷且结温较低的设计，评估这一方面是重要的判断依据。

导通电阻与短路耐受时间的权衡：厂商差异化之所在

在SiC MOSFET的研发竞赛中，降低导通电阻（Ron）与保证短路耐受能力在原理上存在权衡关系。为降低导通电阻而提高单元密度，会导致短路时电流密度增大，从而降低耐受能力。如何在此权衡中寻求平衡，正是厂商结构设计差异化的体现。

各家厂商正以各自的方式应对这一挑战。Mitsubishi Electric通过在沟槽型SiC-MOSFET中引入p型保护层，显著改善了短路耐受能力。ROHM的第四代SiC MOSFET据称通过其专有器件结构，同时实现了低导通电阻（RonA）和高短路耐受能力。两者目标相同——"通过结构创新打破权衡"，但具体方法各有侧重。

从设计师的角度来看，"仅凭数据手册中的SCWT数值进行对比是不够的"。测量条件（在何种电压和温度下）以及重复短路下的可靠性退化，在产品目录中往往没有详细说明。新产品导入时，需依赖评估板和参考设计的实际测量结果作为判断依据。

从采购角度而言，SiC MOSFET供应商的选择不仅涉及单价和交货期，还需考虑器件结构代际更新周期以及后继产品兼容性验证的成本。如ROHM第四代的代际升级虽带来性能提升，但也可能需要重新设计栅极驱动电路并重新评估可靠性。

量化效率：损耗集中在哪里

讨论电源设计效率时，容易对"哪个转换级产生多少损耗"缺乏清晰认识。数据中心的功率流可大致划分为以下转换链：市电AC → UPS/PFC级 → 直流母线 → 服务器PSU → 板载DC/DC。

Loading chart

此图表明，各级效率的累积改善显著影响整条链路的总损耗。UPS/PFC级采用Si与SiC之间若存在2.5个百分点的差距，对于一个拥有10,000个机架的数据中心而言，这将转化为兆瓦量级的差异——这正是单器件的对比选型能直接影响商业决策的原因。

然而，上述数据仅为参考水平，实际效率因电路拓扑、工作点和冷却条件不同而存在较大差异。关键在于识别"哪一级是主要损耗来源"，这将决定改善投资的优先级。

设计、采购与技术规划的"下一步问题"

基于上述分析，不同角色的关注重点各有侧重。

AI数据中心电源设计：各角色的下一步确认要点

电路设计/器件选型

确认SCWT的测量条件以及DESAT参数的对齐情况。与保护电路响应速度匹配的短路消隐时间，是关键的选型要点。

可靠性/评估工程师

重复短路下的退化数据、热循环下的Ron漂移以及栅极绝缘膜的长期可靠性，是超出产品目录规格的评估项目。

采购/供应商管理

随着SiC第四代等代际更新持续推进，需考虑涵盖后继产品兼容性及评估成本在内的总拥有成本（TCO）。多源化采购的难度也与SiC晶圆采购风险密切相关。

技术规划/业务拓展

向HVDC过渡的时机和标准化趋势（如OCP）将决定市场的拐点。优先投资SiC还是GaN，取决于目标转换级的电压范围。

电源设计的讨论往往从单个器件性能的比较开始。然而，实际决策是一个多层面的议题，涉及转换架构、保护电路设计、采购风险和长期可靠性。即便只是SiC MOSFET短路耐受能力这一单项，也必须从测量条件、器件结构和保护电路响应时间三个层面加以审视。

随着AI服务器机架功耗超过100 kW，"当前设计能否扩展至100 kW"成为下一个关键讨论节点。在很多情况下，答案并非"完全可以"，而确定优先解决哪些部分，将成为设计与商业决策的重要依据。