AI数据中心电源设计正处于前所未有的变革节点

运行GPT-4的服务器机架功耗,2020年平均约为10-15 kW,如今搭载最新AI加速器的机架已突破100 kW。NVIDIA H100高密度机架单体功耗接近70 kW,下一代Blackwell架构更已将目标指向每机架超过120 kW。五年之内,功率密度将提升一个数量级。

这一转变要求对电源设计进行根本性的重新评估。在一个拥有10,000个机架的数据中心里,分配损耗降低2%就意味着数兆瓦级别的资本投入差异。电源拓扑的选择、功率器件的选型以及散热设计策略,不再只是基础设施供应商的专项课题,而是决定AI系统整体竞争力的工程挑战。

发生了什么变化?10倍功率密度的现实

传统服务器机架采用电源模块(PSU)生成48V母线,再由DC/DC转换器向各设备供应约1V的低压。48V架构本身依然适用,但核心问题已转变为"如何将电压升至48V以及如何从48V逐级降压"。

谷歌、Meta、微软等超大规模云服务商主导推动的"开放计算项目(OCP)"标准,采用将整个机架统一在48V的方案,以最大化服务器板卡上的转换效率。在此基础上,当前讨论进一步转向400V-800V的直流高压(HVDC)供电方案。该方案将交流电转换为高压直流,再在机架内逐级降压,理论上因转换级数减少而效率更高。然而,高压直流也带来了安全标准合规和保护电路设计复杂性的新成本。

功率密度的提升与热密度的增加本质上是同步的,从风冷向液冷的过渡也在同步推进。直接液冷(DLC)或浸没式冷却的引入,不仅改变了冷却系统设计,也改变了功率器件结温的设计前提。冷却能力的提升虽然允许器件在更恶劣的条件下工作,但同时也使冷却系统一旦故障便高度集中风险。

AI数据中心电源架构的三大关键趋势
01

直流高压(HVDC)

正在探索从48V母线向HVDC(400-800V)的过渡。核心目标是通过减少转换级数提升效率,但同时也带来绝缘设计和保护电路复杂性的增加。

02

功率密度急剧提升

最新AI机架功耗超过100 kW,小型化与高密度电源单元,以及低阻抗配电路径,正成为设计的基本前提。

03

从风冷到液冷

DLC与浸没式冷却的普及改变了功率器件的散热设计前提。热阻裕量虽有所增大,但冷却系统故障时的保护设计变得至关重要。

上述变化表明,电源设计的革新并非仅仅是"提升1-2%效率"的层面,而是从根本上改变架构的量级。这也正在加速SiC与GaN等宽禁带(WBG)器件的应用讨论。

SiC与GaN:在数据中心中的差异化应用

SiC(碳化硅)和GaN(氮化镓)同属宽禁带半导体,禁带宽度均比硅(Si)宽,在高压、高温、高频工作场景下具有优势。但两者并非等同,其擅长领域因电压范围和应用场景不同而存在明显区分。

SiC主要应用于650V至1700V及以上的耐压范围。在数据中心场景中,其主要应用包括不间断电源(UPS)、电力转换设备(PFC级、逆变器)以及HVDC母线的转换级。其同步降低开关损耗和导通电阻的能力,直接有助于高功率转换效率的提升。

GaN则在较低电压范围(主要在650V以下)表现突出,擅长高开关频率工作。它在服务器PSU内部的转换级中的应用正不断扩展,特别是数百伏到48V的转换级,以及高频LLC谐振变换器。提高开关频率可缩小无源器件(电感和电容)的体积,从而减少板面积和重量。

SiC vs. GaN:在数据中心电源中的差异化定位
01

SiC MOSFET(650V-1700V)

适用于UPS、大功率PFC和HVDC转换级。优势在于高压大功率下的低损耗。需关注短路耐受时间与栅极驱动设计。

02

GaN HEMT(650V以下)

适用于PSU内部的高频转换级。在高开关频率下可缩小无源器件体积。需注意较窄的栅极电压裕量。

03

Si IGBT/MOSFET(传统对比)

在成本和供应稳定性方面仍有优势。开关频率和损耗的局限性是与WBG器件比较时的关键决策因素。

04

混合配置

大功率级采用SiC、高频降压级采用GaN的组合方案正在涌现,这在设计和采购两方面均增加了复杂性。

为何短路耐受时间决定SiC MOSFET选型中的设计方向

在PSU或UPS的主开关中采用SiC时,短路耐受时间(SCWT,即Tsc)的处理是一个容易被忽视的技术细节。

短路耐受时间表示从负载短路发生到器件损坏所经历的持续时间,即保护电路触发并关断开关的"缓冲时间"。若保护电路未能在此时间内完成动作,器件将损坏。

关键因素在于SiC芯片的物理特性。

SiC芯片尺寸小、电流密度高,短路时产生的热量局部集中,对保护电路响应时间的要求比Si器件更为严苛。Microchip的700V/1200V SiC MOSFET数据手册在特定条件下规定了典型SCWT为3 μs,这意味着保护电路必须在3微秒内完成动作。

短路检测的常见实现方式是DESAT(去饱和)功能。

DESAT通过监测导通状态下的漏源电压(VDS),在短路时检测到电压上升并关断开关。在数据中心设计中,DESAT触发阈值电压(VDESAT)、DESAT检测电流(IDESAT)与短路消隐时间的综合配置,决定了保护可靠性与误触发防止之间的平衡。

此外,短路耐受时间随器件工作条件变化而改变,三个主要影响变量为漏极电压、栅极电压和结温——条件越宽松,耐受时间越长。相反,数据手册中的典型值均基于特定条件,因此必须进行针对最差情况的裕量设计。

关于温度依赖性,温度升高时RDSon增大并限制饱和电流,短路耐受能力反而有所改善。对于假设液冷且结温较低的设计,评估这一方面是重要的判断依据。

导通电阻与短路耐受时间的权衡:厂商差异化之所在

在SiC MOSFET的研发竞赛中,降低导通电阻(Ron)与保证短路耐受能力在原理上存在权衡关系。为降低导通电阻而提高单元密度,会导致短路时电流密度增大,从而降低耐受能力。如何在此权衡中寻求平衡,正是厂商结构设计差异化的体现。

各家厂商正以各自的方式应对这一挑战。Mitsubishi Electric通过在沟槽型SiC-MOSFET中引入p型保护层,显著改善了短路耐受能力。ROHM的第四代SiC MOSFET据称通过其专有器件结构,同时实现了低导通电阻(RonA)和高短路耐受能力。两者目标相同——"通过结构创新打破权衡",但具体方法各有侧重。

从设计师的角度来看,"仅凭数据手册中的SCWT数值进行对比是不够的"。测量条件(在何种电压和温度下)以及重复短路下的可靠性退化,在产品目录中往往没有详细说明。新产品导入时,需依赖评估板和参考设计的实际测量结果作为判断依据。

从采购角度而言,SiC MOSFET供应商的选择不仅涉及单价和交货期,还需考虑器件结构代际更新周期以及后继产品兼容性验证的成本。如ROHM第四代的代际升级虽带来性能提升,但也可能需要重新设计栅极驱动电路并重新评估可靠性。

量化效率:损耗集中在哪里

讨论电源设计效率时,容易对"哪个转换级产生多少损耗"缺乏清晰认识。数据中心的功率流可大致划分为以下转换链:市电AC → UPS/PFC级 → 直流母线 → 服务器PSU → 板载DC/DC。

Loading chart

此图表明,各级效率的累积改善显著影响整条链路的总损耗。UPS/PFC级采用Si与SiC之间若存在2.5个百分点的差距,对于一个拥有10,000个机架的数据中心而言,这将转化为兆瓦量级的差异——这正是单器件的对比选型能直接影响商业决策的原因。

然而,上述数据仅为参考水平,实际效率因电路拓扑、工作点和冷却条件不同而存在较大差异。关键在于识别"哪一级是主要损耗来源",这将决定改善投资的优先级。

设计、采购与技术规划的"下一步问题"

基于上述分析,不同角色的关注重点各有侧重。

AI数据中心电源设计:各角色的下一步确认要点
01

电路设计/器件选型

确认SCWT的测量条件以及DESAT参数的对齐情况。与保护电路响应速度匹配的短路消隐时间,是关键的选型要点。

02

可靠性/评估工程师

重复短路下的退化数据、热循环下的Ron漂移以及栅极绝缘膜的长期可靠性,是超出产品目录规格的评估项目。

03

采购/供应商管理

随着SiC第四代等代际更新持续推进,需考虑涵盖后继产品兼容性及评估成本在内的总拥有成本(TCO)。多源化采购的难度也与SiC晶圆采购风险密切相关。

04

技术规划/业务拓展

向HVDC过渡的时机和标准化趋势(如OCP)将决定市场的拐点。优先投资SiC还是GaN,取决于目标转换级的电压范围。

电源设计的讨论往往从单个器件性能的比较开始。然而,实际决策是一个多层面的议题,涉及转换架构、保护电路设计、采购风险和长期可靠性。即便只是SiC MOSFET短路耐受能力这一单项,也必须从测量条件、器件结构和保护电路响应时间三个层面加以审视。

随着AI服务器机架功耗超过100 kW,"当前设计能否扩展至100 kW"成为下一个关键讨论节点。在很多情况下,答案并非"完全可以",而确定优先解决哪些部分,将成为设计与商业决策的重要依据。