AI数据中心电源设计正处于前所未有的变革节点
运行GPT-4的服务器机架功耗,2020年平均约为10-15 kW,如今搭载最新AI加速器的机架已突破100 kW。NVIDIA H100高密度机架单体功耗接近70 kW,下一代Blackwell架构更已将目标指向每机架超过120 kW。五年之内,功率密度将提升一个数量级。
这一转变要求对电源设计进行根本性的重新评估。在一个拥有10,000个机架的数据中心里,分配损耗降低2%就意味着数兆瓦级别的资本投入差异。电源拓扑的选择、功率器件的选型以及散热设计策略,不再只是基础设施供应商的专项课题,而是决定AI系统整体竞争力的工程挑战。
发生了什么变化?10倍功率密度的现实
传统服务器机架采用电源模块(PSU)生成48V母线,再由DC/DC转换器向各设备供应约1V的低压。48V架构本身依然适用,但核心问题已转变为"如何将电压升至48V以及如何从48V逐级降压"。
谷歌、Meta、微软等超大规模云服务商主导推动的"开放计算项目(OCP)"标准,采用将整个机架统一在48V的方案,以最大化服务器板卡上的转换效率。在此基础上,当前讨论进一步转向400V-800V的直流高压(HVDC)供电方案。该方案将交流电转换为高压直流,再在机架内逐级降压,理论上因转换级数减少而效率更高。然而,高压直流也带来了安全标准合规和保护电路设计复杂性的新成本。
功率密度的提升与热密度的增加本质上是同步的,从风冷向液冷的过渡也在同步推进。直接液冷(DLC)或浸没式冷却的引入,不仅改变了冷却系统设计,也改变了功率器件结温的设计前提。冷却能力的提升虽然允许器件在更恶劣的条件下工作,但同时也使冷却系统一旦故障便高度集中风险。
直流高压(HVDC)
正在探索从48V母线向HVDC(400-800V)的过渡。核心目标是通过减少转换级数提升效率,但同时也带来绝缘设计和保护电路复杂性的增加。
功率密度急剧提升
最新AI机架功耗超过100 kW,小型化与高密度电源单元,以及低阻抗配电路径,正成为设计的基本前提。
从风冷到液冷
DLC与浸没式冷却的普及改变了功率器件的散热设计前提。热阻裕量虽有所增大,但冷却系统故障时的保护设计变得至关重要。
上述变化表明,电源设计的革新并非仅仅是"提升1-2%效率"的层面,而是从根本上改变架构的量级。这也正在加速SiC与GaN等宽禁带(WBG)器件的应用讨论。
SiC与GaN:在数据中心中的差异化应用
SiC(碳化硅)和GaN(氮化镓)同属宽禁带半导体,禁带宽度均比硅(Si)宽,在高压、高温、高频工作场景下具有优势。但两者并非等同,其擅长领域因电压范围和应用场景不同而存在明显区分。
SiC主要应用于650V至1700V及以上的耐压范围。在数据中心场景中,其主要应用包括不间断电源(UPS)、电力转换设备(PFC级、逆变器)以及HVDC母线的转换级。其同步降低开关损耗和导通电阻的能力,直接有助于高功率转换效率的提升。
GaN则在较低电压范围(主要在650V以下)表现突出,擅长高开关频率工作。它在服务器PSU内部的转换级中的应用正不断扩展,特别是数百伏到48V的转换级,以及高频LLC谐振变换器。提高开关频率可缩小无源器件(电感和电容)的体积,从而减少板面积和重量。
SiC MOSFET(650V-1700V)
适用于UPS、大功率PFC和HVDC转换级。优势在于高压大功率下的低损耗。需关注短路耐受时间与栅极驱动设计。
GaN HEMT(650V以下)
适用于PSU内部的高频转换级。在高开关频率下可缩小无源器件体积。需注意较窄的栅极电压裕量。
Si IGBT/MOSFET(传统对比)
在成本和供应稳定性方面仍有优势。开关频率和损耗的局限性是与WBG器件比较时的关键决策因素。
混合配置
大功率级采用SiC、高频降压级采用GaN的组合方案正在涌现,这在设计和采购两方面均增加了复杂性。
为何短路耐受时间决定SiC MOSFET选型中的设计方向
在PSU或UPS的主开关中采用SiC时,短路耐受时间(SCWT,即Tsc)的处理是一个容易被忽视的技术细节。
短路耐受时间表示从负载短路发生到器件损坏所经历的持续时间,即保护电路触发并关断开关的"缓冲时间"。若保护电路未能在此时间内完成动作,器件将损坏。
关键因素在于SiC芯片的物理特性。
SiC芯片尺寸小、电流密度高,短路时产生的热量局部集中,对保护电路响应时间的要求比Si器件更为严苛。Microchip的700V/1200V SiC MOSFET数据手册在特定条件下规定了典型SCWT为3 μs,这意味着保护电路必须在3微秒内完成动作。
短路检测的常见实现方式是DESAT(去饱和)功能。
DESAT通过监测导通状态下的漏源电压(VDS),在短路时检测到电压上升并关断开关。在数据中心设计中,DESAT触发阈值电压(VDESAT)、DESAT检测电流(IDESAT)与短路消隐时间的综合配置,决定了保护可靠性与误触发防止之间的平衡。
此外,短路耐受时间随器件工作条件变化而改变,三个主要影响变量为漏极电压、栅极电压和结温——条件越宽松,耐受时间越长。相反,数据手册中的典型值均基于特定条件,因此必须进行针对最差情况的裕量设计。
关于温度依赖性,温度升高时RDSon增大并限制饱和电流,短路耐受能力反而有所改善。对于假设液冷且结温较低的设计,评估这一方面是重要的判断依据。
导通电阻与短路耐受时间的权衡:厂商差异化之所在
在SiC MOSFET的研发竞赛中,降低导通电阻(Ron)与保证短路耐受能力在原理上存在权衡关系。为降低导通电阻而提高单元密度,会导致短路时电流密度增大,从而降低耐受能力。如何在此权衡中寻求平衡,正是厂商结构设计差异化的体现。
各家厂商正以各自的方式应对这一挑战。Mitsubishi Electric通过在沟槽型SiC-MOSFET中引入p型保护层,显著改善了短路耐受能力。ROHM的第四代SiC MOSFET据称通过其专有器件结构,同时实现了低导通电阻(RonA)和高短路耐受能力。两者目标相同——"通过结构创新打破权衡",但具体方法各有侧重。
从设计师的角度来看,"仅凭数据手册中的SCWT数值进行对比是不够的"。测量条件(在何种电压和温度下)以及重复短路下的可靠性退化,在产品目录中往往没有详细说明。新产品导入时,需依赖评估板和参考设计的实际测量结果作为判断依据。
从采购角度而言,SiC MOSFET供应商的选择不仅涉及单价和交货期,还需考虑器件结构代际更新周期以及后继产品兼容性验证的成本。如ROHM第四代的代际升级虽带来性能提升,但也可能需要重新设计栅极驱动电路并重新评估可靠性。
量化效率:损耗集中在哪里
讨论电源设计效率时,容易对"哪个转换级产生多少损耗"缺乏清晰认识。数据中心的功率流可大致划分为以下转换链:市电AC → UPS/PFC级 → 直流母线 → 服务器PSU → 板载DC/DC。
此图表明,各级效率的累积改善显著影响整条链路的总损耗。UPS/PFC级采用Si与SiC之间若存在2.5个百分点的差距,对于一个拥有10,000个机架的数据中心而言,这将转化为兆瓦量级的差异——这正是单器件的对比选型能直接影响商业决策的原因。
然而,上述数据仅为参考水平,实际效率因电路拓扑、工作点和冷却条件不同而存在较大差异。关键在于识别"哪一级是主要损耗来源",这将决定改善投资的优先级。
设计、采购与技术规划的"下一步问题"
基于上述分析,不同角色的关注重点各有侧重。
电路设计/器件选型
确认SCWT的测量条件以及DESAT参数的对齐情况。与保护电路响应速度匹配的短路消隐时间,是关键的选型要点。
可靠性/评估工程师
重复短路下的退化数据、热循环下的Ron漂移以及栅极绝缘膜的长期可靠性,是超出产品目录规格的评估项目。
采购/供应商管理
随着SiC第四代等代际更新持续推进,需考虑涵盖后继产品兼容性及评估成本在内的总拥有成本(TCO)。多源化采购的难度也与SiC晶圆采购风险密切相关。
技术规划/业务拓展
向HVDC过渡的时机和标准化趋势(如OCP)将决定市场的拐点。优先投资SiC还是GaN,取决于目标转换级的电压范围。
电源设计的讨论往往从单个器件性能的比较开始。然而,实际决策是一个多层面的议题,涉及转换架构、保护电路设计、采购风险和长期可靠性。即便只是SiC MOSFET短路耐受能力这一单项,也必须从测量条件、器件结构和保护电路响应时间三个层面加以审视。
随着AI服务器机架功耗超过100 kW,"当前设计能否扩展至100 kW"成为下一个关键讨论节点。在很多情况下,答案并非"完全可以",而确定优先解决哪些部分,将成为设计与商业决策的重要依据。
