是否在AI服务器电源设计中采用GaN,并非仅凭其"下一代技术"的定位就能决定。需要在开关频率、功率密度和热设计三个维度上,确认GaN相对于SiC或Si是否具有明确优势。
AI服务器电源中的GaN采用条件
AI服务器电源模块(PSU)所需的规格与传统数据中心有所不同。搭载NVIDIA H100或B200的服务器,每机架功耗可超过100 kW,功率密度和转换效率直接关系到整个系统的热设计。GaN(氮化镓)凭借高开关频率和低开关损耗的材料优势,在这一环境下备受关注。
GaN器件采用横向结构,SiC垂直器件所特有的短路耐受时间问题不太可能成为主要设计顾虑。另一方面,AI服务器电源越来越多地采用48V至12V转换或直接从48V降压至1V(Direct-to-chip)的配置,GaN的特性在650V以下电压范围内得到最充分的发挥。这表明其与SiC主导的高压大电流逆变器领域存在自然的细分边界。
那么,GaN的具体采用标准是什么?首先需要确认的是工作频率。GaN的开关损耗显著低于Si,在数百kHz至数MHz范围内仍能保持高效率。这种高频工作使得无源器件(电感、电容)得以小型化,从而减小整个PSU的体积。随着AI服务器机架密度的提升,这种体积缩减的价值愈发显著。
工作频率
在数百kHz至数MHz的高频工作下抑制开关损耗,有助于无源器件小型化,直接提升功率密度。
电压范围
GaN在650V以下的PFC和LLC级具有优势,适合AI服务器电源中48V至12V及48V直接转换的配置。
热设计裕量
GaN的工作温度上限低于Si。冷却设计裕量的可用性,是实际采用决策中的重要因素。
短路保护的设计差异——与SiC有何不同?
尽管GaN和SiC有时在AI服务器电源的讨论中被放在同一语境下,但从短路保护的角度来看,设计挑战的性质截然不同。选用SiC MOSFET时,短路耐受时间(SCWT,Tsc)始终是关键考量。这一指标表示负载发生短路时器件被损坏前所能承受的时间,是保护电路动作的缓冲窗口。
SiC器件芯片尺寸更小、电流密度更高,短路时的温升速度比Si器件更快。Microchip的700V/1200V SiC MOSFET数据手册在特定条件下规定典型短路耐受时间为3 μs,这意味着保护电路必须在3 μs内关断器件。
GaN器件因其横向结构而表现出不同的特性。虽然短路耐受时间并非可以完全忽略的问题,但对于AI服务器电源所采用的相对低压、低电流应用而言,过流保护的设计方法有所不同。无论选择哪种器件,保护电路的响应速度始终与器件选型密不可分。
DESAT(去饱和)检测被广泛用于SiC的短路保护。该机制监测导通状态下的漏源电压(VDS),检测到过流时关断功率晶体管,通常集成在栅极驱动IC中。GaN栅极驱动器同样内置过流保护功能,但响应速度与误动作防止(消隐时间设置)之间的平衡因设计而异。
如何解读功率密度指标
AI服务器电源的研发竞赛中,功率密度(W/in³或W/cm³)是反复出现的指标。近年来,80 PLUS Titanium认证的高效PSU行业标准约为50 W/in³,而采用GaN的设计已出现超过100 W/in³的产品实例。但直接对比这些数字时需谨慎,因为条件因输入电压范围、输出电压和冷却方式(风冷或液冷)而异。
作为AI服务器特有电源架构日益普及的48V电源总线,其线路电流低于传统12V配电,从而降低了传输损耗。在这一架构中,GaN FET主要承担PFC(功率因数校正)级和DC/DC转换级,650V额定器件十分适用。GaN的采用在符合开放计算项目推广的ORv3标准的48V/3kW兼容PSU中正持续增加。
此图说明GaN与Si在650V额定电压范围内存在竞争,而SiC则占据1200V以上高压应用的细分空间。在AI服务器电源的PFC和LLC级采用GaN,是与同电压等级Si MOSFET进行比较后的决策。
成本结构与供应现实
GaN FET的单价目前仍高于Si MOSFET,但考虑到无源器件减少和PCB面积缩小所带来的节省,从整体系统成本来看,GaN具有优势的案例正在出现。关键在于,不能只看"单个器件的价格",而要以"PSU整体物料清单(BOM)的成本"来衡量。无源器件数量的减少同样改变了实装成本和可靠性风险。
在供应层面,onsemi提供覆盖650V至1700V的SiC MOSFET、二极管和模块组合,而GaN领域的主要供应商包括EPC、GaN Systems(已被Infineon收购)、Nexperia以及Texas Instruments。AI服务器电源用650V GaN FET的供应链在2023至2024年间迅速强化。然而,与SiC晶圆类似,GaN在制造良率方面同样面临挑战,多供应商关系对于大批量稳定采购至关重要。
GaN器件的可靠性评估可能需要超出标准加速寿命测试(ALT)的测试,例如高温反偏(HTRB)以及动态RDS(on)变化的监测。动态RDS(on)是指开关工作期间导通电阻暂时超过其静态值的现象,被普遍认为是GaN器件特有的挑战。这一现象的严重程度取决于器件结构和制造工艺,仅凭数据手册中的静态RDS(on)值进行评估,可能会低估实际工作损耗。
具体应该确认哪些内容?
在技术和采购两方面均具备充分决策信息的基础上,以下整理了实际采用评估过程中需要确认的要点。
动态RDS(on)测试数据
向供应商索取高频开关条件下动态RDS(on)变化的数据,而非仅依赖数据手册中的静态值。这直接影响设计裕量。
与栅极驱动器的配合评估
GaN FET的性能由其与适当栅极驱动器的组合决定。过流保护和消隐时间的设置直接关系到系统可靠性。
跨代兼容性
确认器件的引脚兼容性和电气特性的延续性。AI服务器产品生命周期短,所采用器件的代际更换必须纳入供应计划。
热阻与冷却方式的匹配性
更高的功率密度要求更大的热设计裕量。器件的结温裕量随风冷与液冷的差异而变化。需结合冷却方式确认最高工作温度规格。
AI服务器电源是否采用GaN,并非通过简单的单器件特性对比就能决定,而需要综合评估整体电源架构、冷却设计和采购风险。正如短路耐受时间和DESAT设计是SiC选型的核心考量,动态RDS(on)和栅极驱动器设计的适配性,是GaN选型的核心验证项目。随着电压范围细分日趋清晰,对各系统级适合哪种材料建立结构性认识,将加速设计和采购两方面的后续决策。
