第一章:AI 算力军备竞赛:功耗飙升成为新常态
AI 模型的规模与复杂度正以摩尔定律失效的速度急剧膨胀,直接推动了 AI 芯片的功耗以前所未有的幅度攀升。这不仅是简单的线性增长,更是对数据中心供电与散热架构的颠覆性挑战。
1.1 旗舰 AI 芯片功耗迈入“千瓦时代”
进入 2025 年,主流 AI 芯片的功耗已全面突破传统认知。
NVIDIA Blackwell 架构的冲击:作为当前市场的绝对领导者,NVIDIA 的最新 Blackwell 架构将功耗推向了新的高峰。其旗舰产品 B200 GPU 的单芯片热设计功耗(TDP)已确切达到 1000W,特定高规格版本甚至可达 1200W,后者通常需要配合液冷散热方案 [61][176][223]。这与上一代 H100 GPU 约 700W 的 TDP 相比,实现了显著的跃升 [5][9][19]。
AMD 与初创公司的追赶:在竞争格局中,AMD 的 MI300X 加速器功耗也达到了 750W [5][9] 而以高能效比著称的 Groq LPU,其当前芯片功耗也达到了 500W,并计划在年内推出基于 4 纳米工艺的新芯片以进一步优化性能与功耗 [18][13]。
1.2 系统级功耗:从单机“十千瓦”到机柜“百千瓦”
单芯片的功耗飙升,直接传导至整个服务器系统和数据中心机柜层面。
单服务器功耗:以搭载 8 颗 H100 GPU 的 NVIDIA DGX H100 服务器为例,其系统最大功耗高达 10.2kW [91][108][110]。而进入 Blackwell 时代,情况更为严峻。由两颗 B200 GPU 和一颗 Grace CPU 组成的 GB200 超级芯片,其总功耗高达 2700W [63][71][230]。一台标准的 DGX B200 服务器(集成 8 颗 B200),其总功耗已达到惊人的 14.3kW [240]。
机柜级功耗:为了实现极致算力密度,NVIDIA 推出的 NVL72 整机柜方案,集成了 72 颗 B200 GPU,使得单个机柜的总功耗一举突破 100kW,甚至达到 120kW [147][230][240]。这彻底颠覆了传统数据中心单个机柜 30-40kW 的设计上限 [32],对从机柜 PDU(电源分配单元)到整个数据中心的供配电链路提出了革命性的要求。
功耗的指数级增长,意味着 AI 服务器电源系统不再是简单的能量转换器,而是保障海量算力稳定释放、决定数据中心能源效率(PUE)和运营成本的核心瓶颈。
第二章:AI 服务器电源架构的深刻变革
为应对“千瓦级”AI 芯片和“十千瓦级”服务器带来的巨大供电压力,AI 服务器的电源架构正经历着从设计理念到物理形态的全面升级。简单、单一的电源配置方案已彻底过时,取而代之的是高功率、高密度、高冗余的模块化设计。
2.1“人多力量大”:多模组冗余成为标配
为保证 AI 训练任务 7x24 小时不间断运行的高可靠性要求,电源冗余设计成为硬性标准。AI 服务器普遍采用 N+N 或 N+1 的冗余模式 [22][38]。
典型配置案例:
戴尔 PowerEdge XE9680:这款为 AI 和 HPC 设计的旗舰服务器,配置了多达四个 2800W 的可热插拔电源模块 [48][43] Web Pge 57),采用 2+2 或 3+1 冗余,确保在单个电源故障时系统仍能全功率运行。
浪潮 AI 服务器:以浪潮 NF5468A5 为例,支持 3+1 或 2+2 冗余配置 [30]。其后继机型如 NF5688M6,更是支持最多安装 6 个电源模块,采用 3+3 冗余模式,彰显了对供电可靠性的极致追求 [47][51]。
NVIDIA DGX H100:根据不同分析,该系统配置了 6 个 3300W 电源模块 [91] 或 4 个 3000W 内部电源供应单元 [112],总功率储备远超最大功耗,为系统提供坚实的冗余保障。
综合来看,为支持 4 到 8 颗高功耗 GPU,当代主流 AI 服务器配置 4 至 8 个大功率电源模组已成为常态。这不仅是为了满足峰值功耗需求,更是为了通过冗余设计确保业务连续性。
2.2 CRPS 规范与高功率密度化趋势
为了实现标准化、模块化和易维护性,开放计算项目(OCP)定义的通用冗余电源(CRPS)规范已成为行业主流 [24]。CRPS 规范统一了电源模块的物理尺寸和接口,其热插拔设计极大地方便了数据中心的运维工作 [38]。
然而,AI 的浪潮对 CRPS 提出了新的要求:在有限的 1U 空间内(40mm x 73.5mm x 185mm),实现功率的飞跃。电源功率从传统的 550W、800W、1200W,一路跃升至 2000W、2800W,如今 3000W 至 3200W 的电源模块已成为 AI 服务器的主流配置,并正在向 5500W 甚至 8000W 演进 [85][194][199]。功率密度的急剧提升,是 AI 时代电源技术最显著的特征之一。
第三章:量价齐升:AI 服务器电源市场的价值重估
随着 AI 服务器对电源在功率、数量、效率和技术上的要求急剧提升,电源市场的价值逻辑正在被彻底改写。一个“量价齐升”的黄金时代已经到来,其在整机成本中的占比也发生了质变。
3.1 价格跃迁:单瓦价值的几何级增长
AI 服务器电源的成本远高于传统服务器电源,这体现在其“单瓦价格(Price Per Watt)”的急剧攀升上。
技术溢价:高效率认证与新材料应用
80Plus 钛金认证成为门槛:为应对严苛的能效法规(如欧盟 Lot 9 规定)和高昂的电费成本,AI 服务器电源普遍要求达到 80Plus 钛金(Titanium)认证标准 [37]。钛金认证要求电源在 50% 负载下效率高达 96%,在 10% 的低负载下效率也要达到 90% [23][25]。实现如此高的转换效率,需要更复杂的电路设计、更高质量的元器件,直接推高了制造成本。据悉,仅认证等级的提升,钛金牌电源的价格通常就是白金牌的 1.5 至 2 倍 [36][134]。
第三代半导体的导入:为了在有限体积内实现 3000W 以上的高功率,传统的硅基功率器件已力不从心。业界领先的电源厂商,如台达电子,已普遍采用碳化硅(SiC)和氮化镓(GaN)等宽禁带半导体材料 [25][28][29]。这些新材料虽然能带来更高的开关频率、更低的损耗和更高的功率密度,但其成本也远高于传统硅器件,成为推高电源单价的关键因素。
单瓦价格对比分析
根据行业渠道信息,即便是价格相对有竞争力的光宝科技,其 AI 服务器电源的 AC-DC 部分单价也达到了约 4 元人民币 / 瓦;而市场领导者台达电子,由于其方案覆盖 AC-DC 和后续的 DC-DC 转换,整体价值更高,其 AC-DC 单价约为 8-10 元人民币 / 瓦 [197][248]。
有行业观点明确指出,即使是光宝 4 元 / 瓦的价格,也“比现在普通电源高 4 倍” [197]。我们可以做一个对比:一台传统服务器可能使用 1000W 金牌电源,其市场单瓦价格通常在 1 元 / 瓦以下。而 AI 服务器使用的 3000W 钛金电源,其单瓦价格轻松达到 4-10 元。
由此可见,“单 W 价格较传统服务器提升 5 倍以上”的论断,是对当前市场状况的精确描述。这种价值跃升,源于技术门槛、材料成本和研发投入的全面提高。
3.2 成本重构:从“边缘组件”到“核心子系统”
传统观念认为,电源在服务器 BOM(物料清单)中成本占比较低。例如,对 NVIDIA DGX H100 的拆解分析显示,其内部 PSU 在总 BOM 成本中仅占 0.3%-0.4% [91][158][214]。然而,这种分析方法具有极大的误导性,已经无法反映 AI 时代电源系统的真实价值和成本构成。
1.分析视角的局限性:在 DGX H100 这类极端系统中,仅 8 颗 GPU 的成本就高达近 20 万美元,占据 BOM 的 70% 以上 [91][158][255] 这使得其他所有组件的成本占比在数学上都被严重稀释。将此特例作为通用标准,会严重低估电源的实际重要性。
2.成本定义的演进:进入 AI 和液冷时代,对“电源成本”的定义必须从单一的服务器内部 PSU(Power Supply Unit),扩展到包含机架级 PDU(Power Distribution Unit)和液冷 CDU(Coolant Distribution Unit)在内的完整“供电与散热子系统”。因为这三者共同构成了保障 AI 服务器稳定运行的能源生命线。
l 高功率 PDU 的成本:一个支持 100kW + 功率的机柜,其所需的智能、高冗余机架 PDU,本身就是一笔巨大的投资,远非传统 PDU 可比。
l 液冷 CDU 的成本:对于像 GB200 NVL72 这样的液冷系统,其液冷组件(包括 CDU、冷板、管路等)的总价值预估在 8 万至 10 万美元,甚至更高 [138][141][146]。CDU 作为液冷系统的心脏,其自身的运行也需要稳定可靠的供电,是广义电源系统的一部分。
3.未来的成本占比预测:当我们采用“供电与散热子系统”的整体视角来重新审视成本构成时,其在服务器部署总成本中的占比将发生质变。特别是在规划新的 AI 数据中心或大规模算力集群时,为单台服务器所分摊的整个能源配套基础设施(高功率 PSU 模组 + 高规格 PDU + CDU 及其配电)的投资,将远超 BOM 清单上那微不足道的 0.4%。因此,对于整个 AI 服务器市场,尤其是面向未来的新一代架构,电源及相关配套系统的总成本占比达到 15%-20%,是一个更为真实和具有前瞻性的判断。它反映了行业从“唯芯片论”向“算力与能源并重”的价值认知转变。
第四章:技术前沿与市场格局:谁将主导未来?
AI 服务器电源市场的爆发式增长,正吸引着众多玩家入局,并推动着相关技术的加速演进。
4.1 技术发展方向
极致效率与功率密度:追求超越 96% 的钛金效率,甚至向着 97.5% 以上的更高标准迈进,将是永恒的主题。氮化镓(GaN)和碳化硅(SiC)等第三代半导体材料的应用将更加普及,成为实现更高功率密度的关键 [29][194][295]。
液冷供电一体化:随着液冷成为 B200 及后续芯片的标配散热方案 [62][79][141] 电源设计需要与液冷系统更紧密地集成。为 CDU、水泵等部件提供高效、可靠的供电,以及电源本身的热管理与液冷系统的联动,将成为新的设计挑战和创新点。
智能化与数字化:未来的电源将不仅仅是“哑”设备,而是具备更多通信和监控能力的智能节点。通过 PMBus 等协议,实现对电压、电流、功率、温度等参数的实时监控和调节,与上层管理软件联动,实现精细化的能耗管理和预测性维护,将是提升数据中心整体运营效率的关键。
4.2 市场竞争格局
目前,全球服务器电源市场呈现高度集中的态势,领导者优势明显。
台达电子(Delta):作为无可争议的行业龙头,台达凭借其深厚的技术积累、强大的研发实力和与头部云厂商及服务器 OEM 的紧密合作关系,占据了超过 50% 的市场份额,在一线客户中的占有率更是高达 80%-90% [194]。其在 3200W 钛金级电源等高端产品上的率先布局,巩固了其市场领导地位。
光宝科技(Lite-On):作为市场的主要追赶者,光宝科技同样具备强大的研发和生产能力,在 AI 服务器电源市场占据重要一席 [194][250]。光宝通常采取更具竞争力的定价策略,其单瓦价格相较台达更低 [248],使其在部分客户和市场中具备优势。随着 3000W 以上产品开始放量,光宝有望在 AI 浪潮中进一步扩大市场份额。
其他参与者:此外,康舒科技(AcBel)、全汉(FSP)以及大陆的服务器厂商(如华为、浪潮)自研的电源部门,也都在积极布局 AI 服务器电源市场,共同构成了多元化的竞争生态。
对于服务器 OEM 和最终用户而言,供应商的选择将是技术、成本、供应链安全和定制化服务能力等多方面因素的综合考量。
结论
2025 年的今天,我们正站在一个由 AI 驱动的算力变革的奇点之上。在这场变革中,服务器电源已经完成了从幕后到台前的角色蜕变。它不再是服务器成本构成中可以忽略不计的“其他项”,而是与 CPU、GPU 同等重要的、决定 AI 算力能否高效、稳定、经济地落地的核心技术底座。
AI 芯片功耗迈过 1000W 门槛,驱动服务器电源走向高功率、高密度、高冗余、高效率的“四高”时代。由此带来的单瓦价格数倍增长,以及在整机部署成本中占比提升至 15%-20% 的价值重估,深刻地反映了市场对这一关键子系统认知的根本性转变。
展望未来,随着 AI 模型持续演进,对算力的渴求永无止境,对电源系统的挑战也将不断升级。掌握了宽禁带半导体、液冷集成、智能控制等核心技术的电源厂商,将在这片价值万亿的 AI 蓝海中,占据最有利的战略位置。对于整个数据中心产业而言,重新审视和布局其能源基础设施,将是赢得未来十年 AI 竞争的关键胜负手。AI 的未来股指配资资讯网,在很大程度上,将由“电”来书写。
华林优配提示:文章来自网络,不代表本站观点。