🙋
PUE 像是「数据中心的燃油效率」吗?听说 1.0 是理论极限,但 Google 的 1.10 到底有多牛?
🎓
很好的比喻。PUE = 数据中心全消费电力 ÷ IT 机器消费电力,1.0 表示除服务器外零额外用电的理想状态。Google 12 月平均 1.10,比利时 Saint-Ghislain 站点达到 1.07。日本一般企业数据中心是 1.5~1.8,同样服务器规模下,需要的总电力少 30~60%。10 MW IT 负荷算下来,年电费差几亿日元。
🙋
年电费差几亿!?为什么差那么多?服务器本身都一样啊。
🎓
核心原因是冷却方式和立地。企业通常「服务器室+大冷机(4°C 冷水)」,这就增加 PUE 0.4~0.5。Google 用外气直吹蒸发冷却,寒冷地免费冷却,AI 机架用液冷。你试试把左边「冷却方式」从风冷改成液冷直接或浸没,看 PUE 从 1.5 跌到 1.1。
🙋
确实掉下来了,浸没(immersion)变 1.03 了。这是把服务器泡在液体里那个吧?靠谱吗?
🎓
用单相绝缘油或 3M Fluorinert 完全浸没,Microsoft、Meta、国内樱花网络等已经量产运行。NVIDIA H100 单卡 700W,AI 机架 30~50 kW 发热密度,风冷物理上吃不住。反过来微软海底数据中心「24小时海水冷却」思路,稳定低温+自然对流,PUE 1.07。冷却方式和立地是车的两个轮子。
🙋
提高服务器进气温也能省能,这很有意思。27°C 改 32°C,PUE 确实掉了。为什么?
🎓
进气温升高 1°C,冷机设定温度也上升,外气温差小,自由冷却时间增加。ASHRAE TC 9.9 推荐 18~27°C,允许 15~32°C,超大规模常在 27~32°C 运行「热通道」。但长期高温会缩短硬盘、固态硬盘、电解电容寿命,需要和 MTBF 平衡。最近 Google 用 AI 实时优化进气温,2014 年 DeepMind 介入后冷却电力降 40%,是著名案例。
🙋
还算出水消费(WUE)?蒸发冷却用了百万升级。这是问题吗?
🎓
大问题。单个站点年消费 100~500 万立方米(奥运会泳池 200 杯),美国西南干燥地带和当地争水权。所以超大规模最近集中到北欧冰岛、挪威(冰冷+水丰富)。液冷闭环 WUE 接近零,但 PUE 代价大。评估要同时看电力、水、碳(CUE)三个轴。
PUE 是什么?理论最低值是多少?
PUE(Power Usage Effectiveness)= 数据中心全消费电力 / IT 机器消费电力,由 2007 年 The Green Grid 提出的指标。理论最低值是 1.0(冷却、配电损失为零)。在现代超大规模中,Google 12 月平均为 1.10,比利时 Saint-Ghislain 站点达到 1.07。Meta 为 1.09,AWS 约 1.20,企业自有数据中心平均 1.5~1.8。本工具根据冷却方式、气候、进气温、PDU 效率推定 PUE,用于设计参考。
液冷与风冷的 PUE 差异有多大?
本工具模型中,传统冷机风冷的冷却 PUE 贡献约 1.50,蒸发冷却(evaporative)1.15,绝热冷却 1.20,直接液冷(cold plate)1.10,浸没冷却(immersion)1.03。NVIDIA H100 基础 AI 机架每机架 30~50 kW 的高密度发热,风冷物理上无法散热,液冷/浸没几乎必需。但液冷初期投资和维护成本是风冷的 2~4 倍,现有数据中心改造中阶段导入更现实。
提高服务器进气温真的能省能源吗?
能。ASHRAE TC 9.9 推荐范围 18~27°C,允许范围 15~32°C。近年超大规模普遍采用 27~35°C 的「热通道」运行。进气温升高 1°C,冷却机器的 COP 改善,冷机运行时间缩短,PUE 下降约 0.005~0.01。本工具的 inletTempAdj = (27 − T_inlet) × 0.005 是对这一实测趋势的线性近似。但长期高温运行会影响硬件寿命和故障率,不建议超过 35°C。
如何理解 Water Usage Effectiveness(WUE)?
WUE = 年冷却用水量 / IT 机器消费电力(L/kWh),是与 PUE 并行的可持续性指标。蒸发冷却 WUE 为 1.0~1.5 L/kWh,在美国西南干燥地带造成水资源竞争。风冷冷机或液冷闭环 WUE 接近 0,但电力(PUE)代价更大。本工具近似为:蒸发冷却=1.2、绝热冷却=0.5、其他=0。选点应同时考虑立地气候、水成本、电源(可再生/化石)三要素。
超大规模云(Google/Meta/Microsoft/AWS): 各公司年度可持续发展报告公开 PUE 和 WUE。Google 12 月平均 1.10,Meta 1.09,Microsoft 1.18,AWS 1.20 是最近公开值。新数据中心立地选择基于「气候带(自由冷却可用天数)」「电源再生能比率」「水成本」三要素,本工具的气候带、冷却方式、WUE 参数正是这个决策的缩影。
AI/HPC 专用数据中心: NVIDIA H100(700W/张)或 B200(1kW/张)8 张搭载的 DGX 服务器每机架 4~8 台,机架 30~50 kW,AI 学习集群 100 kW/机架也不罕见。风冷冷机物理限 25 kW/机架,必须用冷板液冷或浸没。本工具选液冷、浸没后 PUE 降到 1.03~1.10,反映了现实。
企业自有和主机托管数据中心: 金融、制造业自有数据中心仍多是 PUE 1.5~1.8,CRAC 空调方式主流。托管运营商(Equinix、NTT、KDDI)目标 1.4~1.6,推进冷热气流分离「热通道封闭」和外气导入。本工具设蒸发冷却+温带+PDU 97% 可降到 1.17,可用于改造路线图试算。
学术和研究超算: 日本 Fugaku(神户)水冷+风冷混合 PUE 1.13,NVIDIA Selene PUE 1.07 已公开。HPC 领域计算精度外,电力效率(GFLOPS/W)是竞争轴,Green500 排名与 PUE 密切相关。HPC 模式(CPU 占有率 90%+、长时间连续)平均 IT 负荷高,冷却动态响应要求高。
最大误解是「PUE 低 = 环保」不一定成立 。PUE 仅反映「IT 电力与附加电力比」,不反映电源是再生还是煤炭。例如煤电 90% 的地区 PUE 1.05 可能排碳量比再生能 80% 地区 PUE 1.40 更多。Google、Microsoft 提 24/7 无碳电力(CFE)目标就是这个原因。评估应用 PUE × 电源 CO₂ 系数(CUE = Carbon Usage Effectiveness)。本工具用统一 0.4 kg-CO₂/kWh 概算,实际应按地区电网系数调整。
其次,「PUE 是年平均,非瞬间值」 。冬季外气冷却 PUE 1.05,夏季高峰 1.35,季节变动大,某些站点只宣传瞬间 1.05 但 ASHRAE 和 Green Grid 推荐「12 月加权平均」报告。本工具尝试外气温 −10°C 到 40°C,同一数据中心 PUE 动摇超 0.1。设备设计夏季峰值定容量,年均成本评估两阶段必要。
最后,「液冷不是万能」 。液冷、浸没确实在 PUE 和冷却效率领先,但 (1) 初期设备成本风冷 2~4 倍,(2) 漏液风险和维护工数,(3) 服务器厂商保修范围有限。10 kW/机架以下通用服务器场景,蒸发冷却+热通道封闭达到 PUE 1.15 兼顾初期投资的 ROI 往往更好。冷却方式选择应先定 IT 负荷密度(kW/机架),再决策。