数据中心 PUE 冷却效率模拟器 返回
数据中心・冷却

数据中心 PUE 冷却效率模拟器 — 超大规模

通过 IT 负荷、冷却方式、气候、进气温、PDU 效率的 7 个轴,模拟 Google 和 Meta 达成的 PUE 1.1 级超大规模数据中心设计工具。从风冷切换到浸没冷却时,年消费电力、CO₂、水使用量实时动态变化,直观理解立地和冷却方式选择如何影响运维成本。

参数设置
数据中心类型
参考预设值(计算优先采用其他参数)
IT 负荷
MW
冷却方式
PUE 支配因素。液冷、浸没大幅改善
外气温 T_out
°C
服务器进气温 T_inlet
°C
ASHRAE TC 9.9 推荐 18~27°C。热通道运行 27~35°C
气候带
PDU 效率
%
UPS/变压器/PDU 的综合配电效率
计算结果
PUE 总合
全负荷 (kW)
冷却负荷 (kW)
年消费电力 (GWh/y)
年 CO₂ (kt/y)
年水消费 (M L/y)
数据中心截面图 — 机架・冷却塔・空气/液冷流路

服务器机架发热 → 冷却机器 → 外气散热流动及 PUE 柱状图实时可视化。颜色表示冷却方式(蓝=液冷/橙=风冷)。

PUE 灵敏度 — IT 负荷规模 vs 总 PUE
冷却方式对比 PUE(同条件)
理论・主要公式

$$PUE = \frac{P_{total}}{P_{IT}},\qquad WUE = \frac{Water_{cooling}}{P_{IT}}$$

PUE 理论极限 1.0,Google 12 月平均 1.10。冷却和配电损失导致增加,超大规模通过液冷、气化冷却、温和立地实现 1.1~1.2 是标准。

$$PUE \approx PUE_{cool} + \Delta_{climate} + (27 - T_{inlet})\cdot 0.005 + (1 - \eta_{PDU})\cdot 0.5$$

本工具的近似公式。PUE_cool 为冷却方式基础值,Δ_climate 为气候补正,进气温越高补正越负(冷却负荷减少),PDU 效率越低效果越正。

数据中心 PUE 冷却效率 — Google、Meta 超大规模

🙋
PUE 像是「数据中心的燃油效率」吗?听说 1.0 是理论极限,但 Google 的 1.10 到底有多牛?
🎓
很好的比喻。PUE = 数据中心全消费电力 ÷ IT 机器消费电力,1.0 表示除服务器外零额外用电的理想状态。Google 12 月平均 1.10,比利时 Saint-Ghislain 站点达到 1.07。日本一般企业数据中心是 1.5~1.8,同样服务器规模下,需要的总电力少 30~60%。10 MW IT 负荷算下来,年电费差几亿日元。
🙋
年电费差几亿!?为什么差那么多?服务器本身都一样啊。
🎓
核心原因是冷却方式和立地。企业通常「服务器室+大冷机(4°C 冷水)」,这就增加 PUE 0.4~0.5。Google 用外气直吹蒸发冷却,寒冷地免费冷却,AI 机架用液冷。你试试把左边「冷却方式」从风冷改成液冷直接或浸没,看 PUE 从 1.5 跌到 1.1。
🙋
确实掉下来了,浸没(immersion)变 1.03 了。这是把服务器泡在液体里那个吧?靠谱吗?
🎓
用单相绝缘油或 3M Fluorinert 完全浸没,Microsoft、Meta、国内樱花网络等已经量产运行。NVIDIA H100 单卡 700W,AI 机架 30~50 kW 发热密度,风冷物理上吃不住。反过来微软海底数据中心「24小时海水冷却」思路,稳定低温+自然对流,PUE 1.07。冷却方式和立地是车的两个轮子。
🙋
提高服务器进气温也能省能,这很有意思。27°C 改 32°C,PUE 确实掉了。为什么?
🎓
进气温升高 1°C,冷机设定温度也上升,外气温差小,自由冷却时间增加。ASHRAE TC 9.9 推荐 18~27°C,允许 15~32°C,超大规模常在 27~32°C 运行「热通道」。但长期高温会缩短硬盘、固态硬盘、电解电容寿命,需要和 MTBF 平衡。最近 Google 用 AI 实时优化进气温,2014 年 DeepMind 介入后冷却电力降 40%,是著名案例。
🙋
还算出水消费(WUE)?蒸发冷却用了百万升级。这是问题吗?
🎓
大问题。单个站点年消费 100~500 万立方米(奥运会泳池 200 杯),美国西南干燥地带和当地争水权。所以超大规模最近集中到北欧冰岛、挪威(冰冷+水丰富)。液冷闭环 WUE 接近零,但 PUE 代价大。评估要同时看电力、水、碳(CUE)三个轴。

常见问题

PUE(Power Usage Effectiveness)= 数据中心全消费电力 / IT 机器消费电力,由 2007 年 The Green Grid 提出的指标。理论最低值是 1.0(冷却、配电损失为零)。在现代超大规模中,Google 12 月平均为 1.10,比利时 Saint-Ghislain 站点达到 1.07。Meta 为 1.09,AWS 约 1.20,企业自有数据中心平均 1.5~1.8。本工具根据冷却方式、气候、进气温、PDU 效率推定 PUE,用于设计参考。
本工具模型中,传统冷机风冷的冷却 PUE 贡献约 1.50,蒸发冷却(evaporative)1.15,绝热冷却 1.20,直接液冷(cold plate)1.10,浸没冷却(immersion)1.03。NVIDIA H100 基础 AI 机架每机架 30~50 kW 的高密度发热,风冷物理上无法散热,液冷/浸没几乎必需。但液冷初期投资和维护成本是风冷的 2~4 倍,现有数据中心改造中阶段导入更现实。
能。ASHRAE TC 9.9 推荐范围 18~27°C,允许范围 15~32°C。近年超大规模普遍采用 27~35°C 的「热通道」运行。进气温升高 1°C,冷却机器的 COP 改善,冷机运行时间缩短,PUE 下降约 0.005~0.01。本工具的 inletTempAdj = (27 − T_inlet) × 0.005 是对这一实测趋势的线性近似。但长期高温运行会影响硬件寿命和故障率,不建议超过 35°C。
WUE = 年冷却用水量 / IT 机器消费电力(L/kWh),是与 PUE 并行的可持续性指标。蒸发冷却 WUE 为 1.0~1.5 L/kWh,在美国西南干燥地带造成水资源竞争。风冷冷机或液冷闭环 WUE 接近 0,但电力(PUE)代价更大。本工具近似为:蒸发冷却=1.2、绝热冷却=0.5、其他=0。选点应同时考虑立地气候、水成本、电源(可再生/化石)三要素。

实际应用

超大规模云(Google/Meta/Microsoft/AWS):各公司年度可持续发展报告公开 PUE 和 WUE。Google 12 月平均 1.10,Meta 1.09,Microsoft 1.18,AWS 1.20 是最近公开值。新数据中心立地选择基于「气候带(自由冷却可用天数)」「电源再生能比率」「水成本」三要素,本工具的气候带、冷却方式、WUE 参数正是这个决策的缩影。

AI/HPC 专用数据中心:NVIDIA H100(700W/张)或 B200(1kW/张)8 张搭载的 DGX 服务器每机架 4~8 台,机架 30~50 kW,AI 学习集群 100 kW/机架也不罕见。风冷冷机物理限 25 kW/机架,必须用冷板液冷或浸没。本工具选液冷、浸没后 PUE 降到 1.03~1.10,反映了现实。

企业自有和主机托管数据中心:金融、制造业自有数据中心仍多是 PUE 1.5~1.8,CRAC 空调方式主流。托管运营商(Equinix、NTT、KDDI)目标 1.4~1.6,推进冷热气流分离「热通道封闭」和外气导入。本工具设蒸发冷却+温带+PDU 97% 可降到 1.17,可用于改造路线图试算。

学术和研究超算:日本 Fugaku(神户)水冷+风冷混合 PUE 1.13,NVIDIA Selene PUE 1.07 已公开。HPC 领域计算精度外,电力效率(GFLOPS/W)是竞争轴,Green500 排名与 PUE 密切相关。HPC 模式(CPU 占有率 90%+、长时间连续)平均 IT 负荷高,冷却动态响应要求高。

常见误解和注意点

最大误解是「PUE 低 = 环保」不一定成立。PUE 仅反映「IT 电力与附加电力比」,不反映电源是再生还是煤炭。例如煤电 90% 的地区 PUE 1.05 可能排碳量比再生能 80% 地区 PUE 1.40 更多。Google、Microsoft 提 24/7 无碳电力(CFE)目标就是这个原因。评估应用 PUE × 电源 CO₂ 系数(CUE = Carbon Usage Effectiveness)。本工具用统一 0.4 kg-CO₂/kWh 概算,实际应按地区电网系数调整。

其次,「PUE 是年平均,非瞬间值」。冬季外气冷却 PUE 1.05,夏季高峰 1.35,季节变动大,某些站点只宣传瞬间 1.05 但 ASHRAE 和 Green Grid 推荐「12 月加权平均」报告。本工具尝试外气温 −10°C 到 40°C,同一数据中心 PUE 动摇超 0.1。设备设计夏季峰值定容量,年均成本评估两阶段必要。

最后,「液冷不是万能」。液冷、浸没确实在 PUE 和冷却效率领先,但 (1) 初期设备成本风冷 2~4 倍,(2) 漏液风险和维护工数,(3) 服务器厂商保修范围有限。10 kW/机架以下通用服务器场景,蒸发冷却+热通道封闭达到 PUE 1.15 兼顾初期投资的 ROI 往往更好。冷却方式选择应先定 IT 负荷密度(kW/机架),再决策。

使用指南

  1. 用 IT 负荷(MW)滑块设定数据中心实装服务器消费电力,范围 0.5~50 MW。例:10 MW 超大规模施设
  2. 调整外气温(℃)和服务器进气温(℃),制御冷却能力和效率曲线。标准条件外气 35℃、进气 27℃,可自由改变
  3. 输入 PDU 效率(%)90~98% 范围,反映电源配给损耗。运行模拟后 PUE 总合值、年 GWh、CO₂ 排放量、水消费实时更新

具体计算示例

IT 负荷 15 MW、外气温 30°C、服务器进气温 25°C、PDU 效率 95% 的超大规模设施:冷却负荷按空调 ΔT=5°C 的显热负荷约 18 MW,全消费电力 = 15 MW÷0.95=15.79 MW,加上冷却空调、泵电力 2.8 MW,总消费 18.6 MW,PUE=18.6÷15=1.24。年运行 8,760 小时为 163.0 GWh/年,按东京电力 CO₂ 系数 0.456 kg/kWh 计为 74.3 kt/y,蒸发冷却配合可削减年水消费到 550 ML

实务注意事项