极值统计 GEV 模拟器 — 100年概率和重现期

Q: GEV 分布的三个族（Gumbel / Fréchet / Weibull）有何区别？

由形状参数 ξ 的符号决定。ξ=0 是 Gumbel（第一型，轻尾），尾部以指数衰减。年最高气温和日最大降雨量通常接近这种形式。ξ>0 是 Fréchet（第二型，重尾），尾部以幂律衰减，没有上限。股票崩盘、保险损失、地震震级等「超预期的大值」现象对应此类。ξ<0 是 Weibull（第三型，有限上限），在某个最大值处截断。风速上限等物理约束的现象使用此类。本工具中 ξ 可在 -0.5～0.5 范围变化，可直观比较三族的行为。

Q: 「100年概率」「重现期 100年」是什么意思？

T 年重现期是指「平均每 T 年超越一次该值」，年超越概率为 1/T。重现期 100 年的值 z_100 指年超越概率 1%（0.01）的极值。重要的是「100年一次就意味着100年安全」这是完全错误的理解。30年的服役期间内至少超越 z_100 一次的概率是 1−(1−0.01)^30 ≈ 26%。本工具将「任务期间超越概率」作为六个主要指标之一显示，帮助设计者避免这种误解。

Q: 样本数 N 与置信区间有什么关系？

GEV 的参数估计（最大似然法、L矩法）基于大样本理论具有渐近正态性，估计误差大约以 √N 的反比衰减。本工具的 95% 置信区间使用Delta方法简化计算，标准误差约为 σ·√(0.5·ln T / N)。标本 N=50、T=100年重现值时，CI 幅度约为 ±10～15，说明外推（从 N 年数据推断 T(≫N)年重现值）的不确定性很大。实践中使用 POT 法或层次贝叶斯进行严格的 CI 评估。

Q: 块最大值法（BM）和 Peaks-Over-Threshold（POT）如何选择？

块最大值法将「年最大值」等固定期间的最大值作为1个样本，假设这些值遵循 GEV 分布。数据易于整理，解释直观，但年内多个事件也只用1个，样本效率低。POT 法将超过某个阈值的所有值视为「超过量」，拟合广义帕累托分布（GPD）。可大幅增加样本数，CI 变窄，但需要阈值选择和独立性检验（风暴声明等）。河川流量和台风强度多用 POT。本工具对应 BM 法的 GEV 参数直接操作。

参数设置

位置参数 μ

分布的中心位置（例：年最大值的典型值）

尺度 σ

分布的离散程度（相当于标准差的尺度）

形状 ξ

ξ>0:Fréchet（重尾）／ξ=0:Gumbel／ξ<0:Weibull（有限上限）

重现期 T

年

该期间内平均超越一次的值（年超越概率 = 1/T）

观测样本数 N

年最大值数据的年数。N 越大，CI 越窄

任务期间

年

结构物·设备的服役年数。计算该期间超越 z_T 的概率

计算结果

—

重现值 z_T

—

GEV 族系

—

年超越概率 (%)

—

任务期间超越概率 (%)

—

95% CI 幅

—

拟合可信度 (KS-p)

—

GEV PDF 和重现值 — 三族族系对比

三条曲线分别为 Gumbel（绿，ξ=0）／Fréchet（红，ξ>0）／Weibull（蓝，ξ<0）的 PDF。虚线为重现值 z_T，下方直方图为样本年最大值频率。

重现值 z_T vs 重现期 T（对数轴）

GEV PDF — 形状 ξ 的三形态对比

理论·主要公式

$$F(z) = \exp\left[-\left(1 + \xi\,\frac{z-\mu}{\sigma}\right)^{-1/\xi}\right]$$

GEV 分布的累积分布函数。μ：位置，σ：尺度，ξ：形状。当 ξ=0 时右边化为 exp(-exp(-(z-μ)/σ))（Gumbel）。

$$z_T = \mu + \frac{\sigma}{\xi}\left[\left(-\ln(1-1/T)\right)^{-\xi} - 1\right]$$

T 年重现值 z_T。T 为重现期（年），z_T 为该重现期对应的极值。当 ξ=0 时，z_T = μ − σ·ln(−ln(1−1/T))。

$$P_{\text{mission}} = 1 - \left(1 - \tfrac{1}{T}\right)^{D}$$

任务期间 D 年内至少超越 z_T 一次的概率。T=100、D=30 时约 26%（绝非「100年是安全的」）。

极值统计 GEV — 100年重现期和 Gumbel/Fréchet/Weibull

🙋

新闻里经常说「百年一遇的洪水」，但好像隔几年就又发生了。这真的是平均100年才发生一次吗？

🎓

很好的观察。「100年重现期」是指「平均每100年发生一次」，也就是说每年独立地有 1/100 = 1% 的概率发生。所以连续两年都发生的概率也有 1%×1% = 0.01%。而且，30年的服役期间内至少发生一次的概率是 1−(1−0.01)^30，约 26%。你看左边，「重现期 T=100、任务期间 30年」的设置下，右上角「任务期间超越概率」显示的就是这个 26.0%。

🙋

等等，4次中有1次？我一直以为100年就是安全的……那么这个「100年一次的值」本身是怎么确定的呢？

🎓

用 GEV——广义极值分布——来计算。比如收集过去50年的「年最大降水量」，Fisher-Tippett-Gnedenko 定理保证这个分布遵循 GEV。用最大似然法或 L矩法估计位置 μ、尺度 σ、形状 ξ 三个参数，然后用公式 z_T = μ + (σ/ξ)·[(−ln(1−1/T))^(−ξ) − 1] 计算100年值 z_100。按默认参数，z_100 ≈ 137.6。

🙋

「族系」那儿显示「Fréchet 重尾」。Gumbel、Weibull……好像有3种，有什么不同吗？

🎓

由形状参数 ξ 的符号决定的三个兄弟分布。ξ=0 是 Gumbel（轻尾），像年最高气温这样极端离群值不多的现象。ξ>0 是 Fréchet（重尾），尾部以幂律衰减。地震震级、股票暴跌、保险赔付这样「超乎想象的大值」会出现的现象。ξ<0 是 Weibull（有限上限），在某个值处被截断。风速或材料强度这样有物理上限的情况。你可以拖动 ξ 滑块，看图的形状如何连续变化。

🙋

CI 幅 12.6 这个数字看起来挺大的……z_100 = 137.6 ± 6.3 是说真实的100年值可能在 131 到 144 之间？

🎓

对，这就是极值统计的根本难点。用 N=50 年的数据推断 T=100 年的值，这是外推，估计误差是不可避免的。标本数 N 增加到 200，CI 幅会缩小一半左右（以 √N 缩小）；反过来如果 T 延伸到 1000，外推距离变大，CI 会更宽。实际工程中，有时用 z_T 的上侧 95% 置信限作为「保守的设计值」。还有另一个办法，改用 POT 法（阈值超过法）代替年最大值法，样本效率会提高，CI 变窄。

🙋

原来如此。归根结底，设计时要同时确定「选用多少年重现期」和「能接受任务期间的多大超越概率」。

🎓

完全正确。土木建筑的抗震设计里，「重现期 475年（50年服役中超越概率 10%）」是一个标准。核电站用到 10000年重现期。保险业的 PML（可能最大损失）用 200年或 250年。不同行业、不同设施标准差异很大。你可以在本工具里调滑块，找适合你设计对象的重现期和任务期间超越概率组合。

常见问题

由形状参数 ξ 的符号决定。ξ=0 是 Gumbel（第一型，轻尾），尾部以指数衰减。年最高气温和日最大降雨量通常接近这种形式。ξ>0 是 Fréchet（第二型，重尾），尾部以幂律衰减，没有上限。股票崩盘、保险损失、地震震级等「超预期的大值」现象对应此类。ξ<0 是 Weibull（第三型，有限上限），在某个最大值处截断。风速上限等物理约束的现象使用此类。本工具中 ξ 可在 -0.5～0.5 范围变化，可直观比较三族的行为。

T 年重现期是指「平均每 T 年超越一次该值」，年超越概率为 1/T。重现期 100 年的值 z_100 指年超越概率 1%（0.01）的极值。重要的是「100年一次就意味着100年安全」这是完全错误的理解。30年的服役期间内至少超越 z_100 一次的概率是 1−(1−0.01)^30 ≈ 26%。本工具将「任务期间超越概率」作为六个主要指标之一显示，帮助设计者避免这种误解。

GEV 的参数估计（最大似然法、L矩法）基于大样本理论具有渐近正态性，估计误差大约以 √N 的反比衰减。本工具的 95% 置信区间使用Delta方法简化计算，标准误差约为 σ·√(0.5·ln T / N)。标本 N=50、T=100年重现值时，CI 幅度约为 ±10～15，说明外推（从 N 年数据推断 T(≫N)年重现值）的不确定性很大。实践中使用 POT 法或层次贝叶斯进行严格的 CI 评估。

块最大值法将「年最大值」等固定期间的最大值作为1个样本，假设这些值遵循 GEV 分布。数据易于整理，解释直观，但年内多个事件也只用1个，样本效率低。POT 法将超过某个阈值的所有值视为「超过量」，拟合广义帕累托分布（GPD）。可大幅增加样本数，CI 变窄，但需要阈值选择和独立性检验（风暴声明等）。河川流量和台风强度多用 POT。本工具对应 BM 法的 GEV 参数直接操作。

实际应用

土木·水文工程（洪水·降雨·地震）：河堤、大坝的设计用过去的年最大流量数据拟合 GEV，求100年重现流量、1000年重现流量。日本一级河川多用200年重现期作为基本高水流量，欧洲同一目的常用 GEV 的 Gumbel 近似（ξ=0）。地震中按建筑基准法标准通常用 475 年重现期（50年超越概率10%），原子力设施考虑到 10000年重现期。

结构工程（风荷载·波荷载）：高层建筑、桥梁、海上风力涡轮机设计时，取观测地点的年最大风速或年最大有义波高拟合 GEV。形状参数 ξ 通常在风速的 -0.1～0.0，波高的 0.0～0.1 附近。以100年重现值为基准，乘以荷载系数得到设计荷载。对于台风或巨浪，用 POT 法利用年内多个事件来提高推估精度。

可靠性工程（部件寿命·保修期）：产品最弱环节的寿命通常遵循 Weibull 分布（GEV 的 ξ<0 情形），用于汽车和航空部件的保修期设定。「100部件中1部件故障在哪一年」通过 Weibull 推估，作为保修期确定的依据。在可靠性工程中，GEV 框架多用于「最小寿命（最弱环节）」而非「最大寿命」。

金融·保险（VaR·PML）：市场风险管理中，日股价变化的年最大下跌幅度拟合 GEV，评估 VaR（风险价值）的尾部风险。通常出现 Fréchet（ξ>0），表示「黑天鹅」事件确实存在。保险业用 PML（可能最大损失）估计采用 200年或 250年重现期，作为再保险购买的判断依据。

常见误区和注意事项

最大的误区是「100年一次＝100年安全」。这在概率上完全错误。30年服役期间内超越 z_100 的概率约 26%，50年约 40%。本工具把「任务期间超越概率」作为六个主要指标之一、以醒目的大字显示，就是为了避免这个误解。设计时必须同时确定「重现期 T」和「服役期间 D」，并从允许的超越概率（如 D 年内不超过 10%）反推 T 值。

常见陷阱是「习惯把形状参数 ξ 固定为0」。Gumbel 分布（ξ=0）数学上易于处理，Excel 有 GUMBEL.DIST 函数，容易被滥用到所有数据。但实际上 ξ 往往微微为正（重尾），若错误地假设 ξ=0，T 年重现值会被大幅低估。真实 ξ=0.1 的数据用 Gumbel 拟合时，T=1000 年重现值会低估 30～50%。必须对 ξ 进行估计，用 AIC/BIC 比较 Gumbel 和 Fréchet 的拟合度。

最后要意识到「从 N 年数据外推 T(≫N) 年重现值的危险性」。用 30 年数据推 1000 年重现值，是向外推 33 倍，本工具的简化 CI 也会给出 ±20～30 的幅度。加上气候变化导致的非平稳性（μ、σ 随时间变化），平稳 GEV 的假设本身就会失效。近年来研究的时间依赖参数 GEV、多地点联合极值模型等，在极端现象增加趋势明显的当代变得尤为重要。

极值统计 GEV 模拟器 — 100年概率和重现期

极值统计 GEV — 100年重现期和 Gumbel/Fréchet/Weibull

常见问题

实际应用

常见误区和注意事项

使用指南

具体计算例

实务注意事项