极值统计 GEV 模拟器 返回
统计·可靠性工程

极值统计 GEV 模拟器 — 100年概率和重现期

使用广义极值分布(GEV)计算「100年一次的值」「30年服役期间超越该值的概率」的工具。改变位置 μ、尺度 σ、形状 ξ 参数时,Gumbel/Fréchet/Weibull 三族自动切换,重现期 T 年对应的极值 z_T 和 95% 置信区间实时显示。

参数设置
位置参数 μ
分布的中心位置(例:年最大值的典型值)
尺度 σ
分布的离散程度(相当于标准差的尺度)
形状 ξ
ξ>0:Fréchet(重尾)/ξ=0:Gumbel/ξ<0:Weibull(有限上限)
重现期 T
该期间内平均超越一次的值(年超越概率 = 1/T)
观测样本数 N
年最大值数据的年数。N 越大,CI 越窄
任务期间
结构物·设备的服役年数。计算该期间超越 z_T 的概率
计算结果
重现值 z_T
GEV 族系
年超越概率 (%)
任务期间超越概率 (%)
95% CI 幅
拟合可信度 (KS-p)
GEV PDF 和重现值 — 三族族系对比

三条曲线分别为 Gumbel(绿,ξ=0)/Fréchet(红,ξ>0)/Weibull(蓝,ξ<0)的 PDF。虚线为重现值 z_T,下方直方图为样本年最大值频率。

重现值 z_T vs 重现期 T(对数轴)
GEV PDF — 形状 ξ 的三形态对比
理论·主要公式

$$F(z) = \exp\left[-\left(1 + \xi\,\frac{z-\mu}{\sigma}\right)^{-1/\xi}\right]$$

GEV 分布的累积分布函数。μ:位置,σ:尺度,ξ:形状。当 ξ=0 时右边化为 exp(-exp(-(z-μ)/σ))(Gumbel)。

$$z_T = \mu + \frac{\sigma}{\xi}\left[\left(-\ln(1-1/T)\right)^{-\xi} - 1\right]$$

T 年重现值 z_T。T 为重现期(年),z_T 为该重现期对应的极值。当 ξ=0 时,z_T = μ − σ·ln(−ln(1−1/T))。

$$P_{\text{mission}} = 1 - \left(1 - \tfrac{1}{T}\right)^{D}$$

任务期间 D 年内至少超越 z_T 一次的概率。T=100、D=30 时约 26%(绝非「100年是安全的」)。

极值统计 GEV — 100年重现期和 Gumbel/Fréchet/Weibull

🙋
新闻里经常说「百年一遇的洪水」,但好像隔几年就又发生了。这真的是平均100年才发生一次吗?
🎓
很好的观察。「100年重现期」是指「平均每100年发生一次」,也就是说每年独立地有 1/100 = 1% 的概率发生。所以连续两年都发生的概率也有 1%×1% = 0.01%。而且,30年的服役期间内至少发生一次的概率是 1−(1−0.01)^30,约 26%。你看左边,「重现期 T=100、任务期间 30年」的设置下,右上角「任务期间超越概率」显示的就是这个 26.0%。
🙋
等等,4次中有1次?我一直以为100年就是安全的……那么这个「100年一次的值」本身是怎么确定的呢?
🎓
用 GEV——广义极值分布——来计算。比如收集过去50年的「年最大降水量」,Fisher-Tippett-Gnedenko 定理保证这个分布遵循 GEV。用最大似然法或 L矩法估计位置 μ、尺度 σ、形状 ξ 三个参数,然后用公式 z_T = μ + (σ/ξ)·[(−ln(1−1/T))^(−ξ) − 1] 计算100年值 z_100。按默认参数,z_100 ≈ 137.6。
🙋
「族系」那儿显示「Fréchet 重尾」。Gumbel、Weibull……好像有3种,有什么不同吗?
🎓
由形状参数 ξ 的符号决定的三个兄弟分布。ξ=0 是 Gumbel(轻尾),像年最高气温这样极端离群值不多的现象。ξ>0 是 Fréchet(重尾),尾部以幂律衰减。地震震级、股票暴跌、保险赔付这样「超乎想象的大值」会出现的现象。ξ<0 是 Weibull(有限上限),在某个值处被截断。风速或材料强度这样有物理上限的情况。你可以拖动 ξ 滑块,看图的形状如何连续变化。
🙋
CI 幅 12.6 这个数字看起来挺大的……z_100 = 137.6 ± 6.3 是说真实的100年值可能在 131 到 144 之间?
🎓
对,这就是极值统计的根本难点。用 N=50 年的数据推断 T=100 年的值,这是外推,估计误差是不可避免的。标本数 N 增加到 200,CI 幅会缩小一半左右(以 √N 缩小);反过来如果 T 延伸到 1000,外推距离变大,CI 会更宽。实际工程中,有时用 z_T 的上侧 95% 置信限作为「保守的设计值」。还有另一个办法,改用 POT 法(阈值超过法)代替年最大值法,样本效率会提高,CI 变窄。
🙋
原来如此。归根结底,设计时要同时确定「选用多少年重现期」和「能接受任务期间的多大超越概率」。
🎓
完全正确。土木建筑的抗震设计里,「重现期 475年(50年服役中超越概率 10%)」是一个标准。核电站用到 10000年重现期。保险业的 PML(可能最大损失)用 200年或 250年。不同行业、不同设施标准差异很大。你可以在本工具里调滑块,找适合你设计对象的重现期和任务期间超越概率组合。

常见问题

由形状参数 ξ 的符号决定。ξ=0 是 Gumbel(第一型,轻尾),尾部以指数衰减。年最高气温和日最大降雨量通常接近这种形式。ξ>0 是 Fréchet(第二型,重尾),尾部以幂律衰减,没有上限。股票崩盘、保险损失、地震震级等「超预期的大值」现象对应此类。ξ<0 是 Weibull(第三型,有限上限),在某个最大值处截断。风速上限等物理约束的现象使用此类。本工具中 ξ 可在 -0.5~0.5 范围变化,可直观比较三族的行为。
T 年重现期是指「平均每 T 年超越一次该值」,年超越概率为 1/T。重现期 100 年的值 z_100 指年超越概率 1%(0.01)的极值。重要的是「100年一次就意味着100年安全」这是完全错误的理解。30年的服役期间内至少超越 z_100 一次的概率是 1−(1−0.01)^30 ≈ 26%。本工具将「任务期间超越概率」作为六个主要指标之一显示,帮助设计者避免这种误解。
GEV 的参数估计(最大似然法、L矩法)基于大样本理论具有渐近正态性,估计误差大约以 √N 的反比衰减。本工具的 95% 置信区间使用Delta方法简化计算,标准误差约为 σ·√(0.5·ln T / N)。标本 N=50、T=100年重现值时,CI 幅度约为 ±10~15,说明外推(从 N 年数据推断 T(≫N)年重现值)的不确定性很大。实践中使用 POT 法或层次贝叶斯进行严格的 CI 评估。
块最大值法将「年最大值」等固定期间的最大值作为1个样本,假设这些值遵循 GEV 分布。数据易于整理,解释直观,但年内多个事件也只用1个,样本效率低。POT 法将超过某个阈值的所有值视为「超过量」,拟合广义帕累托分布(GPD)。可大幅增加样本数,CI 变窄,但需要阈值选择和独立性检验(风暴声明等)。河川流量和台风强度多用 POT。本工具对应 BM 法的 GEV 参数直接操作。

实际应用

土木·水文工程(洪水·降雨·地震):河堤、大坝的设计用过去的年最大流量数据拟合 GEV,求100年重现流量、1000年重现流量。日本一级河川多用200年重现期作为基本高水流量,欧洲同一目的常用 GEV 的 Gumbel 近似(ξ=0)。地震中按建筑基准法标准通常用 475 年重现期(50年超越概率10%),原子力设施考虑到 10000年重现期。

结构工程(风荷载·波荷载):高层建筑、桥梁、海上风力涡轮机设计时,取观测地点的年最大风速或年最大有义波高拟合 GEV。形状参数 ξ 通常在风速的 -0.1~0.0,波高的 0.0~0.1 附近。以100年重现值为基准,乘以荷载系数得到设计荷载。对于台风或巨浪,用 POT 法利用年内多个事件来提高推估精度。

可靠性工程(部件寿命·保修期):产品最弱环节的寿命通常遵循 Weibull 分布(GEV 的 ξ<0 情形),用于汽车和航空部件的保修期设定。「100部件中1部件故障在哪一年」通过 Weibull 推估,作为保修期确定的依据。在可靠性工程中,GEV 框架多用于「最小寿命(最弱环节)」而非「最大寿命」。

金融·保险(VaR·PML):市场风险管理中,日股价变化的年最大下跌幅度拟合 GEV,评估 VaR(风险价值)的尾部风险。通常出现 Fréchet(ξ>0),表示「黑天鹅」事件确实存在。保险业用 PML(可能最大损失)估计采用 200年或 250年重现期,作为再保险购买的判断依据。

常见误区和注意事项

最大的误区是「100年一次=100年安全」。这在概率上完全错误。30年服役期间内超越 z_100 的概率约 26%,50年约 40%。本工具把「任务期间超越概率」作为六个主要指标之一、以醒目的大字显示,就是为了避免这个误解。设计时必须同时确定「重现期 T」和「服役期间 D」,并从允许的超越概率(如 D 年内不超过 10%)反推 T 值。

常见陷阱是「习惯把形状参数 ξ 固定为0」。Gumbel 分布(ξ=0)数学上易于处理,Excel 有 GUMBEL.DIST 函数,容易被滥用到所有数据。但实际上 ξ 往往微微为正(重尾),若错误地假设 ξ=0,T 年重现值会被大幅低估。真实 ξ=0.1 的数据用 Gumbel 拟合时,T=1000 年重现值会低估 30~50%。必须对 ξ 进行估计,用 AIC/BIC 比较 Gumbel 和 Fréchet 的拟合度。

最后要意识到「从 N 年数据外推 T(≫N) 年重现值的危险性」。用 30 年数据推 1000 年重现值,是向外推 33 倍,本工具的简化 CI 也会给出 ±20~30 的幅度。加上气候变化导致的非平稳性(μ、σ 随时间变化),平稳 GEV 的假设本身就会失效。近年来研究的时间依赖参数 GEV、多地点联合极值模型等,在极端现象增加趋势明显的当代变得尤为重要。

使用指南

  1. 输入位置参数 μ(-50~50)、尺度 σ(0.1~20)、形状 ξ(-0.5~0.5)来指定 GEV 分布族。ξ=0 自动分类为 Gumbel、ξ>0 为 Fréchet、ξ<0 为 Weibull。
  2. 设置重现期 T(1~1000年),会计算出该期间内一度发生的极值。例如 T=100 时,输出的是每年有 1% 概率超越的阈值。
  3. 查看输出的重现值 z_T、年超越概率、任务期间(如50年运营)的超越概率、95% 置信区间、KS-p值(拟合度),据此决定设计基准值和安全系数。

具体计算例

河川最大流量数据拟合后,若 μ=850 m³/s、σ=120 m³/s、ξ=0.15(Fréchet),则100年重现值计算为 z_100≈1420 m³/s。年超越概率为 1.0%,30年大坝运行期间的超越概率为 26.3%。95% CI 为 [1310, 1540],KS-p=0.87 显示拟合度高,因此采纳 1450 m³/s(含安全裕度)作为设计洪水流量。

实务注意事项

  1. 当 ξ>0.5 的陡峭 Fréchet 时,右尾部厚重,千年概率计算易不稳定。应避免 σ 过大,确保观测数据充分(至少30年以上)。
  2. 任务期间超越概率并非简单的 1-(1-p)^n,而是从 GEV 累积分布精确计算,因此设计基准值的保守确定有可信度。
  3. 若 KS-p <0.05,说明分布拟合不佳,应考虑改用其他分布族(如 GPD 阈值超过模型)。
  4. 在不同灾害(风速、地震加速度、降雨量等)的重现期比较中,必须考虑各自 ξ 值的差异,不能简单相加,要用联合概率计算。