分位点回归 模拟器 返回
统计回归·稳健估计

分位点回归 模拟器 — 与 OLS 的比较

分位点回归(QR)直接估计条件分位点的交互式工具,并与最小二乘法(OLS)并排可视化。改变样本数、τ(分位点)、噪声分布和异常值比例,QR 和 OLS 的斜率、标准误、效率比实时更新。直观了解 QR 在重尾分布和异常值混入下的稳健性。

参数设置
样本数 N
样本的数量。数量越多,推定的 SE 越小
分位点 τ
τ=0.5 为中位数回归,τ=0.9 为 90% 分位点
真实斜率 β₁
真实截距 β₀
噪声标准差 σ
噪声分布
分布形状会改变 QR 和 OLS 的优劣
异常值比例
%
OLS 被拖累,QR 能耐受
计算结果
真实斜率 β₁(τ)
OLS 推定斜率
QR 推定斜率
QR 标准误 SE
OLS 标准误 SE
效率比 OLS/QR
散点图 + OLS / QR 拟合

蓝点:常规数据,红点:异常值。红线为 OLS,蓝线为 QR(多个 τ)。增加噪声或异常值时,可看到 OLS 线大幅倾斜,QR 线保持在真值附近。

QR 回归系数 vs 分位点 τ
Pin-ball (Check) loss vs τ
理论·主要公式

$$\hat\beta(\tau) = \arg\min_\beta \sum_i \rho_\tau\!\left(y_i - x_i^{\mathsf T}\beta\right),\qquad \rho_\tau(u) = u\bigl(\tau - \mathbf{1}[u\lt 0]\bigr)$$

ρ_τ 为 Pin-ball / Check loss。当 τ=0.5 时为中位数回归(绝对误差和最小),τ=0.9 时估计 90% 分位点。这是非对称损失,可作为线性规划问题高效求解。

$$\mathrm{SE}_{\hat\beta(\tau)} \;\approx\; \frac{\sqrt{\tau(1-\tau)}}{f\!\bigl(F^{-1}(\tau)\bigr)\sqrt{N}}, \qquad \mathrm{SE}_{\hat\beta_{\mathrm{OLS}}} = \frac{\sigma}{\sqrt{N}}$$

QR 的渐近标准误反比于分位点处的密度 f。正态误差下 τ=0.5 时 OLS/QR ≈ 0.798(QR 效率约 64%)。而对于柯西分布或混入异常值,OLS 的 SE 发散,QR 更有利。

分位点回归 — 与 OLS 不同的视角

🙋
我第一次听说「分位点回归」。普通回归(OLS)和它有什么区别呢?看起来都是在数据中间画线啊…
🎓
问得好,这正是关键所在。OLS(最小二乘法)是给数据找「中间」的线,也就是估计条件平均值 E[Y|X]。而分位点回归(QR)则是 τ=0.5 时找中位数,τ=0.9 时找数据下方 90% 的点,然后分别画线。从同一个散点图中,你可以分别画出「平均的人」和「前 10% 的人」的线,这就是 QR 的优势。在所得差距、住房价格、风险管理中都会经常用到。
🙋
那上面的图表「QR 回归系数 vs τ」是说,随着 τ 变化,斜率也会变吗?所以是在画很多条线?
🎓
完全正确,这就是「用回归看分布形状」的感觉。试试把噪声分布改为「异方差」。τ 越大,斜率应该越陡。这表示 X 越大,数据的波动越大,OLS 只画一条线,看不出这个结构。但如果用 QR 在 τ=0.1~0.9 间改动,就能看清整个分布的形状。在教育研究中,要问「学习成效在不同学力层学生中是否有差异」,这种分析已经成了标准做法。
🙋
我调大「异常值比例」的滑块,OLS 的斜率从 1.5 越来越远,但 QR 几乎没动…
🎓
这就是 QR 的稳健性。OLS 用平方误差,远点的影响力平方倍增长。一个异常值就能大幅扭曲斜率。但中位数回归(τ=0.5)用绝对误差和,一个异常值的影响只算「一个点份量」。数据有 30% 变得离谱,中位数照样纹丝不动,这个道理是一样的。金融的 VaR、保险的尾部推定,都需要这种抗性,所以 QR 是标配。
🙋
那 QR 是不是比 OLS 更好呢?这样不就全用 QR 了?
🎓
没这么简单,这就有意思了。把噪声改回「正态分布」,看看「效率比 OLS/QR」,应该是 0.8 左右,也就是 QR 的 SE 更大。正态噪声下,OLS 的渐近效率 100%,而中位数回归只有约 64%(= 2/π)。意思是「QR 要花 1.57 倍的样本量才能达到 OLS 同样的精度」。实际用法是这样分的:干净的正态数据→OLS,重尾或异常值→QR,想看整个分布→用多个 τ 的 QR。
🙋
改为「柯西(重尾)」时效率比反过来了,这也是因为这个原因吗?下面的损失函数图是 V 形,这是 Pin-ball loss 吗?
🎓
对,就是那个 ρ_τ(u) = u·(τ−1[u<0])。横轴是 τ,纵轴是优化后的损失值。τ=0.5 左右是对称的(绝对值函数),τ 偏斜时损失的坡度就变非对称。这就是为什么能「针对上端 10% 去优化」「瞄准下端 5% 的 VaR」这种非对称问题,用线性规划一下子就解了,这就是数学的美妙之处。从 1978 年 Koenker 和 Bassett 提出来以后,它就成了计量经济学、气候学、医学统计的标配工具。一旦体会过这套理论,你看数据的角度就会变成立体的。

常见问题

OLS(最小二乘法)估计条件平均值 E[Y|X],而分位点回归直接估计条件分位点 Q_τ(Y|X)。τ=0.5 时估计中位数,τ=0.9 时估计 90% 分位点。OLS 最小化平方误差,而 QR 最小化 Pin-ball / Check loss ρ_τ(u)=u(τ−1[u<0])。这样,QR 不仅能看分布中心,还能看尾部行为,对重尾分布和异常值更加稳健。
Pin-ball loss 定义为 ρ_τ(u) = u·(τ − 1[u<0]),对正残差赋予权重 τ,负残差赋予权重 (1−τ) 的非对称绝对值损失。当 τ=0.5 时左右对称,等同于 MAD(平均绝对偏差),为中位数回归。当 τ=0.9 时,重罚正方向误差,得到覆盖数据「上 10%」的线。最小化可作为线性规划问题高效求解,由 Koenker & Bassett (1978) 提出。
(1) 需要直接看分布尾部时。如所得差距的 90/10 比率或住房价格高价位建模。(2) 重尾分布或包含异常值的数据。金融风险(VaR、Expected Shortfall)中 τ=0.95~0.99 的 QR 是标准方法。(3) 存在异方差时。OLS 只看平均值,容易忽略方差结构,但 QR 可对每个 τ 估计不同斜率,揭示整个分布形状。(4) 气候极值分析、生存时间分析也常用。
当噪声为正态分布时,中位数回归(τ=0.5)相对 OLS 的渐近效率约为 64%(=2/π)。本工具中的「效率比 OLS/QR = SE_OLS/SE_QR」也显示约 0.8,说明在正态误差下 OLS 更优。但当误差为重尾(柯西分布等)时,OLS 的 SE 发散,而 QR 保持有限。混入异常值时,OLS 斜率大幅偏离,而 QR 几乎不受影响。这种稳健性是 QR 的最大优势。

实际应用

所得分布·不平等分析(经济学):经合组织和世界银行按国家比较所得分布的「90/10 比率(上 10% 所得÷下 10% 所得)」。用教育程度、年龄、性别作为共变量跑 QR,就可以分别看每个属性对「平均所得」和「贫困层、富裕层所得」的效果,而不只看平均值。Buchinsky(1994)的经典研究用 QR 证明了美国教育的回报在高分位更大。

金融风险管理(VaR·Expected Shortfall):银行交易部门每天计算投资组合损失的 τ=0.99 或 τ=0.995 分位点作为「风险价值」。Engle & Manganelli 的 CAViaR(条件自回归 VaR)将 QR 扩展到时间序列,在 Basel 市场风险资本计算中成了标准做法。OLS 看不清尾部行为,风险管理中 QR 系方法必不可少。

气候·环保的极值分析:暴雨、热浪、洪水这类「平均不是问题,上 5% 是问题」的现象,需要以温度、时刻等为自变量跑 τ=0.95 的 QR,看温暖化怎样改变极值高度。Friederichs & Hense(2007)等研究表明,QR 与 GEV(广义极值分布)一起成了气候科学的标配工具。

医疗数据·生存时间:新药效果想用「生存中位数」而非「平均生存月数」来衡量,或低出生体重儿的预测想看「下 10% 体重」而非「平均体重」,这些场景都用 QR。OLS 只看平均值会忽视「最需要帮助的人群」的动态,所以医学统计从 2000 年代起快速采纳 QR。

常见误解与注意事项

首先是「QR 总是比 OLS 更好」的误解。本工具也能验证,当噪声为正态分布时,QR 的渐近效率只有 OLS 的约 64%(= 2/π)。中位数回归的 SE 比 OLS 大 1.25 倍左右,达到同样精度需要 1.57 倍的样本量。数据噪声干净且没异常值时应该用 OLS,只有在重尾、有异常值、想看整个分布这几种情况才考虑 QR。

其次是「Pin-ball loss 在 u=0 不可微,用梯度法解不了」的误解。虽然 ρ_τ(u) 在 u=0 不可微,但 QR 的优化是线性规划问题,用单形法或内点法可以高效求解,即使是大规模问题也行(quantreg 包或 Python 的 statsmodels 都有标准实现)。不需要怕不可微性,反而「凸规划保证全局最优」是 QR 的优点。

最后是「对 τ=0.5 和 τ=0.9 分别拟合,会得到交叉线」的问题。理论上条件分位线应该对 τ 单调,但有限样本会出现「分位线交叉」现象,即 95% 分位线在 90% 分位线下方,这在分布预报中是不一致的。解决办法有 Bondell 等(2010)的约束同时估计、序位统计修正、Chernozhukov 的重排,都是实务中的标准做法。出多于 5 条分位线的报告必须检查这一点。

使用指南

  1. 在 50~500 范围设置样本数(numSamplesQR),指定分位点 τ 在 0.1~0.9 间
  2. 输入真实斜率 β₁ 和截距后运行模拟,比较 OLS 和 QR 的推定斜率
  3. 当效率比(OLS 标准误 / QR 标准误)大于 1 时,确认该分位点下 QR 有优势

具体计算例

用对数月收入数据(n=200),τ=0.25(第一四分位)估计时,真实斜率 β₁=0.08、截距=10.2、误差服从 Laplace(λ=0.5) 分布:OLS 推定斜率=0.079(SE=0.0062),QR 推定斜率=0.081(SE=0.0048),效率比=1.29,QR 有利。混入 10% 异常值后,OLS 的 SE 恶化为 0.0089,效率比扩大至 1.85。

实务中的注意