分位点回帰 シミュレーター 戻る
統計回帰・ロバスト推定

分位点回帰 シミュレーター — OLS との比較

条件付き分位点を直接推定する分位点回帰(QR)を、最小二乗法(OLS)と並べて可視化するツールです。サンプル数・τ(分位点)・雑音分布・外れ値割合を変えると、QR と OLS の傾き・標準誤差・効率比がリアルタイムで更新され、heavy-tailed や外れ値混入下での QR のロバスト性が直感的に分かります。

パラメータ設定
サンプル数 N
標本の数。多いほど推定の SE が小さくなる
分位点 τ
τ=0.5 で中央値回帰、τ=0.9 で 90% 分位点
真の傾き β₁
真の切片 β₀
雑音標準偏差 σ
雑音分布
分布形状で QR と OLS の優劣が変わる
外れ値割合
%
OLS は引きずられ、QR は耐える
計算結果
真の傾き β₁(τ)
OLS推定傾き
QR推定傾き
QR標準誤差 SE
OLS標準誤差 SE
効率比 OLS/QR
散布図 + OLS / QR フィット

青点:通常データ、赤点:外れ値。赤線が OLS、青線が QR(複数 τ)。雑音や外れ値を増やすと OLS 線が大きく傾き、QR 線が真値近くにとどまる様子が見える。

QR 回帰係数 vs 分位点 τ
Pin-ball (Check) loss vs τ
理論・主要公式

$$\hat\beta(\tau) = \arg\min_\beta \sum_i \rho_\tau\!\left(y_i - x_i^{\mathsf T}\beta\right),\qquad \rho_\tau(u) = u\bigl(\tau - \mathbf{1}[u\lt 0]\bigr)$$

ρ_τ は Pin-ball / Check loss。τ=0.5 で中央値回帰(絶対誤差和最小)、τ=0.9 で 90% 分位点を推定する非対称損失。線形計画問題として効率的に解ける。

$$\mathrm{SE}_{\hat\beta(\tau)} \;\approx\; \frac{\sqrt{\tau(1-\tau)}}{f\!\bigl(F^{-1}(\tau)\bigr)\sqrt{N}}, \qquad \mathrm{SE}_{\hat\beta_{\mathrm{OLS}}} = \frac{\sigma}{\sqrt{N}}$$

QR の漸近標準誤差は分位点での密度 f に反比例。正規誤差・τ=0.5 では OLS/QR ≈ 0.798(QR は OLS より約 64% の効率)。一方コーシー分布や外れ値混入では OLS の SE が発散し、QR が有利になる。

分位点回帰 — OLSとは異なる視点

🙋
「分位点回帰」って初めて聞きました。普通の回帰(OLS)と何が違うんですか?線を引くという意味では同じに見えるんですけど…
🎓
いいところを突いてくるね。実はそこが本質なんだ。OLS(最小二乗法)はデータ点全体の「真ん中」を通る線を引く。つまり条件付き平均 E[Y|X] を推定している。一方、分位点回帰(QR)は τ=0.5 なら中央値、τ=0.9 なら下から 90% の点を通る線を引く。同じ散布図から「平均的な人」と「上位 10% の人」の線を別々に引けるのが QR の強みなんだ。所得格差や住宅価格、リスク管理で当たり前のように使われているよ。
🙋
なるほど!上のグラフの「QR 回帰係数 vs τ」というのは、τ を変えると傾きが変わるって意味ですか?じゃあ τ ごとに何本も線を引いてるんですね。
🎓
そう、まさに「分布の形」を回帰で見る感覚だね。雑音分布を「不均一分散」に切り替えてみて。τ が大きいほど傾きが急になるはずだ。これは X が大きいほどデータのばらつきが大きいことを意味していて、OLS で1本だけ引いても見えない構造が、QR を τ=0.1〜0.9 で動かすと見えてくる。教育研究で「学力下位層と上位層で家庭環境の効果が違うか」を見るとき、こういう分析が標準なんだ。
🙋
外れ値割合のスライダーを上げると、OLS の傾きがどんどん 1.5 から外れていきますね。QR はあまり動かない…
🎓
それが QR のロバスト性だ。OLS は二乗誤差を使うから、遠い点ほど影響力が二乗で効いてしまう。1個の外れ値が傾きを大きく狂わせる。一方、中央値回帰(τ=0.5)は絶対誤差和を最小化するので、外れ値の影響は「1点ぶん」しか入らない。データの 30% が変な値でも中央値はびくともしない、というのと同じ原理だね。財務 VaR や保険のテール推定では、この耐性が必須なんだ。
🙋
じゃあ QR のほうが OLS より優れているんですか? なら全部 QR でいい気がするんですが…
🎓
そう単純じゃないところが面白い。雑音分布を「正規分布」に戻して、効率比 OLS/QR を見て。0.8 くらい、つまり QR の SE のほうが大きいだろう? 雑音がきれいな正規分布のときは、OLS の漸近効率が 100%、中央値回帰は約 64%(= 2/π)しかない。「同じ精度を出すのに QR は 1.57 倍のサンプルが要る」ってことだ。だから現場ではこう使い分ける。正規っぽい綺麗なデータ → OLS、heavy-tailed や外れ値あり → QR、分布全体の構造を見たい → τ を振った QR、というふうにね。
🙋
「コーシー (heavy-tailed)」に切り替えると効率比が逆転するのも、それが理由ですね。下のロス関数のグラフは V 字のような形になってますけど、これが Pin-ball loss ですか?
🎓
そう、それが ρ_τ(u) = u·(τ−1[u<0]) の本体だよ。横軸が τ で、各 τ における最適化後のロス値をプロットしている。τ=0.5 を境に左右対称(=絶対値関数)になって、τ が偏ると傾きが非対称になる。これが「上側 10% を狙う」「下側 5% の VaR を狙う」といった非対称な問題を、線形計画でスパッと解ける数学的な美しさなんだ。Koenker と Bassett が 1978 年に発表してから、計量経済学・気候学・医療統計の標準ツールになった。理論を一度味わうと、データの見方が一気に立体的になるよ。

よくある質問

OLS(最小二乗法)は条件付き平均 E[Y|X] を推定しますが、分位点回帰は条件付き分位点 Q_τ(Y|X) を直接推定します。τ=0.5 なら中央値、τ=0.9 なら 90% タイルです。OLS が二乗誤差を最小化するのに対し、QR は Pin-ball / Check loss ρ_τ(u)=u(τ−1[u<0]) を最小化します。これにより分布の中心だけでなく裾の振る舞いまで捉えられ、heavy-tailed な分布や外れ値に対してもロバストに傾きを推定できます。
Pin-ball loss は ρ_τ(u) = u·(τ − 1[u<0]) で定義され、正残差には重み τ、負残差には重み (1−τ) をかける非対称な絶対値損失です。τ=0.5 なら左右対称で MAD(絶対誤差和)に一致し、中央値回帰になります。τ=0.9 では正方向の誤差を重く罰し、データの「上側 10%」を覆う線を引きます。最小化は線形計画問題として効率的に解け、Koenker & Bassett (1978) で提案されました。
(1) 分布の裾を直接見たいとき。所得格差の 90/10 ratio や住宅価格の高価格帯モデリング。(2) heavy-tailed な分布や外れ値を含むデータ。財務リスク (VaR, Expected Shortfall) では τ=0.95〜0.99 の QR が標準。(3) 不均一分散 (heteroscedasticity) があるとき。OLS は平均だけ見るので分散構造を見落としますが、QR は τ ごとに異なる傾きを推定でき、分布全体の形が分かります。(4) 気候極値解析や生存時間分析でも頻用されます。
雑音が正規分布のとき、中央値回帰 (τ=0.5) は OLS と比べて漸近効率が約 64% (= 2/π) しかありません。本ツールの「効率比 OLS/QR = SE_OLS/SE_QR」も 0.8 程度を示し、正規誤差では OLS のほうが優れることが分かります。しかし誤差が heavy-tailed(コーシー分布など)になると OLS の SE は発散する一方、QR は有限のまま。外れ値が混入すると OLS は引きずられて傾きが大きく狂いますが、QR はほとんど影響を受けません。このロバスト性が QR の最大の利点です。

実世界での応用

所得分布・不平等分析(経済学):OECD や世界銀行は所得分布の「90/10 ratio(上位 10% の所得 ÷ 下位 10% の所得)」を国ごとに比較します。QR を学歴・年齢・性別を共変量にして走らせれば、各属性が「平均的な所得」ではなく「貧困層・富裕層の所得」にどう効くかを分けて推定できます。Buchinsky (1994) の有名な研究では、米国の教育のリターンが上位分位ほど大きいことを QR で示しました。

金融リスク管理(VaR・Expected Shortfall):銀行のトレーディング部門は、ポートフォリオ損失の τ=0.99 や τ=0.995 分位点を「Value at Risk」として日次計算します。Engle & Manganelli の CAViaR(Conditional Autoregressive VaR)は QR を時系列に拡張したモデルで、Basel 規制の市場リスク資本の計算で標準的に用いられます。OLS では裾の振る舞いが捉えられないため、リスク管理では QR 系手法が必須です。

気候・環境の極値解析:豪雨・熱波・洪水のように「平均ではなく上位 5%」が問題になる現象では、温度や時刻を説明変数に τ=0.95 の QR を当てはめ、温暖化が極値の高さをどう変えているかを推定します。Friederichs & Hense (2007) などの研究で、QR は GEV(一般化極値分布)と並んで気候科学の標準ツールになっています。

医療データ・生存時間:新薬の効果を「平均生存月数」ではなく「下位 25% の患者の生存時間」で測りたい、低出生体重児の予測で「平均体重」より「下位 10% 体重」を見たい、というケースで QR が用いられます。OLS で平均値だけ見ていると「最も助けたい群」の動向を見落とすため、医療統計でも 2000 年代以降急速に普及しました。

よくある誤解と注意点

まず代表的な誤解が、「QR は OLS より常に優れている」というもの。本ツールでも確認できる通り、雑音が正規分布の場合、QR の漸近効率は OLS の約 64% (= 2/π)しかありません。中央値回帰の SE は OLS より 1.25 倍程度大きく、「同じ精度を出すのに 1.57 倍のサンプルが必要」になります。きれいな正規誤差・外れ値なしのデータでは OLS を使うべきで、QR を選ぶのは heavy-tailed・外れ値あり・分布全体を見たい、のいずれかの動機があるときに限るべきです。

次に、「Pin-ball loss は非微分点があるから勾配法で最適化できない」という誤解。確かに ρ_τ(u) は u=0 で微分不可能ですが、QR の最適化は線形計画問題として定式化でき、シンプレックス法や内点法で大規模問題まで効率的に解けます(quantreg パッケージや Python の statsmodels が標準実装)。微分不可能性を恐れて勾配法で近似する必要はなく、むしろ「凸計画で大域最適が保証される」のが QR の利点です。

最後に、「τ=0.5 と τ=0.9 を別々にフィットすると線が交差してしまう」問題。理論的には条件付き分位点は τ で単調なはずですが、有限サンプルでフィットすると 95% タイルの線が 90% タイルより下に来る「分位点交差 (quantile crossing)」が起きることがあります。これは「分布の予測としては不整合」なので、Bondell et al. (2010) の制約付き同時推定や、各点での順序統計補正、Chernozhukov らの rearrangement などで後処理するのが実務上のお作法です。τ を 5 本以上同時に出すレポートでは必ずチェックしてください。

使い方ガイド

  1. サンプル数(numSamplesQR)を50~500の範囲で設定し、τ(分位点)を0.1~0.9で指定します
  2. 真の傾き β₁ と切片を入力後、シミュレーションを実行して OLS と QR の推定傾きを比較します
  3. 効率比(OLS の標準誤差 / QR の標準誤差)が1より大きければ、その分位点で QR が優位であることを確認します

具体的な計算例

ログ月収データ(n=200)で τ=0.25(第1四分位)を推定する場合、真の傾き β₁=0.08、切片=10.2、誤差が Laplace(λ=0.5) に従うとき:OLS 推定傾き=0.079(SE=0.0062)、QR 推定傾き=0.081(SE=0.0048)となり、効率比=1.29 で QR が有利です。外れ値が10%混在すると OLS のSEは0.0089に悪化し、効率比は1.85に拡大します。

実務での注意点