分位点回帰シミュレーター — OLS との比較

Q: 分位点回帰 (Quantile Regression) は OLS と何が違いますか？

OLS（最小二乗法）は条件付き平均 E[Y|X] を推定しますが、分位点回帰は条件付き分位点 Q_τ(Y|X) を直接推定します。τ=0.5 なら中央値、τ=0.9 なら 90% タイルです。OLS が二乗誤差を最小化するのに対し、QR は Pin-ball / Check loss ρ_τ(u)=u(τ−1[u<0]) を最小化します。これにより分布の中心だけでなく裾の振る舞いまで捉えられ、heavy-tailed な分布や外れ値に対してもロバストに傾きを推定できます。

Q: Pin-ball loss（チェック関数）とは何ですか？

Pin-ball loss は ρ_τ(u) = u·(τ − 1[u<0]) で定義され、正残差には重み τ、負残差には重み (1−τ) をかける非対称な絶対値損失です。τ=0.5 なら左右対称で MAD（絶対誤差和）に一致し、中央値回帰になります。τ=0.9 では正方向の誤差を重く罰し、データの「上側 10%」を覆う線を引きます。最小化は線形計画問題として効率的に解け、Koenker & Bassett (1978) で提案されました。

Q: どんな場面で分位点回帰を使うべきですか？

(1) 分布の裾を直接見たいとき。所得格差の 90/10 ratio や住宅価格の高価格帯モデリング。(2) heavy-tailed な分布や外れ値を含むデータ。財務リスク (VaR, Expected Shortfall) では τ=0.95〜0.99 の QR が標準。(3) 不均一分散 (heteroscedasticity) があるとき。OLS は平均だけ見るので分散構造を見落としますが、QR は τ ごとに異なる傾きを推定でき、分布全体の形が分かります。(4) 気候極値解析や生存時間分析でも頻用されます。

Q: QR の効率は OLS と比べてどうですか？

雑音が正規分布のとき、中央値回帰 (τ=0.5) は OLS と比べて漸近効率が約 64% (= 2/π) しかありません。本ツールの「効率比 OLS/QR = SE_OLS/SE_QR」も 0.8 程度を示し、正規誤差では OLS のほうが優れることが分かります。しかし誤差が heavy-tailed（コーシー分布など）になると OLS の SE は発散する一方、QR は有限のまま。外れ値が混入すると OLS は引きずられて傾きが大きく狂いますが、QR はほとんど影響を受けません。このロバスト性が QR の最大の利点です。

分位点回帰シミュレーター — OLS との比較

条件付き分位点を直接推定する分位点回帰（QR）を、最小二乗法（OLS）と並べて可視化するツールです。サンプル数・τ（分位点）・雑音分布・外れ値割合を変えると、QR と OLS の傾き・標準誤差・効率比がリアルタイムで更新され、heavy-tailed や外れ値混入下での QR のロバスト性が直感的に分かります。

パラメータ設定

サンプル数 N

標本の数。多いほど推定の SE が小さくなる

分位点 τ

τ=0.5 で中央値回帰、τ=0.9 で 90% 分位点

真の傾き β₁

真の切片 β₀

雑音標準偏差 σ

雑音分布

分布形状で QR と OLS の優劣が変わる

外れ値割合

OLS は引きずられ、QR は耐える

計算結果

—

真の傾き β₁(τ)

—

OLS推定傾き

—

QR推定傾き

—

QR標準誤差 SE

—

OLS標準誤差 SE

—

効率比 OLS/QR

—

散布図 + OLS / QR フィット

青点：通常データ、赤点：外れ値。赤線が OLS、青線が QR（複数 τ）。雑音や外れ値を増やすと OLS 線が大きく傾き、QR 線が真値近くにとどまる様子が見える。

QR 回帰係数 vs 分位点 τ

Pin-ball (Check) loss vs τ

理論・主要公式

$$\hat\beta(\tau) = \arg\min_\beta \sum_i \rho_\tau\!\left(y_i - x_i^{\mathsf T}\beta\right),\qquad \rho_\tau(u) = u\bigl(\tau - \mathbf{1}[u\lt 0]\bigr)$$

ρ_τ は Pin-ball / Check loss。τ=0.5 で中央値回帰（絶対誤差和最小）、τ=0.9 で 90% 分位点を推定する非対称損失。線形計画問題として効率的に解ける。

$$\mathrm{SE}_{\hat\beta(\tau)} \;\approx\; \frac{\sqrt{\tau(1-\tau)}}{f\!\bigl(F^{-1}(\tau)\bigr)\sqrt{N}}, \qquad \mathrm{SE}_{\hat\beta_{\mathrm{OLS}}} = \frac{\sigma}{\sqrt{N}}$$

QR の漸近標準誤差は分位点での密度 f に反比例。正規誤差・τ=0.5 では OLS/QR ≈ 0.798（QR は OLS より約 64% の効率）。一方コーシー分布や外れ値混入では OLS の SE が発散し、QR が有利になる。

分位点回帰 — OLSとは異なる視点

🙋

「分位点回帰」って初めて聞きました。普通の回帰（OLS）と何が違うんですか？線を引くという意味では同じに見えるんですけど…

🎓

いいところを突いてくるね。実はそこが本質なんだ。OLS（最小二乗法）はデータ点全体の「真ん中」を通る線を引く。つまり条件付き平均 E[Y|X] を推定している。一方、分位点回帰（QR）は τ=0.5 なら中央値、τ=0.9 なら下から 90% の点を通る線を引く。同じ散布図から「平均的な人」と「上位 10% の人」の線を別々に引けるのが QR の強みなんだ。所得格差や住宅価格、リスク管理で当たり前のように使われているよ。

🙋

なるほど！上のグラフの「QR 回帰係数 vs τ」というのは、τ を変えると傾きが変わるって意味ですか？じゃあ τ ごとに何本も線を引いてるんですね。

🎓

そう、まさに「分布の形」を回帰で見る感覚だね。雑音分布を「不均一分散」に切り替えてみて。τ が大きいほど傾きが急になるはずだ。これは X が大きいほどデータのばらつきが大きいことを意味していて、OLS で1本だけ引いても見えない構造が、QR を τ=0.1〜0.9 で動かすと見えてくる。教育研究で「学力下位層と上位層で家庭環境の効果が違うか」を見るとき、こういう分析が標準なんだ。

🙋

外れ値割合のスライダーを上げると、OLS の傾きがどんどん 1.5 から外れていきますね。QR はあまり動かない…

🎓

それが QR のロバスト性だ。OLS は二乗誤差を使うから、遠い点ほど影響力が二乗で効いてしまう。1個の外れ値が傾きを大きく狂わせる。一方、中央値回帰（τ=0.5）は絶対誤差和を最小化するので、外れ値の影響は「1点ぶん」しか入らない。データの 30% が変な値でも中央値はびくともしない、というのと同じ原理だね。財務 VaR や保険のテール推定では、この耐性が必須なんだ。

🙋

じゃあ QR のほうが OLS より優れているんですか？なら全部 QR でいい気がするんですが…

🎓

そう単純じゃないところが面白い。雑音分布を「正規分布」に戻して、効率比 OLS/QR を見て。0.8 くらい、つまり QR の SE のほうが大きいだろう？雑音がきれいな正規分布のときは、OLS の漸近効率が 100%、中央値回帰は約 64%（= 2/π）しかない。「同じ精度を出すのに QR は 1.57 倍のサンプルが要る」ってことだ。だから現場ではこう使い分ける。正規っぽい綺麗なデータ → OLS、heavy-tailed や外れ値あり → QR、分布全体の構造を見たい → τ を振った QR、というふうにね。

🙋

「コーシー (heavy-tailed)」に切り替えると効率比が逆転するのも、それが理由ですね。下のロス関数のグラフは V 字のような形になってますけど、これが Pin-ball loss ですか？

🎓

そう、それが ρ_τ(u) = u·(τ−1[u<0]) の本体だよ。横軸が τ で、各 τ における最適化後のロス値をプロットしている。τ=0.5 を境に左右対称（=絶対値関数）になって、τ が偏ると傾きが非対称になる。これが「上側 10% を狙う」「下側 5% の VaR を狙う」といった非対称な問題を、線形計画でスパッと解ける数学的な美しさなんだ。Koenker と Bassett が 1978 年に発表してから、計量経済学・気候学・医療統計の標準ツールになった。理論を一度味わうと、データの見方が一気に立体的になるよ。

よくある質問

OLS（最小二乗法）は条件付き平均 E[Y|X] を推定しますが、分位点回帰は条件付き分位点 Q_τ(Y|X) を直接推定します。τ=0.5 なら中央値、τ=0.9 なら 90% タイルです。OLS が二乗誤差を最小化するのに対し、QR は Pin-ball / Check loss ρ_τ(u)=u(τ−1[u<0]) を最小化します。これにより分布の中心だけでなく裾の振る舞いまで捉えられ、heavy-tailed な分布や外れ値に対してもロバストに傾きを推定できます。

Pin-ball loss は ρ_τ(u) = u·(τ − 1[u<0]) で定義され、正残差には重み τ、負残差には重み (1−τ) をかける非対称な絶対値損失です。τ=0.5 なら左右対称で MAD（絶対誤差和）に一致し、中央値回帰になります。τ=0.9 では正方向の誤差を重く罰し、データの「上側 10%」を覆う線を引きます。最小化は線形計画問題として効率的に解け、Koenker & Bassett (1978) で提案されました。

(1) 分布の裾を直接見たいとき。所得格差の 90/10 ratio や住宅価格の高価格帯モデリング。(2) heavy-tailed な分布や外れ値を含むデータ。財務リスク (VaR, Expected Shortfall) では τ=0.95〜0.99 の QR が標準。(3) 不均一分散 (heteroscedasticity) があるとき。OLS は平均だけ見るので分散構造を見落としますが、QR は τ ごとに異なる傾きを推定でき、分布全体の形が分かります。(4) 気候極値解析や生存時間分析でも頻用されます。

雑音が正規分布のとき、中央値回帰 (τ=0.5) は OLS と比べて漸近効率が約 64% (= 2/π) しかありません。本ツールの「効率比 OLS/QR = SE_OLS/SE_QR」も 0.8 程度を示し、正規誤差では OLS のほうが優れることが分かります。しかし誤差が heavy-tailed（コーシー分布など）になると OLS の SE は発散する一方、QR は有限のまま。外れ値が混入すると OLS は引きずられて傾きが大きく狂いますが、QR はほとんど影響を受けません。このロバスト性が QR の最大の利点です。

実世界での応用

所得分布・不平等分析（経済学）：OECD や世界銀行は所得分布の「90/10 ratio（上位 10% の所得 ÷ 下位 10% の所得）」を国ごとに比較します。QR を学歴・年齢・性別を共変量にして走らせれば、各属性が「平均的な所得」ではなく「貧困層・富裕層の所得」にどう効くかを分けて推定できます。Buchinsky (1994) の有名な研究では、米国の教育のリターンが上位分位ほど大きいことを QR で示しました。

金融リスク管理（VaR・Expected Shortfall）：銀行のトレーディング部門は、ポートフォリオ損失の τ=0.99 や τ=0.995 分位点を「Value at Risk」として日次計算します。Engle & Manganelli の CAViaR（Conditional Autoregressive VaR）は QR を時系列に拡張したモデルで、Basel 規制の市場リスク資本の計算で標準的に用いられます。OLS では裾の振る舞いが捉えられないため、リスク管理では QR 系手法が必須です。

気候・環境の極値解析：豪雨・熱波・洪水のように「平均ではなく上位 5%」が問題になる現象では、温度や時刻を説明変数に τ=0.95 の QR を当てはめ、温暖化が極値の高さをどう変えているかを推定します。Friederichs & Hense (2007) などの研究で、QR は GEV（一般化極値分布）と並んで気候科学の標準ツールになっています。

医療データ・生存時間：新薬の効果を「平均生存月数」ではなく「下位 25% の患者の生存時間」で測りたい、低出生体重児の予測で「平均体重」より「下位 10% 体重」を見たい、というケースで QR が用いられます。OLS で平均値だけ見ていると「最も助けたい群」の動向を見落とすため、医療統計でも 2000 年代以降急速に普及しました。

よくある誤解と注意点

まず代表的な誤解が、「QR は OLS より常に優れている」というもの。本ツールでも確認できる通り、雑音が正規分布の場合、QR の漸近効率は OLS の約 64% （= 2/π）しかありません。中央値回帰の SE は OLS より 1.25 倍程度大きく、「同じ精度を出すのに 1.57 倍のサンプルが必要」になります。きれいな正規誤差・外れ値なしのデータでは OLS を使うべきで、QR を選ぶのは heavy-tailed・外れ値あり・分布全体を見たい、のいずれかの動機があるときに限るべきです。

次に、「Pin-ball loss は非微分点があるから勾配法で最適化できない」という誤解。確かに ρ_τ(u) は u=0 で微分不可能ですが、QR の最適化は線形計画問題として定式化でき、シンプレックス法や内点法で大規模問題まで効率的に解けます（quantreg パッケージや Python の statsmodels が標準実装）。微分不可能性を恐れて勾配法で近似する必要はなく、むしろ「凸計画で大域最適が保証される」のが QR の利点です。

最後に、「τ=0.5 と τ=0.9 を別々にフィットすると線が交差してしまう」問題。理論的には条件付き分位点は τ で単調なはずですが、有限サンプルでフィットすると 95% タイルの線が 90% タイルより下に来る「分位点交差 (quantile crossing)」が起きることがあります。これは「分布の予測としては不整合」なので、Bondell et al. (2010) の制約付き同時推定や、各点での順序統計補正、Chernozhukov らの rearrangement などで後処理するのが実務上のお作法です。τ を 5 本以上同時に出すレポートでは必ずチェックしてください。

分位点回帰シミュレーター — OLS との比較

分位点回帰 — OLSとは異なる視点

よくある質問

実世界での応用

よくある誤解と注意点

使い方ガイド

具体的な計算例

実務での注意点

分位点回帰 シミュレーター — OLS との比較

分位点回帰 — OLSとは異なる視点

よくある質問

実世界での応用

よくある誤解と注意点

使い方ガイド

具体的な計算例

実務での注意点

関連ツール

分位点回帰シミュレーター — OLS との比較