🙋
「分位点回帰」って初めて聞きました。普通の回帰(OLS)と何が違うんですか?線を引くという意味では同じに見えるんですけど…
🎓
いいところを突いてくるね。実はそこが本質なんだ。OLS(最小二乗法)はデータ点全体の「真ん中」を通る線を引く。つまり条件付き平均 E[Y|X] を推定している。一方、分位点回帰(QR)は τ=0.5 なら中央値 、τ=0.9 なら下から 90% の点を通る線を引く。同じ散布図から「平均的な人」と「上位 10% の人」の線を別々に引けるのが QR の強みなんだ。所得格差や住宅価格、リスク管理で当たり前のように使われているよ。
🙋
なるほど!上のグラフの「QR 回帰係数 vs τ」というのは、τ を変えると傾きが変わるって意味ですか?じゃあ τ ごとに何本も線を引いてるんですね。
🎓
そう、まさに「分布の形」を回帰で見る感覚だね。雑音分布を「不均一分散」に切り替えてみて。τ が大きいほど傾きが急になるはずだ。これは X が大きいほどデータのばらつきが大きい ことを意味していて、OLS で1本だけ引いても見えない構造が、QR を τ=0.1〜0.9 で動かすと見えてくる。教育研究で「学力下位層と上位層で家庭環境の効果が違うか」を見るとき、こういう分析が標準なんだ。
🙋
外れ値割合のスライダーを上げると、OLS の傾きがどんどん 1.5 から外れていきますね。QR はあまり動かない…
🎓
それが QR のロバスト性 だ。OLS は二乗誤差を使うから、遠い点ほど影響力が二乗で効いてしまう。1個の外れ値が傾きを大きく狂わせる。一方、中央値回帰(τ=0.5)は絶対誤差和を最小化するので、外れ値の影響は「1点ぶん」しか入らない。データの 30% が変な値でも中央値はびくともしない、というのと同じ原理だね。財務 VaR や保険のテール推定では、この耐性が必須なんだ。
🙋
じゃあ QR のほうが OLS より優れているんですか? なら全部 QR でいい気がするんですが…
🎓
そう単純じゃないところが面白い。雑音分布を「正規分布」に戻して、効率比 OLS/QR を見て。0.8 くらい、つまり QR の SE のほうが大きいだろう? 雑音がきれいな正規分布のときは、OLS の漸近効率が 100%、中央値回帰は約 64%(= 2/π)しかない。「同じ精度を出すのに QR は 1.57 倍のサンプルが要る」ってことだ。だから現場ではこう使い分ける。正規っぽい綺麗なデータ → OLS、heavy-tailed や外れ値あり → QR、分布全体の構造を見たい → τ を振った QR、というふうにね。
🙋
「コーシー (heavy-tailed)」に切り替えると効率比が逆転するのも、それが理由ですね。下のロス関数のグラフは V 字のような形になってますけど、これが Pin-ball loss ですか?
🎓
そう、それが ρ_τ(u) = u·(τ−1[u<0]) の本体だよ。横軸が τ で、各 τ における最適化後のロス値をプロットしている。τ=0.5 を境に左右対称(=絶対値関数)になって、τ が偏ると傾きが非対称になる。これが「上側 10% を狙う」「下側 5% の VaR を狙う」といった非対称な問題を、線形計画でスパッと解ける数学的な美しさなんだ。Koenker と Bassett が 1978 年に発表してから、計量経済学・気候学・医療統計の標準ツールになった。理論を一度味わうと、データの見方が一気に立体的になるよ。
分位点回帰 (Quantile Regression) は OLS と何が違いますか?
OLS(最小二乗法)は条件付き平均 E[Y|X] を推定しますが、分位点回帰は条件付き分位点 Q_τ(Y|X) を直接推定します。τ=0.5 なら中央値、τ=0.9 なら 90% タイルです。OLS が二乗誤差を最小化するのに対し、QR は Pin-ball / Check loss ρ_τ(u)=u(τ−1[u<0]) を最小化します。これにより分布の中心だけでなく裾の振る舞いまで捉えられ、heavy-tailed な分布や外れ値に対してもロバストに傾きを推定できます。
Pin-ball loss(チェック関数)とは何ですか?
Pin-ball loss は ρ_τ(u) = u·(τ − 1[u<0]) で定義され、正残差には重み τ、負残差には重み (1−τ) をかける非対称な絶対値損失です。τ=0.5 なら左右対称で MAD(絶対誤差和)に一致し、中央値回帰になります。τ=0.9 では正方向の誤差を重く罰し、データの「上側 10%」を覆う線を引きます。最小化は線形計画問題として効率的に解け、Koenker & Bassett (1978) で提案されました。
どんな場面で分位点回帰を使うべきですか?
(1) 分布の裾を直接見たいとき。所得格差の 90/10 ratio や住宅価格の高価格帯モデリング。(2) heavy-tailed な分布や外れ値を含むデータ。財務リスク (VaR, Expected Shortfall) では τ=0.95〜0.99 の QR が標準。(3) 不均一分散 (heteroscedasticity) があるとき。OLS は平均だけ見るので分散構造を見落としますが、QR は τ ごとに異なる傾きを推定でき、分布全体の形が分かります。(4) 気候極値解析や生存時間分析でも頻用されます。
QR の効率は OLS と比べてどうですか?
雑音が正規分布のとき、中央値回帰 (τ=0.5) は OLS と比べて漸近効率が約 64% (= 2/π) しかありません。本ツールの「効率比 OLS/QR = SE_OLS/SE_QR」も 0.8 程度を示し、正規誤差では OLS のほうが優れることが分かります。しかし誤差が heavy-tailed(コーシー分布など)になると OLS の SE は発散する一方、QR は有限のまま。外れ値が混入すると OLS は引きずられて傾きが大きく狂いますが、QR はほとんど影響を受けません。このロバスト性が QR の最大の利点です。
所得分布・不平等分析(経済学): OECD や世界銀行は所得分布の「90/10 ratio(上位 10% の所得 ÷ 下位 10% の所得)」を国ごとに比較します。QR を学歴・年齢・性別を共変量にして走らせれば、各属性が「平均的な所得」ではなく「貧困層・富裕層の所得」にどう効くかを分けて推定できます。Buchinsky (1994) の有名な研究では、米国の教育のリターンが上位分位ほど大きいことを QR で示しました。
金融リスク管理(VaR・Expected Shortfall): 銀行のトレーディング部門は、ポートフォリオ損失の τ=0.99 や τ=0.995 分位点を「Value at Risk」として日次計算します。Engle & Manganelli の CAViaR(Conditional Autoregressive VaR)は QR を時系列に拡張したモデルで、Basel 規制の市場リスク資本の計算で標準的に用いられます。OLS では裾の振る舞いが捉えられないため、リスク管理では QR 系手法が必須です。
気候・環境の極値解析: 豪雨・熱波・洪水のように「平均ではなく上位 5%」が問題になる現象では、温度や時刻を説明変数に τ=0.95 の QR を当てはめ、温暖化が極値の高さをどう変えているかを推定します。Friederichs & Hense (2007) などの研究で、QR は GEV(一般化極値分布)と並んで気候科学の標準ツールになっています。
医療データ・生存時間: 新薬の効果を「平均生存月数」ではなく「下位 25% の患者の生存時間」で測りたい、低出生体重児の予測で「平均体重」より「下位 10% 体重」を見たい、というケースで QR が用いられます。OLS で平均値だけ見ていると「最も助けたい群」の動向を見落とすため、医療統計でも 2000 年代以降急速に普及しました。
まず代表的な誤解が、「QR は OLS より常に優れている」 というもの。本ツールでも確認できる通り、雑音が正規分布の場合、QR の漸近効率は OLS の約 64% (= 2/π)しかありません。中央値回帰の SE は OLS より 1.25 倍程度大きく、「同じ精度を出すのに 1.57 倍のサンプルが必要」になります。きれいな正規誤差・外れ値なしのデータでは OLS を使うべきで、QR を選ぶのは heavy-tailed・外れ値あり・分布全体を見たい、のいずれかの動機があるときに限るべきです。
次に、「Pin-ball loss は非微分点があるから勾配法で最適化できない」 という誤解。確かに ρ_τ(u) は u=0 で微分不可能ですが、QR の最適化は線形計画問題 として定式化でき、シンプレックス法や内点法で大規模問題まで効率的に解けます(quantreg パッケージや Python の statsmodels が標準実装)。微分不可能性を恐れて勾配法で近似する必要はなく、むしろ「凸計画で大域最適が保証される」のが QR の利点です。
最後に、「τ=0.5 と τ=0.9 を別々にフィットすると線が交差してしまう」 問題。理論的には条件付き分位点は τ で単調なはずですが、有限サンプルでフィットすると 95% タイルの線が 90% タイルより下に来る「分位点交差 (quantile crossing)」が起きることがあります。これは「分布の予測としては不整合」なので、Bondell et al. (2010) の制約付き同時推定や、各点での順序統計補正、Chernozhukov らの rearrangement などで後処理するのが実務上のお作法です。τ を 5 本以上同時に出すレポートでは必ずチェックしてください。