📈データ分析・定量スキル

分位点回帰とは?平均だけでなく分布全体を捉える回帰分析手法を解説

分位点回帰(Quantile Regression)は、条件付き分布の中央値や任意のパーセンタイルを推定する回帰分析手法です。通常の回帰分析との違い、推定手順、ビジネスでの活用場面と注意点を解説します。

#分位点回帰#回帰分析#分布分析#ロバスト統計#不等式制約

    分位点回帰とは

    分位点回帰(Quantile Regression)は、アウトカム変数の条件付き分布の特定の分位点(中央値、25パーセンタイル、90パーセンタイルなど)を説明変数の関数として推定する回帰分析手法です。

    通常の最小二乗法(OLS)が条件付き平均を推定するのに対し、分位点回帰は分布の任意の位置を推定できます。これにより「平均的にはどうか」だけでなく「上位層ではどうか」「下位層ではどうか」という分布全体の姿を捉えられます。

    1978年にRoger KoenkerとGilbert Bassettが提唱した手法で、計量経済学、医学統計、環境科学など幅広い分野で活用されています。Koenkerの著書「Quantile Regression」(2005年)が体系的な参考文献として知られています。

    分位点回帰の本質は「効果の異質性の可視化」です。たとえば教育投資の効果が所得の下位層と上位層で異なるかどうか、広告費の効果が売上の低い店舗と高い店舗で異なるかどうかを、分位点ごとの回帰係数の違いとして定量化できます。

    分位点回帰とOLS回帰の比較

    構成要素

    分位点損失関数(チェック関数)

    分位点回帰の推定はチェック関数と呼ばれる非対称な損失関数を最小化します。

    分位点損失の特徴解釈
    0.5(中央値)正負の残差に等しい重み中央値回帰(LAD回帰)
    0.9(90パーセンタイル)負の残差に小さな重み、正の残差に大きな重み上位層の条件付き分布
    0.1(10パーセンタイル)正の残差に小さな重み、負の残差に大きな重み下位層の条件付き分布

    OLSとの比較

    OLSは誤差の二乗和を最小化するため、外れ値の影響を受けやすく、条件付き平均しか推定できません。分位点回帰は外れ値に対してロバストであり、分布の異なる部分での効果を比較できます。

    推定方法

    分位点回帰の推定は線形計画法(LP)として定式化でき、シンプレックス法や内点法で解くことができます。標準誤差の推定にはブートストラップ法やカーネル密度推定に基づく方法が使われます。

    実践的な使い方

    ステップ1: 分析目的に応じた分位点の選択

    分析の目的に応じて推定する分位点を選びます。分布全体を把握したい場合は、0.1、0.25、0.5、0.75、0.9の5点を推定するのが一般的です。

    ステップ2: 分位点回帰モデルの推定

    各分位点について回帰モデルを推定します。R言語のquantregパッケージやPythonのstatsmodelsが標準的なツールです。

    ステップ3: 分位点間の係数比較

    異なる分位点での回帰係数を比較し、効果が分布の位置によってどのように変化するかを分析します。係数プロット(分位点を横軸、係数を縦軸)で視覚化すると直感的に理解できます。

    ステップ4: 統計的推論

    各分位点での係数の信頼区間を推定し、OLSの係数と統計的に異なるかどうかを検定します。分位点間の係数の同一性検定(Wald検定)も実施します。

    活用場面

    • 賃金格差分析で、賃金分布の異なる位置での性別・学歴の効果を推定する場面
    • 顧客の購買金額分布の上位層と下位層でマーケティング施策の効果が異なるかを検証する場面
    • リスク管理でVaR(Value at Risk)の条件付き推定に活用する場面
    • 教育効果の研究で、成績分布の下位層に対する介入効果を特に重視する分析

    注意点

    分位点回帰はOLSが前提とする「等分散性」に依存しません。アウトカムの分散が説明変数によって変わる場合(分散不均一)でも、各分位点の条件付き推定が有効です。この性質はOLSの仮定が疑わしいデータに特に有用です。

    因果解釈の限界

    分位点回帰の係数は「条件付き分布のτ分位点に対する効果」であり、「アウトカムの周辺分布のτ分位点にいる個人への効果」ではありません。処置効果の異質性を因果的に解釈するには、追加的な仮定(ランク不変性など)が必要です。

    交差する分位点回帰線の問題

    異なる分位点の回帰線が交差すると、推定された条件付き分布が不整合になります(たとえば10パーセンタイルが90パーセンタイルを上回る)。これを回避するには単調性の制約を課す方法や、同時分位点回帰のアプローチが提案されています。

    計算コストとサンプルサイズ

    分位点回帰は分位点ごとに個別のモデルを推定するため、多数の分位点を推定すると計算コストが増加します。また、分布の端(0.05や0.95など)ではデータ点が少なく、推定の精度が低下します。極端な分位点の推定には十分なサンプルサイズが必要です。

    まとめ

    分位点回帰は、条件付き分布の任意の位置を推定できる回帰分析手法で、平均だけでは捉えられない効果の異質性を明らかにします。賃金分析、リスク管理、マーケティング効果の異質性分析など、分布全体の理解が重要な場面で威力を発揮します。因果解釈の前提条件と分位点交差の問題に注意して活用しましょう。

    関連記事