📈データ分析・定量スキル

回帰不連続デザイン(RDD)とは?カットオフを利用した因果推論手法を解説

回帰不連続デザイン(RDD)は、政策や施策の閾値(カットオフ)前後の不連続な変化を利用して因果効果を推定する準実験的手法です。基本概念、分析手順、活用場面、注意点を体系的に解説します。

    回帰不連続デザイン(RDD)とは

    回帰不連続デザイン(Regression Discontinuity Design、RDD)は、ある連続変数の閾値(カットオフ)を境に処置(施策・介入)が割り当てられる状況を利用して、処置の因果効果を推定する準実験的手法です。

    1960年代に心理学者のドナルド・キャンベルとドナルド・セルリンが提唱し、2000年代以降は経済学・政策評価分野で急速に普及しました。ランダム化比較試験(RCT)が実施できない場面でも、カットオフの前後で「ほぼランダムに近い」処置割り当てが生じることを利用して、信頼性の高い因果推定を行います。

    構成要素

    RDDは以下の3つの要素で構成されます。

    割当変数(Running Variable)

    処置を受けるかどうかを決定する連続変数です。テストの点数、年齢、所得額などが該当します。この変数が一定の閾値を超えるかどうかで、処置群と対照群が分かれます。

    カットオフ(Cutoff / Threshold)

    処置が切り替わる閾値です。この値を境に処置の有無が決まります。たとえば「テスト60点以上で補習免除」であれば、60点がカットオフです。

    結果変数(Outcome Variable)

    処置の効果を測定する対象です。カットオフ前後での結果変数の「段差(ジャンプ)」が因果効果の推定値となります。

    要素具体例
    割当変数テスト得点、世帯所得、従業員数
    カットオフ60点、年収400万円、50人
    結果変数学習成績、消費行動、生産性
    RDDの分析プロセス 1 割当変数の特定 処置の割り当てを決定する連続変数を選定する 2 カットオフの確認 処置が切り替わる閾値を明確にする 3 周辺データの収集 閾値の前後にある観測データを収集する 4 回帰モデルの推定 カットオフ前後で別々の回帰直線を推定する 5 ジャンプの計測 カットオフ地点での結果変数の段差が因果効果

    Sharp RDDとFuzzy RDD

    RDDには2つのバリエーションがあります。

    • Sharp RDD: カットオフで処置確率が0%から100%に不連続に変化する場合です。「60点以上は全員補習免除」のように厳密なルールが適用されるケースが該当します。
    • Fuzzy RDD: カットオフ前後で処置確率が不連続に変化するものの、100%ではない場合です。「60点以上は補習免除だが、希望者は受講可能」のように例外があるケースです。操作変数法(IV)と組み合わせて推定します。

    実践的な使い方

    ステップ1: 割当変数とカットオフの特定

    分析対象の制度・施策において、処置の割り当てを決定する連続変数とその閾値を明確にします。制度設計のルールが文書化されていることが理想的です。

    ステップ2: データの可視化と密度検定

    カットオフ周辺のデータを散布図で可視化し、結果変数にジャンプがあるか視覚的に確認します。同時に、McCraryの密度検定を行い、割当変数がカットオフ周辺で操作されていないかを検証します。

    ステップ3: 局所多項式回帰の推定

    カットオフ前後のデータに対して別々の回帰モデルを当てはめます。バンド幅(カットオフからどの範囲のデータを使うか)の選択が重要で、Imbens-Kalyanaraman法やCalonico-Cattaneo-Titiunik法などの最適バンド幅選択手法を用います。

    ステップ4: 因果効果の推定と頑健性チェック

    カットオフ地点での回帰直線の段差(不連続ジャンプ)が局所的平均処置効果(LATE)です。バンド幅を変えた場合や、多項式の次数を変えた場合にも結果が安定するか確認します。

    活用場面

    • 教育政策の評価: 奨学金の成績基準、クラスサイズの閾値による学習効果の測定
    • 労働政策の効果分析: 最低賃金引き上げの雇用への影響、雇用助成金の適用基準
    • 医療・公衆衛生: BMI値に基づく治療開始基準の効果、年齢による健康診断受診率への影響
    • 規制の効果測定: 従業員数の閾値に基づく規制(障害者雇用率、環境規制)の企業行動への影響
    • マーケティング: 会員ランク昇格の基準値前後での購買行動の変化

    注意点

    カットオフの操作可能性

    対象者がカットオフを認知し、割当変数を意図的に操作できる場合、RDDの前提が崩れます。たとえば、助成金の所得基準を知った申請者が所得を過少申告するケースです。McCrary密度検定でカットオフ周辺の密度の偏りを確認することが必須です。

    バンド幅の選択

    バンド幅が狭すぎるとデータ不足で推定精度が下がり、広すぎるとカットオフから遠い観測値のバイアスが混入します。最適バンド幅のアルゴリズムを使いつつ、複数のバンド幅で結果の安定性を確認する頑健性チェックが重要です。

    外的妥当性の限界

    RDDで推定できるのは、カットオフ周辺の局所的な因果効果(LATE)です。カットオフから離れた領域に効果を一般化することはできません。政策提言の際は、この限界を明示する必要があります。

    他の因果推論手法との使い分け

    手法適用場面
    RDDカットオフによる処置割り当てがある場合
    DID(差分の差分法)処置の前後・群間の比較が可能な場合
    傾向スコアマッチング観察データで共変量の調整が必要な場合
    操作変数法処置と相関するが結果に直接影響しない変数がある場合

    まとめ

    回帰不連続デザインは、カットオフという制度的特徴を活用し、観察データから信頼性の高い因果推定を行う手法です。RCTが実施困難な政策評価・ビジネス分析の場面で有効であり、特にSharp RDDは前提条件が満たされればRCTに匹敵する内的妥当性を持ちます。割当変数の操作可能性やバンド幅の選択に注意しつつ、頑健性チェックを丁寧に行うことが実務上の鍵です。

    参考資料

    関連記事