多重検定補正とは?ボンフェローニ法・BH法など偽陽性を制御する手法を解説
多重検定補正は複数の統計検定を同時に行う際の偽陽性率の増大を制御する手法です。ボンフェローニ法、ホルム法、BH法(FDR制御)の違いと使い分け、ビジネスでの活用場面と注意点を解説します。
多重検定補正とは
多重検定補正(multiple testing correction)とは、複数の統計検定を同時に行う際に偽陽性(Type I error)の確率が増大する問題を制御する手法の総称です。
1回の検定で有意水準α = 0.05(偽陽性率5%)に設定していても、検定を繰り返すと全体で偽陽性が生じる確率は急激に上昇します。たとえば独立な20回の検定を行うと、少なくとも1回は偽陽性が生じる確率は約64%に達します。
コンサルティングの現場では、複数のKPIを同時に検定したり、多数のセグメント間比較を行ったりする場面が頻繁にあります。多重検定補正を適用しなければ、「偶然の差」を「意味のある差」と誤認するリスクが高まります。
ボンフェローニ法は、イタリアの数学者カルロ・エミリオ・ボンフェローニ(1892-1960)が導出した不等式に基づく補正法です。BH法(Benjamini-Hochberg法)は、1995年にイスラエルの統計学者ヨアヴ・ベンジャミニとヨセフ・ホッホベルクが発表した手法で、偽発見率(FDR)という新しい基準を導入し、大規模検定における検出力と偽陽性制御のバランスを大きく改善しました。
構成要素
ファミリーワイズエラー率(FWER)
複数の検定全体で少なくとも1つの偽陽性が生じる確率です。ボンフェローニ法やホルム法はFWERを有意水準α以下に制御します。FWERの制御は厳格で、1つでも偽陽性を出したくない場面に適しています。
偽発見率(FDR)
有意と判定した検定のうち、偽陽性が占める割合の期待値です。BH法(Benjamini-Hochberg法)はFDRを制御します。FDR制御はFWERより緩やかで、多数の検定を行う探索的な分析に適しています。
ボンフェローニ法
最もシンプルな補正法です。有意水準αを検定回数mで割り、各検定の有意水準をα/mとします。10回の検定なら各検定の有意水準は0.05/10 = 0.005になります。
計算が簡単で保守的ですが、検定回数が増えると検出力が大幅に低下します。
ホルム法(Holm-Bonferroni法)
ボンフェローニ法の改良版です。p値を小さい順に並べ、段階的に補正値を変えることで、ボンフェローニ法より検出力が高くなります。FWERを同水準で制御しつつ、有意と判定できるケースが増えます。
手順は以下の通りです。
- m個のp値を小さい順に並べる(p₁ ≤ p₂ ≤ … ≤ pm)
- p₁をα/mと比較、p₂をα/(m-1)と比較、と段階的に基準を緩める
- 初めてp値が基準を超えた時点で、それ以降はすべて有意でないと判定する
BH法(Benjamini-Hochberg法)
FDRを制御する方法です。p値を小さい順に並べ、各p値にm/i(iは順位)を掛けた値(調整p値)が有意水準αを下回るかで判定します。
FWERよりも制御が緩やかなため、多数の検定を行う場面で検出力を維持しやすいのが利点です。ゲノム解析やマーケティングの大規模A/Bテストで広く使われています。
実践的な使い方
ステップ1: 検定の数と目的を明確にする
まず同時に行う検定の数と、分析の目的を確認します。「確証的分析で偽陽性を極力避けたい」か「探索的分析で有望な候補を効率的に見つけたい」かで、補正法の選択が変わります。
ステップ2: 補正法を選択する
| 場面 | 推奨される補正法 |
|---|---|
| 検定数が少なく(5件以下)厳密さが必要 | ボンフェローニ法 |
| 検定数が中程度(5~20件)で厳密さが必要 | ホルム法 |
| 検定数が多く(20件以上)探索的な分析 | BH法(FDR制御) |
| 分散分析の事後検定 | テューキー法、ダネット法 |
ステップ3: 補正を適用する
各検定のp値を算出した後、選択した補正法で調整済みp値を計算します。PythonではStatsmodels(multipletests関数)、RではP.adjust関数が便利です。
ステップ4: 調整前と調整後のp値を両方報告する
報告には元のp値(未補正)と調整済みp値の両方を記載し、どの補正法を使ったかを明記します。
ステップ5: 検出力への影響を考慮する
補正により検出力が低下している可能性があります。重要な指標で有意にならなかった場合、サンプルサイズの不足や検出力の問題がないかを確認します。
活用場面
- 多重KPI分析: 売上、CVR、顧客満足度など複数のKPIを同時に検定する際に偽陽性を制御します
- セグメント間の多重比較: 複数の顧客セグメント間で指標を比較する際の事後検定で使います
- 大規模A/Bテスト: 多数のバリエーションを同時にテストする場合にFDR制御を適用します
- 特徴量の重要性検定: 多数の説明変数を含む回帰分析で、各変数の有意性を評価する際に使います
- マーケットバスケット分析: 大量のアソシエーションルールの有意性を検定する際に偽発見率を制御します
注意点
補正しすぎると真の差を見逃す
ボンフェローニ法は非常に保守的で、検定回数が多くなると真に有意な差も検出できなくなります。探索的な分析ではBH法のようなFDR制御を検討します。
検定の独立性に注意する
ボンフェローニ法は検定間の独立性を仮定しませんが、BH法は正の依存関係があるとFDRの制御が不正確になる場合があります。検定間の相関構造を考慮した補正法(BY法など)の利用も検討します。
事前計画と事後分析を区別する
事前に計画された比較(confirmatory)と事後的に探索した比較(exploratory)では、補正の必要性や厳密さが異なります。探索的に見つけた差は、別の検証データセットで確認するのが理想です。
多重検定の問題そのものを減らす設計を心がける
補正はあくまで事後対処です。分析設計の段階で検定数を最小限に絞り、主要仮説を明確にすることが、最も効果的な多重検定問題への対策です。
多重検定補正を適用せずに「20項目中3つで有意差あり」と報告すると、偶然の結果を有意と誤認している可能性が高くなります。一方で、保守的な補正をかけすぎて「すべて有意差なし」とするのもビジネス上の機会損失です。補正法の選択理由と、補正前後のp値の両方を報告し、分析の透明性を確保してください。
まとめ
多重検定補正は、複数の統計検定を同時に行う際の偽陽性率の増大を制御する不可欠な手法です。FWER制御(ボンフェローニ法、ホルム法)とFDR制御(BH法)の特性を理解し、分析目的に応じて適切な補正法を選択することで、偽陽性のリスクと検出力のバランスが取れた信頼性の高い分析が実現できます。