ベイズ仮説検定とは?ベイズファクターによる仮説評価の仕組みとp値との違いを解説
ベイズ仮説検定はベイズファクターを使って仮説の相対的な証拠の強さを評価する手法です。p値ベースの検定との違い、ベイズファクターの解釈、ビジネスでの活用場面と注意点を解説します。
ベイズ仮説検定とは
ベイズ仮説検定(Bayesian hypothesis testing)とは、データを観測した後に、競合する仮説のどちらがより支持されるかをベイズファクター(Bayes factor)で定量的に評価する手法です。
従来のp値ベースの検定が「帰無仮説が正しいとき、観測されたデータ以上に極端なデータが得られる確率」を算出するのに対し、ベイズ仮説検定は「データが帰無仮説と対立仮説のどちらをより支持するか」を直接評価します。
この違いは実務上重要です。p値が小さいことは「帰無仮説が正しくない」ことの直接的な証拠にはなりませんが、ベイズファクターは2つの仮説の相対的な尤もらしさを比として示します。
コンサルティングの現場では、「施策効果がある証拠はどの程度強いか」「結論を出すにはデータが足りているか」といった問いに、ベイズ仮説検定はp値よりも直感的な回答を提供できます。
ベイズ仮説検定の核心は、「データがどちらの仮説をどれだけ支持するか」をベイズファクターで定量的に示す点にあります。帰無仮説の積極的な支持も表現できる点がp値との大きな違いです。
構成要素
ベイズファクター(BF)
ベイズファクターBF₁₀は、対立仮説(H₁)のもとでデータが得られる確率と、帰無仮説(H₀)のもとでデータが得られる確率の比です。
BF₁₀ = P(データ | H₁) / P(データ | H₀)
| BF₁₀の範囲 | 解釈 |
|---|---|
| 1未満 | H₀を支持(効果なしの証拠) |
| 1~3 | 弱い証拠(H₁を支持) |
| 3~10 | 中程度の証拠 |
| 10~30 | 強い証拠 |
| 30~100 | 非常に強い証拠 |
| 100超 | 決定的な証拠 |
BF₁₀ = 8は「データはH₁のもとではH₀のもとの8倍得られやすい」という意味です。
事前分布
ベイズ仮説検定では、パラメータ(効果量など)に事前分布を設定します。事前分布はパラメータの事前知識を反映します。一般的にはコーシー分布やJZS事前分布(Jeffreys-Zellner-Siow prior)が使われます。
事前オッズと事後オッズ
事後オッズ = ベイズファクター × 事前オッズ
事前オッズ(分析前に各仮説が正しいと考える確率の比)にベイズファクターを掛けることで、事後オッズ(分析後の仮説の尤もらしさの比)が得られます。
p値との比較
| 特性 | p値ベースの検定 | ベイズ仮説検定 |
|---|---|---|
| 問い | H₀のもとでこのデータ以上に極端な結果が出る確率 | データはH₀とH₁のどちらを支持するか |
| 帰無仮説の支持 | 判定できない(棄却できないだけ) | BFが1未満で積極的に支持を示せる |
| サンプルサイズ | 十分大きいと必ず有意になる | 証拠の強さに応じた評価 |
| 逐次的な分析 | 多重検定の問題が生じる | データ追加しても問題なし |
実践的な使い方
ステップ1: 仮説を明確に定義する
帰無仮説(H₀: 効果なし)と対立仮説(H₁: 効果あり)を定義します。対立仮説の事前分布(期待する効果量の分布)も設定します。
ステップ2: 事前分布を設定する
一般的にはデフォルトの事前分布(JZS事前分布など)を使います。ドメイン知識がある場合は、それを反映した事前分布を設定することで、より適切な推論が可能です。
ステップ3: ベイズファクターを算出する
Pythonではpingouinライブラリのbayesfactorモジュール、RではBayesFactorパッケージで算出できます。t検定、ANOVA、相関分析など主要な検定のベイズ版が利用可能です。
ステップ4: 証拠の強さを評価する
ベイズファクターの値を上記の解釈基準と照らし、証拠の強さを判断します。BFが1付近(0.33~3の範囲)であれば「どちらの仮説も十分に支持されない」と判断し、追加データの収集を検討します。
ステップ5: 結果を報告する
「新施策の効果について、ベイズファクターBF₁₀ = 12.4が得られました。これはデータが効果ありの仮説を効果なしの仮説の約12倍支持していることを意味し、強い証拠と解釈できます」のように報告します。
活用場面
- 帰無仮説の積極的な支持: 「施策に効果がないことを示したい」場面で、BFが1/3未満なら「効果なし」の証拠を積極的に示せます
- 逐次的A/Bテスト: データが蓄積するたびにベイズファクターを更新し、十分な証拠が得られた時点で結論を出せます
- 少数データでの判断: p値が有意にならない場合に、「データ不足なのか本当に差がないのか」をベイズファクターで区別できます
- 複数仮説の比較: 3つ以上の仮説の相対的な尤もらしさをベイズファクターで比較できます
- 再現性の評価: 過去の研究結果を事前分布に組み込み、新データで再現性を評価できます
注意点
ベイズファクターは事前分布の設定に依存します。感度分析を行い、結論が事前分布の選択に対して頑健であることを確認してください。
事前分布の選択が結果に影響する
特に小標本の場合、事前分布の設定がベイズファクターに大きく影響します。感度分析(異なる事前分布での結果比較)を行い、結論が事前分布の選択に頑健であることを確認します。
ベイズファクターとp値は一対一対応しない
p = 0.05のときのベイズファクターは、BF₁₀ = 2~5程度(弱い~中程度の証拠)に相当することが多く、p値ほど強い証拠ではない場合があります。
計算が複雑になる場合がある
単純なt検定やANOVAのベイズ版はソフトウェアで容易に計算できますが、複雑なモデルではベイズファクターの数値計算が困難になることがあります。
頻度論的手法との使い分け
ベイズ仮説検定は万能ではありません。事前情報が乏しく、明確な有意水準での二値判断が求められる場面(薬事規制など)ではp値ベースの検定が適切です。
まとめ
ベイズ仮説検定は、ベイズファクターを用いて仮説の相対的な支持度を定量的に評価する手法です。帰無仮説の積極的な支持、逐次的な分析、証拠の強さの段階的評価といったp値ベースの検定にはない利点を持ちます。事前分布の感度分析を行い、従来の検定と相補的に活用することで、より豊かで実務的な統計的意思決定が可能になります。