効果量とは?CohenのdからηSquaredまで、統計的有意差の「大きさ」を測る指標を解説
効果量は統計検定で検出された差や関連がどの程度の大きさかを示す指標です。Cohenのd、η²、クラメールのV、rなど代表的な効果量の種類、解釈基準、ビジネス活用と注意点を解説します。
効果量とは
効果量(effect size)とは、統計検定で検出された差や関連の「大きさ」を定量的に示す指標です。p値が「差があるかないか」を判定するのに対し、効果量は「その差がどれくらい大きいか」を示します。
p値はサンプルサイズに大きく依存します。サンプルが十分に大きければ、実務的に無意味な微小な差でも統計的に有意になります。逆にサンプルが小さければ、重要な差があっても有意にならないことがあります。効果量はサンプルサイズに依存しないため、差の実質的な意味を客観的に評価できます。
コンサルティングの現場では「統計的に有意です」だけでは施策の採否判断に不十分です。「どれくらい効果があるのか」を定量的に示すことで、施策のROI判断やリソース配分の意思決定に直結する情報を提供できます。
効果量の概念を体系化したのは心理学者ジェイコブ・コーエン(Jacob Cohen)です。1962年の論文で効果量の重要性を指摘し、1988年の著書「Statistical Power Analysis for the Behavioral Sciences」で「小・中・大」の解釈基準を提示しました。
効果量はサンプルサイズに依存しません。そのため、サンプルサイズが異なる複数の研究を比較する際や、メタ分析で統合する際に共通の尺度として機能します。pが0.05未満でも効果量が小さければ実務的な意味は限定的です。
構成要素
Cohenのd(2群の平均差の効果量)
t検定で2群の平均値を比較する際に使われる代表的な効果量です。2群の平均値の差をプールした標準偏差で割って算出します。
| d の値 | 解釈 | 直感的な意味 |
|---|---|---|
| 0.2 | 小さい効果 | 2つの分布は約85%重なっている |
| 0.5 | 中程度の効果 | 2つの分布は約67%重なっている |
| 0.8 | 大きい効果 | 2つの分布は約53%重なっている |
η²(イータ二乗、分散分析の効果量)
分散分析(ANOVA)で使われる効果量です。全体の分散のうち、要因によって説明される割合を示します。
- η² = 0.01: 小さい効果
- η² = 0.06: 中程度の効果
- η² = 0.14: 大きい効果
偏η²(partial η²)は、他の要因の影響を除いた上での当該要因の効果を示します。多要因の分散分析ではη²より偏η²の方が適切です。
クラメールのV(カテゴリデータの効果量)
カイ二乗検定で使われる効果量です。0から1の範囲をとり、1に近いほど関連が強いことを示します。解釈基準は自由度によって変わります。
r(相関ベースの効果量)
マン・ホイットニーU検定などノンパラメトリック検定で使われます。r = z / √N で算出し、0.1が小さい効果、0.3が中程度、0.5が大きい効果です。
オッズ比・リスク比
ロジスティック回帰や2×2分割表で使われる効果量です。「施策群は対照群に比べてコンバージョンする可能性が何倍か」という形で解釈できるため、ビジネス場面で直感的に伝わりやすい指標です。
実践的な使い方
ステップ1: 検定手法に対応する効果量を選ぶ
分析手法ごとに適切な効果量指標が異なります。
| 分析手法 | 適切な効果量 |
|---|---|
| t検定 | Cohenのd |
| ANOVA | η²、偏η²、Cohenのf |
| カイ二乗検定 | クラメールのV、φ係数 |
| 相関分析 | 相関係数r |
| 回帰分析 | R²、f² |
| ノンパラメトリック検定 | r(z/√N) |
ステップ2: 効果量を算出する
多くの統計ソフトウェアは効果量を自動算出します。Pythonではpingouin、R ではeffectsizeパッケージが便利です。手計算が必要な場合は、検定統計量(t値、F値、χ²値)から変換公式で算出できます。
ステップ3: 基準値と照らして解釈する
Cohenが提唱した「小・中・大」の基準は目安として有用ですが、分野によって基準は異なります。過去の類似研究や業界ベンチマークと比較して解釈する方が実務的です。
ステップ4: 信頼区間を付ける
効果量にも推定の不確実性があります。効果量の信頼区間を算出し、「d = 0.45, 95%CI [0.12, 0.78]」のように報告することで、効果の範囲を示せます。
ステップ5: ビジネスインパクトに変換する
効果量を実務的な数値に翻訳します。「d = 0.5は、顧客単価に換算すると約500円の差に相当する」といった形で、意思決定者が理解しやすい指標に読み替えます。
活用場面
- A/Bテストの評価: p値だけでなくCohenのdで効果の大きさを定量化し、施策の採否を判断します
- 施策効果の比較: 複数の施策を効果量で横並びに比較し、最もインパクトの大きい施策を特定します
- メタ分析: 異なる調査や実験の結果を効果量で統一し、総合的な知見を導きます
- 検出力分析の入力: 事前に想定する効果量を設定し、必要なサンプルサイズを算出します
- レポートの信頼性向上: p値のみの報告に比べ、効果量を含めることでより完全な統計報告になります
注意点
p値と効果量は独立した情報である
p値が小さくても効果量が小さいことがあり、逆にp値が有意でなくても効果量が中程度であることもあります。両方を常にセットで報告します。
Cohenの基準を絶対視しない
「小・中・大」の基準はあくまで一般的な目安です。ビジネスの文脈では、d = 0.2の「小さい効果」でも、大規模に展開すれば大きな経済的インパクトになることがあります。実務的な意義は文脈依存です。
効果量にもバイアスが生じうる
サンプルサイズが小さい場合、Cohenのdは過大推定される傾向があります。ヘッジズのg(バイアス補正版)を使うことで修正できます。
複数の効果量を混同しない
η²とω²(オメガ二乗)は似ていますが、η²は過大推定の傾向があります。報告する際はどの指標を使ったかを明記します。
効果量の「小・中・大」という基準はコーエン自身が「暫定的な目安」として提示したものです。分野やビジネスの文脈によって、同じ効果量でも実務的な意味は大きく異なります。機械的に基準を適用せず、対象分野の先行研究やビジネス上のインパクトと照らし合わせて解釈してください。
まとめ
効果量は、統計検定の結果を「差があるか」から「どれくらい大きい差か」に深める指標です。検定手法ごとに適切な指標を選び、信頼区間とともに報告し、ビジネスインパクトに翻訳することで、意思決定に直結する分析レポートを作成できます。p値と効果量の両方を報告することが、現代の統計分析における標準的な実践です。