サンプルサイズ設計とは?統計的に信頼性のある実験を計画する方法を解説
サンプルサイズ設計は、検出力分析に基づいて実験に必要な最小サンプル数を事前に算出する手法です。効果サイズ、検出力、有意水準の関係と、ビジネス実験での設計手順を解説します。
サンプルサイズ設計とは
サンプルサイズ設計は、仮説検定において「実際に存在する効果を見逃さない」ために必要な最小限のサンプル数を、実験の前に算出するプロセスです。検出力分析(Power Analysis)とも呼ばれます。
サンプルが少なすぎると、効果が存在しても統計的に有意な結果が得られません(第二種の過誤)。逆にサンプルが多すぎると、実務的に意味のない微小な差まで「有意」と判定してしまい、リソースの無駄遣いになります。
適切なサンプルサイズ設計は、効果サイズ(検出したい最小の差)、有意水準(Alpha)、検出力(1-Beta)の3つのパラメータのバランスで決まります。
サンプルサイズ設計の理論的基礎は、イエジー・ネイマンとエゴン・ピアソンが1933年に確立した仮説検定理論に遡ります。ヤコブ・コーエンが1988年の著書で効果サイズの分類基準(小・中・大)を提示し、検出力分析を実用的な手法として普及させました。
「データが集まってから考える」は最も避けるべきアプローチです。事後的な検出力分析(Post-hoc Power Analysis)は統計学的に無意味とされています。サンプルサイズの設計は必ず実験の開始前に行い、結果を文書化してください。
構成要素
4つの主要パラメータ
| パラメータ | 定義 | 一般的な設定値 |
|---|---|---|
| 効果サイズ(Effect Size) | 検出したい最小の差の大きさ | MDE(最小検出効果量)として定義 |
| 有意水準(Alpha) | 第一種の過誤(偽陽性)の許容確率 | 0.05(5%) |
| 検出力(Power) | 効果が存在するときに検出できる確率 | 0.80(80%)以上 |
| サンプルサイズ(n) | 必要な観測数 | 上記3つから算出 |
効果サイズの種類
| 効果サイズ | 計算方法 | 用途 |
|---|---|---|
| Cohenのd | 平均差 / プールした標準偏差 | 2群の平均値比較 |
| 相対的MDE | (処置群平均 - 対照群平均) / 対照群平均 | A/Bテストでの変化率 |
| オッズ比 | 処置群のオッズ / 対照群のオッズ | 二値アウトカムの比較 |
片側検定と両側検定
片側検定は一方向の効果のみを検出し、両側検定は双方向の効果を検出します。同じ検出力を得るには、両側検定の方が大きなサンプルサイズを必要とします。
実践的な使い方
ステップ1: 最小検出効果量(MDE)の決定
ビジネス上の意思決定に意味のある最小の効果量を関係者と合意します。たとえば「コンバージョン率を2%から2.2%に改善する効果(相対10%改善)を検出したい」のように具体化します。
ステップ2: ベースラインの推定
対照群のアウトカムの平均値と分散を過去データから推定します。この推定値がサンプルサイズ計算の入力になります。分散が大きいほど、より多くのサンプルが必要です。
ステップ3: サンプルサイズの算出
効果サイズ、有意水準、検出力を設定し、必要なサンプルサイズを算出します。検定の種類(t検定、カイ二乗検定、回帰分析など)に応じた計算式またはソフトウェアを使用します。
ステップ4: 実現可能性の評価と調整
算出されたサンプルサイズが実務的に達成可能か評価します。達成困難な場合は、MDEを大きくする、片側検定に変更する、検出力を下げる(最低でも0.70)といった調整を検討します。
活用場面
- A/Bテストの実験期間を事前に見積もるためのサンプルサイズ計算
- 臨床研究のプロトコル策定における被験者数の事前設計
- アンケート調査の信頼性を確保するための回答者数の決定
- マーケティングキャンペーンの効果測定に必要なサンプル期間の算出
注意点
サンプルサイズ設計の結果は必ず文書化し、関係者と共有してください。「なぜこのサンプルサイズなのか」を効果サイズ、有意水準、検出力の値とともに記録しておくと、実験後の結果解釈やレビュー時に根拠として参照できます。
効果サイズの過大見積もり
ビジネス関係者の期待する効果サイズが実際の効果よりも大きい場合、サンプルサイズが過小になります。過去の類似実験の結果や業界のベンチマークを参考に、保守的な効果サイズを設定してください。楽観的な見積もりは実験の失敗(検出力不足)に直結します。
多重比較によるサンプルサイズの増加
複数のバリエーションを同時にテストする場合や、複数のKPIを同時に検定する場合は、多重比較補正に対応したサンプルサイズ設計が必要です。Bonferroni補正やFDR制御を適用すると、単一比較の場合よりも大幅にサンプルサイズが増加します。
クラスタリングと非独立データ
ユーザーが複数回アクションを取る場合やグループ単位の割当(クラスター無作為化)を行う場合は、設計効果(Design Effect)を考慮する必要があります。クラスター内相関(ICC)が高いほど、実効的なサンプルサイズは見かけより小さくなります。
まとめ
サンプルサイズ設計は、統計的に信頼性のある実験を計画するために不可欠なプロセスです。効果サイズ、有意水準、検出力の3つのパラメータを事前に設定し、必要最小限のサンプル数を算出します。事後的な検出力分析ではなく事前の計画が重要であり、効果サイズの保守的な設定と多重比較への対応がサンプルサイズ設計の成功を左右します。