📈データ分析・定量スキル

分散分析(ANOVA)とは?3群以上の平均差を検定するF検定と多重比較法を解説

分散分析(ANOVA)は3群以上の平均値に統計的に有意な差があるかを検定する手法です。一元配置・二元配置ANOVAの違い、F検定の仕組み、多重比較法の使い分け、ビジネスでの活用場面と注意点を解説します。

#分散分析#ANOVA#F検定#統計分析#多重比較

    分散分析(ANOVA)とは

    分散分析(ANOVA: Analysis of Variance)とは、3群以上のデータ群について、平均値の差が統計的に有意であるかを検定する手法です。2群の比較にはt検定が使われますが、比較対象が3群以上になるとt検定の繰り返しでは検定の多重性(偽陽性の増大)が問題になります。分散分析は、この問題を回避しながら複数群の平均差を一括して検定できる方法です。

    この手法は、20世紀前半にロナルド・フィッシャーが農業実験の分析手法として体系化しました。名前に「分散」とありますが、分散そのものを調べるのではなく、分散の比を利用して平均値の差を判定する点がポイントです。

    コンサルティングの現場では、複数の施策やセグメントを同時に比較する場面が多くあります。「3つの広告クリエイティブでコンバージョン率に差があるか」「4つの地域で顧客満足度に差があるか」といった問いに対して、客観的な根拠を提示できるのが分散分析の強みです。

    分散分析(ANOVA)の基本構造

    構成要素

    群間変動と群内変動

    分散分析の核心は、データ全体のばらつき(全体変動)を「群間変動」と「群内変動」に分解する点にあります。

    変動の種類意味何を反映するか
    群間変動(SSB)各群の平均値と全体平均のずれ要因(施策・条件)による差
    群内変動(SSW)各データ点と群の平均値のずれ偶然のばらつき(誤差)
    全体変動(SST)各データ点と全体平均のずれSSB + SSW

    群間変動が群内変動に比べて十分に大きければ、「群ごとの差は偶然ではなく、要因によるものだ」と判断できます。

    F値とF検定

    群間変動と群内変動の比をF値と呼びます。具体的には、群間分散(群間変動を自由度で割ったもの)を群内分散(群内変動を自由度で割ったもの)で除して算出します。

    F値 = 群間分散 / 群内分散

    F値が大きいほど群間の差が顕著であることを意味します。算出したF値をF分布と照合し、p値が有意水準(一般的にα = 0.05)を下回れば「少なくとも1つの群の平均値が他と異なる」と結論づけます。

    一元配置分散分析と二元配置分散分析

    分散分析は、扱う要因(因子)の数によって大きく2つに分かれます。

    種類要因数分析できること使用例
    一元配置ANOVA1つ1つの要因による群間差3種の広告クリエイティブの効果比較
    二元配置ANOVA2つ2要因それぞれの効果と交互作用広告クリエイティブ × 配信時間帯の効果

    二元配置ANOVAでは、2つの要因が組み合わさったときに生じる「交互作用」を検出できる点が大きな利点です。たとえば「広告Aは朝に効果が高いが、広告Bは夜に効果が高い」という要因間の組み合わせ効果を明らかにできます。

    多重比較法

    分散分析で「群間に有意差あり」と判定されても、どの群とどの群の間に差があるのかは分かりません。この特定を行うのが多重比較法(事後検定)です。

    • Tukey法(テューキーのHSD法): すべての群の組み合わせを比較する最も一般的な方法です。群数が多く全ペアを調べたいときに適しています
    • Bonferroni法: 有意水準を比較回数で割って補正するシンプルな方法です。比較回数が少ないときに有効ですが、回数が増えると検出力が大きく低下します
    • Dunnett法: 1つの対照群(コントロール群)と他の各群を比較する方法です。基準となる群が明確な場合に適しています
    • Scheffé法: 任意の対比(線形結合)を検定できる汎用的な方法です。柔軟性が高い反面、検出力はやや低くなります

    実践的な使い方

    ステップ1: 仮説と要因を設定する

    分析の目的を明確にし、帰無仮説と対立仮説を設定します。帰無仮説は「すべての群の母平均は等しい」、対立仮説は「少なくとも1つの群の母平均は他と異なる」です。同時に、要因(何によって群を分けるか)と水準(群の数)を決めます。

    ステップ2: データの前提条件を確認する

    分散分析には3つの前提条件があります。

    • 正規性: 各群のデータがおおむね正規分布に従うこと
    • 等分散性: 各群のデータの分散がほぼ等しいこと(Levene検定で確認)
    • 独立性: 各データ点が互いに独立していること

    前提条件が満たされない場合は、クラスカル・ウォリス検定(ノンパラメトリック版)への切り替えを検討します。

    ステップ3: F検定を実行する

    ExcelやPython(scipy.stats.f_oneway)、R(aov関数)などのツールでF値とp値を算出します。Excelの場合は「データ分析」アドインの「分散分析:一元配置」を使用します。

    ステップ4: 多重比較で群間差を特定する

    F検定で有意差が確認された場合、多重比較法を適用してどの群間に差があるかを特定します。分析の目的に応じてTukey法やDunnett法を選択します。

    ステップ5: 結果をビジネスに翻訳する

    統計的な有意差だけでなく、効果量(η²やCohenのf)を算出してビジネス上のインパクトを評価します。「施策Cの平均CVRは施策Aより1.2ポイント高く、この差は統計的にも有意である」といった形で、数値と統計的裏付けを組み合わせて報告します。

    活用場面

    • 施策効果の比較: 3つ以上のマーケティング施策やUI案の成果指標を同時に比較し、最適な選択肢を特定します
    • 顧客セグメント分析: 複数のセグメント間でLTVや購買頻度に差があるかを検証し、ターゲティング戦略に活用します
    • 品質管理: 複数の製造ライン・原材料・工程条件間で品質指標に差がないかを判定します
    • 価格テスト: 3段階以上の価格帯を設定して購買率や客単価への影響を統計的に比較します
    • 従業員調査: 部門別・役職別のエンゲージメントスコアに有意な差があるかを分析し、組織施策の優先順位を判断します

    注意点

    t検定の繰り返しで代用しない

    3群の比較をt検定3回(A対B、B対C、A対C)で行うと、全体として偽陽性が生じる確率が約14%に跳ね上がります(5%の検定を3回行った場合)。群数が増えるほどこの問題は深刻化します。分散分析は全体の有意水準を保ちながら複数群を一括比較できるため、3群以上の比較では必ず分散分析を使用します。

    「有意差あり」は「どこに差があるか」を示さない

    分散分析のF検定は「少なくとも1組の群間に差がある」としか言えません。どの群間に差があるかを特定するには、多重比較法が必要です。F検定が有意でなければ多重比較は行わないのが原則です。

    前提条件の違反に注意する

    等分散性が満たされない場合、Welch補正を加えたWelchのANOVAを使う方法があります。正規性が満たされない場合は、クラスカル・ウォリス検定が代替手段となります。前提条件を確認せずに結果を解釈すると、誤った結論を導くリスクがあります。

    サンプルサイズとバランスを確保する

    各群のサンプルサイズが極端に異なると検定の精度が低下します。実験計画の段階で各群のサンプル数をできる限り均等にすることが望ましいです。また、サンプル数が少ないと検出力が低下し、実際に差があっても検出できないリスクが高まります。

    まとめ

    分散分析(ANOVA)は、3群以上の平均値の差を統計的に検定するための基本的な手法です。全体変動を群間変動と群内変動に分解しF値で判定するという仕組みを理解すれば、一元配置・二元配置の使い分けや多重比較法の選択も合理的に行えます。t検定の繰り返しによる多重性の問題を回避し、前提条件の確認と効果量の報告を組み合わせることで、複数の選択肢を同時に比較するビジネス場面で信頼性の高い意思決定を支えることができます。

    参考資料

    関連記事