クラスカル・ウォリス検定とは？3群以上のノンパラメトリック比較手法を解説

クラスカル・ウォリス検定とは

クラスカル・ウォリス検定（Kruskal-Wallis test）とは、3群以上の独立した群の分布に差があるかを、正規分布の仮定なしに検定するノンパラメトリック手法です。分散分析（ANOVA）のノンパラメトリック版に位置づけられます。

マン・ホイットニーU検定が2群比較であるのに対し、クラスカル・ウォリス検定は3群以上の同時比較に対応します。データを順位に変換してから分析するため、外れ値の影響を受けにくく、順序尺度のデータにも適用できます。

コンサルティングの現場では、顧客セグメント別の満足度スコアや、複数の店舗間での評価ランキングなど、正規分布を仮定しにくいデータの多群比較が必要になる場面があります。クラスカル・ウォリス検定はこうした場面で有効です。

クラスカル・ウォリス検定は、1952年にウィリアム・クラスカル（William Kruskal）とウィルソン・アレン・ウォリス（W. Allen Wallis）によって提唱されました。2群比較のマン・ホイットニーU検定を3群以上に拡張した手法であり、一元配置分散分析（ANOVA）のノンパラメトリック版として位置づけられています。

構成要素

H統計量（検定統計量）

全群のデータを統合して順位を付け、群ごとの順位和から検定統計量Hを算出します。Hは各群の平均順位が全体の平均順位からどれだけ離れているかを反映します。

H統計量が大きいほど群間の差が顕著であることを意味します。自由度k−1（kは群数）のカイ二乗分布に近似してp値を算出します。

帰無仮説と対立仮説

帰無仮説（H₀）: すべての群の母集団分布は同一である
対立仮説（H₁）: 少なくとも1組の群の分布が異なる

ANOVAと同様に、検定が有意であっても「どの群間に差があるか」までは分かりません。

事後検定（多重比較）

クラスカル・ウォリス検定が有意となった後、具体的にどの群間に差があるかを特定するために事後検定を行います。代表的な方法はDunnの検定（Dunn’s test）で、ボンフェローニ補正を組み合わせて使います。

また、すべての群の組み合わせについてマン・ホイットニーU検定を実施し、p値をボンフェローニ補正やホルム補正で調整する方法もあります。

タイ補正

同じ値（タイ）が存在する場合、H統計量の分散が過小評価されます。タイ補正係数を用いてH統計量を修正することで、より正確な検定が可能になります。統計ソフトウェアの多くは自動的にタイ補正を適用します。

実践的な使い方

ステップ1: ANOVAとの使い分けを判断する

以下の場合にクラスカル・ウォリス検定を選択します。

データが正規分布に従わない
順序尺度のデータを扱う
サンプルサイズが小さく正規性を検証しにくい
外れ値が多く平均値が代表値として不適切

正規性と等分散性が満たされる場合はANOVAの方が検出力が高いため、ANOVAを優先します。

ステップ2: データを順位に変換する

すべての群のデータを統合して昇順に並べ、順位を付けます。同順位にはタイ処理（平均順位）を適用します。

ステップ3: H統計量とp値を算出する

PythonではSciPy（scipy.stats.kruskal）、Rではkruskal.test関数で算出できます。p値が有意水準（通常0.05）を下回れば、少なくとも1組の群間に有意な差があると判定します。

ステップ4: 事後検定で群間差を特定する

H検定が有意の場合、Dunnの検定で具体的な群のペアを特定します。PythonではScikit-posthocs（scikit_posthocs.posthoc_dunn）が利用できます。

ステップ5: 効果量を報告する

イプシロン二乗（ε²）やイータ二乗（η²）でH検定の効果量を報告します。ε² = H / (N²−1)/(N+1) で算出し、効果の実質的な大きさを評価します。

活用場面

複数セグメントの満足度比較: 3つ以上の顧客セグメント間で満足度スコア（順序尺度）に差があるかを検証します
店舗間の業績ランキング比較: 地域別・業態別の店舗群間で業績指標の分布に差があるかを検定します
品質評価の多群比較: 複数のサプライヤーから納品された製品の品質評価に差があるかを判定します
アンケートの自由評価: 5段階評価のように連続量とみなしにくいデータの多群比較に適しています
外れ値を含む財務データ: 売上や利益など、極端な値が含まれやすいデータの群間比較に使います

注意点

クラスカル・ウォリス検定は「少なくとも1組の群間に差がある」ことしか示しません。有意な結果が出た場合は必ずDunnの検定などの事後検定で、どの群間に差があるかを特定してください。事後検定なしに結論を述べると、誤った解釈につながります。

ANOVAの代替としてのみ使う

クラスカル・ウォリス検定は「3群以上の独立群の比較」に限定されます。対応のあるデータ（同一対象の反復測定）にはフリードマン検定を使います。

検出力の低下を認識する

正規分布に従うデータに対してはANOVAの方が検出力が約5%高いとされます。正規性が確認できるならANOVAを使う方が適切です。

「分布の差」を検定していることを理解する

厳密には「群間で分布が同一か」を検定しています。分布の形が群間で異なる場合、中央値が同じでも検定が有意になることがあります。中央値の差として解釈するには、群間の分布形状がおおむね同じであることが前提です。

サンプルサイズが極端に小さい場合は正確検定を使う

各群のサンプルサイズが5未満の場合、カイ二乗近似が不正確になります。正確なp値（置換検定）を使用するか、統計ソフトウェアの正確検定オプションを選択します。

まとめ

クラスカル・ウォリス検定は、正規分布の仮定なしに3群以上の分布差を検定できるノンパラメトリック手法です。ANOVAとの使い分けを正しく判断し、有意な場合はDunnの検定で群間差を特定するという手順を踏むことで、分布の前提が満たされないデータでも信頼性の高い多群比較が実現できます。

クラスカル・ウォリス検定とは？3群以上のノンパラメトリック比較手法を解説