マン・ホイットニーU検定とは?ノンパラメトリックな2群比較の手法と使い分けを解説
マン・ホイットニーU検定は正規分布を仮定しない2群比較の検定手法です。順位に基づく検定の仕組み、t検定との使い分け、U統計量の解釈、ビジネスでの活用場面と注意点を解説します。
マン・ホイットニーU検定とは
マン・ホイットニーU検定(Mann-Whitney U test)とは、2つの独立した群の分布に差があるかを、正規分布の仮定なしに検定するノンパラメトリック手法です。ウィルコクソンの順位和検定(Wilcoxon rank-sum test)と数学的に等価であり、同じ結果が得られます。
この検定は、データを数値そのものではなく「順位」に変換して分析する点が特徴です。外れ値の影響を受けにくく、順序尺度のデータにも適用できます。
コンサルティングの現場では、顧客満足度のリッカート尺度データや、分布が正規でない売上データなど、t検定の前提が満たされないケースがしばしば発生します。そのような場面でマン・ホイットニーU検定は有力な代替手段となります。
マン・ホイットニーU検定は、1947年にヘンリー・B・マン(Henry B. Mann)とドナルド・R・ホイットニー(Donald R. Whitney)によって提唱されました。フランク・ウィルコクソン(Frank Wilcoxon)が1945年に発表した順位和検定と数学的に等価であり、ウィルコクソンの順位和検定とも呼ばれます。
構成要素
順位変換
2群のデータを統合し、小さい順に順位を割り当てます。同じ値がある場合は平均順位(タイ処理)を使います。たとえば3位と4位に同じ値が2つあれば、両方に3.5位を割り当てます。
U統計量
各群の順位和からU統計量を算出します。群1のサンプルサイズをn₁、群2をn₂、群1の順位和をR₁とすると次の式で計算します。
U₁ = n₁×n₂ + n₁(n₁+1)/2 − R₁
U₂ = n₁×n₂ − U₁
検定にはU₁とU₂の小さい方を使います。U値が小さいほど2群の分布が異なることを意味します。
帰無仮説と対立仮説
- 帰無仮説(H₀): 2群の母集団分布は同一である
- 対立仮説(H₁): 2群の母集団分布は異なる(両側検定の場合)
サンプルサイズが大きい場合(各群20以上が目安)、U統計量は正規近似によりz値に変換してp値を求めます。
効果量(r)
検定結果の実質的な大きさを示す指標として、z値を全サンプルサイズの平方根で割ったrが使われます。r = 0.1で小さい効果、r = 0.3で中程度、r = 0.5で大きい効果が目安です。
実践的な使い方
ステップ1: t検定との使い分けを判断する
以下の場合にマン・ホイットニーU検定を選択します。
- データが正規分布に従わない(歪みが大きい、外れ値がある)
- 順序尺度のデータ(5段階評価など)を扱う
- サンプルサイズが小さく正規性の検証が難しい
正規性が仮定できる場合はt検定の方が検出力が高いため、t検定を優先します。
ステップ2: データを順位に変換する
2群のデータを統合して昇順に並べ、順位を付けます。同順位の処理方法を確認しておきます。
ステップ3: U統計量とp値を算出する
PythonではSciPy(scipy.stats.mannwhitneyu)、RではWilcox.test関数で計算できます。Excelには標準機能がないため、アドインまたは手計算が必要です。
ステップ4: 効果量を算出して結果を報告する
「グループBの顧客満足度はグループAより有意に高かった(U=234, p=0.003, r=0.35)」のように、U値、p値、効果量をセットで報告します。
活用場面
- 顧客満足度の比較: リッカート尺度で測定した満足度スコアを2つのセグメント間で比較します
- 歪んだ分布の売上比較: 右に裾が長い売上データのように、正規分布から外れたデータの2群比較に使います
- 小規模パイロットテスト: サンプルサイズが小さく正規性を仮定しにくい予備調査での群間比較に適しています
- ランキングデータの分析: 順位データ(評価ランキング、優先順位など)を直接比較できます
- 外れ値が多いデータ: 順位ベースのため、極端な値に結果が左右されにくい分析が可能です
注意点
マン・ホイットニーU検定は「中央値の差の検定」と説明されることがありますが、厳密には「2群の分布が同一か」を検定しています。分布の形が異なる場合、中央値が同じでも有意になることがあるため、結果の解釈には分布の形状も確認してください。
「分布全体の差」を検定していることを理解する
マン・ホイットニーU検定は厳密には「2群の分布が同じか」を検定しています。「中央値の差の検定」と説明されることがありますが、2群の分布の形が異なる場合、中央値が同じでも有意になることがあります。
検出力はt検定より低い
正規分布に従うデータに対してはt検定の方が検出力が高くなります。正規性が満たされる場合にあえてノンパラメトリック検定を使う必要はありません。
同順位が多い場合の補正
同じ値(タイ)が多いとU統計量のばらつきの推定が不正確になります。統計ソフトウェアはタイ補正を自動的に行いますが、タイが極端に多い場合は結果の信頼性が低下します。
サンプルサイズの非対称性に注意する
2群のサンプルサイズが極端に異なる場合(たとえば10対200)、検定の検出力が低下します。分析設計の段階で群間のバランスを考慮することが重要です。
まとめ
マン・ホイットニーU検定は、正規分布の仮定が必要ないノンパラメトリックな2群比較手法です。順位ベースで分析するため外れ値に頑健で、順序尺度のデータにも適用できます。t検定との使い分けを理解し、効果量の報告と組み合わせることで、データの分布に左右されない信頼性の高い群間比較を実現できます。