📈データ分析・定量スキル

カイ二乗検定とは?クロス集計表の独立性検定と適合度検定をビジネス事例で解説

カイ二乗検定はカテゴリカルデータの関連性や分布の適合度を統計的に判定する手法です。独立性検定と適合度検定の違い、期待度数の計算、自由度の考え方、ビジネス活用場面と注意点を解説します。

#カイ二乗検定#統計検定#クロス集計#独立性検定#データ分析

    カイ二乗検定とは

    カイ二乗検定(χ² test)とは、カテゴリカルデータ(質的データ)の分布に関する仮説を統計的に検証する手法です。1900年にカール・ピアソン(Karl Pearson)が適合度検定として提唱しました。数値の大小ではなく、カテゴリごとの度数(件数)を扱う点がt検定や分散分析との大きな違いです。

    コンサルティングの現場では、「購買チャネルと顧客セグメントに関連があるか」「施策前後でアンケート回答の分布が変化したか」といった問いに直面します。カイ二乗検定は、こうしたカテゴリ間の関連性や分布の偏りを客観的に判定できる手法です。

    カイ二乗検定には大きく2種類あります。独立性検定は2つのカテゴリ変数間に関連があるかを判定します。適合度検定は、観測されたデータの分布が理論的な分布と一致するかを判定します。

    カイ二乗検定の核心は、「観測された度数」と「関連がない場合に期待される度数」のずれを数値化し、カテゴリ間の関連性を客観的に判定することです。

    カイ二乗検定の基本構造

    構成要素

    観測度数と期待度数

    カイ二乗検定の核心は、実際に観測された度数(観測度数)と「関連がない場合に期待される度数」(期待度数)のずれを数値化する点にあります。

    概念意味
    観測度数(O)実データの各セルの件数チャネルAで購買した20代は45人
    期待度数(E)独立の場合に期待される件数行合計×列合計÷全体合計
    χ²統計量ずれの総合指標Σ(O−E)²/E

    期待度数と観測度数のずれが大きいほどχ²統計量は大きくなり、「2変数間に関連がある」という証拠が強くなります。

    独立性検定(χ²独立性検定)

    クロス集計表(分割表)において、行変数と列変数が統計的に独立かどうかを検定します。帰無仮説は「2変数は独立である(関連がない)」です。

    自由度は(行数−1)×(列数−1)で計算します。たとえば3行×4列のクロス集計表では自由度は(3−1)×(4−1)= 6です。

    適合度検定

    観測されたデータの分布が、理論上の分布(均等分布や過去の分布など)と適合しているかを検定します。帰無仮説は「観測データは理論分布に従う」です。

    自由度はカテゴリ数−1です。たとえば曜日ごとのアクセス数が均等かを検定する場合、自由度は7−1 = 6になります。

    イェーツの補正とフィッシャーの正確検定

    2×2のクロス集計表でサンプルサイズが小さい場合、χ²検定は近似精度が低下します。イェーツの連続性補正は|O−E|から0.5を引くことで過大評価を抑えます。期待度数が5未満のセルがある場合は、フィッシャーの正確検定を使う方がより正確です。

    実践的な使い方

    ステップ1: 分析目的とデータの種類を確認する

    まず検定の種類を決めます。2つのカテゴリ変数の関連を調べるなら独立性検定、1つの変数の分布を既知の分布と比較するなら適合度検定を選びます。データがカテゴリカル(名義尺度・順序尺度)であることを確認します。

    ステップ2: クロス集計表を作成する

    独立性検定の場合、行と列にそれぞれの変数を配置したクロス集計表を作成します。各セルに該当する件数を集計します。行合計と列合計も算出しておきます。

    ステップ3: 期待度数を計算して前提を確認する

    各セルの期待度数を「行合計×列合計÷全体合計」で算出します。すべてのセルで期待度数が5以上であることを確認します。5未満のセルが全体の20%を超える場合は、カテゴリの統合やフィッシャーの正確検定への変更を検討します。

    ステップ4: χ²統計量を算出しp値を求める

    各セルの(O−E)²/Eを計算して合計し、χ²統計量を得ます。自由度に対応するカイ二乗分布からp値を算出します。Excelの場合はCHISQ.TEST関数で直接p値が得られます。

    ステップ5: 効果量を報告してビジネスに翻訳する

    p値だけでなく効果量を報告します。クラメールのV(0から1の範囲)が代表的な効果量指標です。「顧客セグメントと購買チャネルには統計的に有意な関連がある(χ²(6)=18.4, p=0.01未満, V=0.28)」のように報告します。

    活用場面

    • 顧客属性と行動の関連分析: 年代×購買チャネル、性別×商品カテゴリなど、属性と行動パターンの関連を検証します
    • アンケート分析: 施策前後で回答分布に変化があるかを検定し、施策効果をカテゴリベースで評価します
    • 品質管理: 製造ライン別の不良品発生率に差があるかをカテゴリ集計で検証します
    • マーケティングチャネル評価: 流入チャネルとコンバージョン有無のクロス集計で、チャネル効果の差を検定します
    • 市場調査: 地域別の製品選好パターンに有意な違いがあるかを判定します

    注意点

    期待度数が5未満のセルが多い場合やサンプルサイズが極端に大きい場合は、カイ二乗検定の結果を鵜呑みにせず、効果量や代替手法の併用を検討してください。

    期待度数が小さいセルに注意する

    期待度数が5未満のセルが多い場合、カイ二乗分布による近似が不正確になります。カテゴリを統合してセルの度数を増やすか、フィッシャーの正確検定に切り替えます。

    関連の方向と強さは別途分析する

    カイ二乗検定は「関連があるかないか」を判定するだけで、関連の方向や具体的なパターンは示しません。残差分析(調整済み標準化残差)を組み合わせることで、どのセルが特に偏っているかを把握できます。

    サンプルサイズの影響を理解する

    サンプルサイズが非常に大きいと、実質的に無意味な差でも統計的に有意になります。p値だけでなくクラメールのVなどの効果量を必ず確認し、ビジネス上の意味がある差かを判断します。

    比率の検定との使い分けを意識する

    2群間の比率の差のみを検定する場合は、Z検定(比率の差の検定)の方がシンプルです。カイ二乗検定は3群以上や2変数間の関連性をまとめて分析したいときに強みを発揮します。

    まとめ

    カイ二乗検定は、カテゴリカルデータの関連性や分布の適合度を統計的に評価する基本的な手法です。独立性検定と適合度検定の2種類を使い分け、期待度数の確認やフィッシャーの正確検定への切り替え判断を適切に行うことで、信頼性の高い分析が可能になります。効果量と残差分析を組み合わせれば、単なる有意差の有無にとどまらない、実務に役立つ洞察を得ることができます。

    関連記事