📈データ分析・定量スキル

t検定とは?2群の平均値差を検定する対応ありt検定・対応なしt検定を解説

t検定は2群の平均値に統計的に有意な差があるかを判定する検定手法です。対応なしt検定と対応ありt検定の違い、Welch補正、t値とp値の解釈、ビジネス活用場面と注意点を解説します。

    t検定とは

    t検定(t-test)とは、2つの群の平均値の差が統計的に有意であるかどうかを判定するための検定手法です。「施策Aと施策Bで購買単価に差はあるか」「研修前後でテストスコアは変化したか」といった、2群比較の問いに対して客観的な回答を与えます。

    この手法は1908年にウィリアム・シーリー・ゴセットが「Student」のペンネームで発表したことから、スチューデントのt検定とも呼ばれます。サンプルサイズが小さくても母集団の分散が未知でも使える点が、当時画期的でした。

    t検定はA/Bテストの統計判定で最もよく使われる手法の一つです。3群以上を比較する場合は分散分析(ANOVA)を使いますが、2群比較の場面ではt検定がシンプルかつ有効です。

    t検定は、サンプルサイズが小さくても母集団の分散が未知でも適用できる点が特徴です。A/Bテストの統計判定で最も広く使われる手法の一つであり、2群の平均値差に対して客観的な判断根拠を提供します。

    t検定の種類と判定フロー

    構成要素

    対応なしt検定(独立2標本t検定)

    2つの独立した群の平均値を比較する検定です。たとえば「施策Aを適用した顧客群」と「施策Bを適用した顧客群」のように、異なる集団から得られたデータを比較します。

    帰無仮説は「2群の母平均は等しい(μ₁ = μ₂)」です。t値は次の要素から計算されます。

    • 2群の標本平均の差
    • 2群の標本分散(プールした分散、またはWelch補正)
    • 各群のサンプルサイズ

    対応ありt検定(対応のあるt検定)

    同一の対象について、2つの条件下で測定した結果を比較する検定です。「研修前後のスコア」「施策導入前と導入後の売上」のように、対のデータを扱います。

    各対の差を計算し、その差の平均がゼロと有意に異なるかを検定します。同一対象の変化を見るため、個体差の影響を除去でき、対応なしt検定より検出力が高くなります。

    Welchのt検定

    標準的なt検定は2群の母分散が等しいことを前提としますが、実務データではこの前提が満たされない場合が多くあります。Welchのt検定は等分散の仮定を緩和した修正版で、自由度をサタスウェイト近似で調整します。

    現在の統計ソフトウェアの多くはデフォルトでWelchのt検定を採用しており、等分散が保証できない場面ではWelch版を使うのが一般的です。

    片側検定と両側検定

    • 両側検定: 「差があるかどうか」を問う。方向を特定しない場合に使用します
    • 片側検定: 「一方が他方より大きいか」を問う。事前に方向の仮説がある場合に使用します

    片側検定は検出力が高い反面、反対方向の差を検出できないため、使用には根拠が必要です。

    実践的な使い方

    ステップ1: 検定の種類を選択する

    データの構造を確認します。独立した2群の比較なら対応なしt検定、同一対象の前後比較なら対応ありt検定を選びます。

    ステップ2: 前提条件を確認する

    t検定の前提条件は以下の通りです。

    • 正規性: 各群のデータがおおむね正規分布に従うこと。サンプルサイズが30以上あれば中心極限定理により頑健です
    • 等分散性(対応なしt検定の場合): F検定やLevene検定で確認。満たされなければWelchのt検定を使います
    • 独立性: 各データ点が互いに独立であること

    ステップ3: t値とp値を算出する

    ExcelのT.TEST関数、PythonのSciPy(scipy.stats.ttest_ind、scipy.stats.ttest_rel)、RのT.test関数などで計算します。

    ステップ4: 効果量を算出する

    CohenのdでT効果の大きさを定量化します。d = 0.2で小さい効果、d = 0.5で中程度、d = 0.8で大きい効果が目安です。

    ステップ5: 結果を報告する

    「施策B群の平均購買単価は施策A群より420円高く、この差は統計的に有意であった(t(98)=2.45, p=0.016, d=0.49)」のように、差の実数値、t値、p値、効果量をセットで報告します。

    活用場面

    • A/Bテストの判定: 2つのバリエーション(Webデザイン、広告コピーなど)の効果を統計的に比較します
    • 施策の前後比較: 研修、プロセス改善、価格変更などの導入前後で指標が変化したかを検証します
    • セグメント間比較: 2つの顧客セグメント間でLTV、購買頻度、満足度などに差があるかを確認します
    • 品質管理: 2つの製造ロット間で品質指標に差がないかを検定します
    • ベンチマーク比較: 自社の指標が業界平均と有意に異なるかを判定します(1標本t検定)

    注意点

    3群以上にt検定を繰り返さない

    3群以上を比較する場合にt検定を繰り返すと、多重比較の問題が生じます。偽陽性のリスクが有意水準を大幅に超えるため、3群以上の比較には分散分析(ANOVA)を使います。

    サンプルサイズと検出力の関係を意識する

    サンプルサイズが小さいと、実際に差があっても検出できない(検出力不足)リスクが高まります。事前に検出力分析を行い、必要なサンプルサイズを見積もることが重要です。

    正規性の前提が崩れる場合の対処

    データの分布が正規分布から大きく外れる場合は、マン・ホイットニーU検定(対応なし)やウィルコクソン符号順位検定(対応あり)などノンパラメトリック検定への切り替えを検討します。

    統計的有意と実務的有意を区別する

    大規模データではわずかな差でもp値が小さくなります。「統計的に有意だが、差はわずか10円」では施策として採用する根拠にはなりません。効果量とビジネスインパクトを必ず併せて評価します。

    3群以上の比較にt検定を繰り返し適用してはいけません。比較の回数が増えるほど偽陽性(本当は差がないのに「差がある」と判定する)のリスクが急増します。3群以上の比較には分散分析(ANOVA)と多重比較法を使用してください。

    まとめ

    t検定は、2群の平均値差を統計的に検証する最も基本的な手法です。対応ありと対応なしの使い分け、Welch補正の適用判断、前提条件の確認を適切に行うことで、信頼性の高い2群比較が実現できます。効果量の報告と検出力の事前計算を組み合わせることが、実務で意味のある分析につながる鍵です。

    関連記事