📈データ分析・定量スキル

逐次検定法とは?データを見ながら実験を早期終了できる統計手法を解説

逐次検定法(Sequential Testing)は、データが蓄積されるたびに検定を行い、十分な証拠が得られた時点で実験を早期終了できる統計手法です。群逐次検定、Alpha Spending関数、ビジネス実験での活用法を解説します。

#逐次検定#群逐次検定#ABテスト#早期終了#多重検定補正

    逐次検定法とは

    逐次検定法(Sequential Testing)は、実験データが蓄積されるたびに検定を繰り返し行い、効果が十分に確認された時点(または無効と判断された時点)で実験を早期に終了する統計手法です。

    従来の固定サンプルサイズの仮説検定では、事前に決めたサンプル数まで実験を続ける必要があります。逐次検定法では、中間段階で検定を行い、強い証拠が得られれば早期に結論を出せます。これにより、コスト削減や劣った施策への曝露期間の短縮が可能になります。

    逐次検定法の理論的基礎は、1943年にエイブラハム・ワルドが第二次世界大戦中の軍需品質検査のために開発した逐次確率比検定(SPRT)に遡ります。ビジネス実験の文脈では、群逐次検定(Group Sequential Test)やAlways Valid Inference(常に有効な推論)として近年再注目されています。

    固定サンプルサイズの検定をデータが蓄積されるたびに繰り返すと、第一種の過誤(偽陽性)率が名目水準を大幅に超えます。5%有意水準の検定を20回繰り返すと、偽陽性率は60%以上に達し得ます。逐次検定法はこの問題を数学的に制御する方法です。

    逐次検定法の停止境界

    構成要素

    群逐次検定(Group Sequential Test)

    データを複数の群(ステージ)に分け、各ステージ終了時に検定を行う手法です。検定の回数を事前に決めるため、実装がしやすいのが特徴です。

    手法特徴適用場面
    Pocock法各ステージで同じ有意水準を使用早期段階での検出力を重視
    O’Brien-Fleming法初期は厳しく、後半は緩い有意水準最終段階での検出力を維持
    Alpha Spending任意の時点で検定可能柔軟な検定スケジュール

    Alpha Spending関数

    全体のAlphaエラー(第一種の過誤)を各中間解析にどう配分するかを定義する関数です。Lan-DeMets法ではAlpha Spending関数を事前に指定することで、中間解析のタイミングを事前に固定する必要がありません。

    逐次確率比検定(SPRT)

    各データポイントが到着するたびに尤度比を更新し、上限(帰無仮説棄却)または下限(帰無仮説採択)に達した時点で判定する手法です。群逐次検定のように事前に解析回数を決める必要がなく、最も柔軟な逐次検定法です。

    Always Valid Inference

    近年開発されたフレームワークで、任意の時点でp値や信頼区間が有効であることを保証する手法です。混合尤度比(Mixture Sequential Probability Ratio)やe-valueに基づく方法が代表的です。

    実践的な使い方

    ステップ1: 検定計画の策定

    最大サンプルサイズ、中間解析の回数(またはスケジュール)、有意水準、検出力を事前に設定します。Alpha Spending関数の種類を選択します。

    ステップ2: 停止境界の計算

    設定されたパラメータに基づいて、各中間解析での有意性判定の臨界値(停止境界)を算出します。統計ソフトウェア(gsDesign、rpactなど)で計算します。

    ステップ3: 中間解析の実施

    各ステージでデータを確認し、検定統計量が停止境界を超えるかどうかを判定します。有効性の境界を超えれば実験成功、無益性の境界を超えれば早期中止を決定します。

    ステップ4: 最終解析と報告

    最大サンプルサイズに到達した場合は最終解析を行います。逐次検定法に対応した推定量(中央値不偏推定量、繰り返し信頼区間など)で効果サイズと信頼区間を報告します。

    活用場面

    • A/Bテストで劣った施策への曝露を最小化し、早期に勝者を決定する場面
    • 新機能リリースのオンライン実験で、効果が明白な場合に素早くロールアウトする場面
    • 臨床試験で安全性の問題が見つかった場合に早期中止を判断する場面
    • シーズナリティの影響を受けるキャンペーン実験で、有効期間内に結論を出す場面

    注意点

    逐次検定法を採用すると、固定サンプルサイズの検定に比べて平均サンプルサイズが20〜50%削減されることが多いです。特に効果サイズが大きい場合の削減幅が顕著で、A/Bテストの高速化に直結します。

    効果サイズの推定バイアス

    逐次検定法で早期終了した場合、効果サイズの点推定値にはバイアスが生じます(大きめに推定される傾向があります)。中央値不偏推定量やバイアス補正推定量を使用し、過大評価を防いでください。

    中間解析のぞき見(Peeking)との区別

    逐次検定法は数学的に第一種の過誤率を制御していますが、計画外の「ぞき見」とは根本的に異なります。事前に計画されたAlpha Spending関数なしに検定を繰り返すことは、逐次検定法ではなく単なる多重検定の問題です。検定計画を事前に文書化してください。

    実装の複雑さ

    固定サンプルサイズの検定に比べて統計的な実装が複雑です。停止境界の計算、バイアス補正、対応する信頼区間の構築には専門的な知識が必要です。既存のツール(Optimizely、Eppoなどの実験プラットフォーム)の組み込み機能を活用することで、実装負荷を軽減できます。

    まとめ

    逐次検定法は、実験の途中で検定を繰り返しながら第一種の過誤率を正しく制御し、早期終了を可能にする統計手法です。A/Bテストの効率化に大きな威力を発揮しますが、効果サイズの推定バイアスへの対処と事前の検定計画の策定が不可欠です。固定サンプルサイズの検定で生じるコストや機会損失が大きい場面で特に有用です。

    関連記事