📈データ分析・定量スキル

欠損データ処理とは?分析精度を左右する欠損値への対処法

欠損データ処理(Missing Data Handling)は、データセット中の欠損値を適切に検出・分類し、除去や補完によって分析精度を確保する前処理手法です。欠損パターンの分類、主要な補完手法、判断基準をコンサルタント向けに解説します。

    欠損データ処理とは

    欠損データ処理(Missing Data Handling)とは、データセットに含まれるNULL値や空白などの欠損を検出・分類し、分析目的に応じた適切な方法で対処する前処理手法です。現実のビジネスデータでは、入力漏れ、システム障害、データ統合時の不整合など、さまざまな原因で欠損が発生します。

    コンサルティングの現場では、クライアントから提供されたデータの欠損率が想定以上に高いことが頻繁にあります。売上分析なのに取引先コードが20%欠損している、顧客分析なのに年齢データが半数以上空白であるといったケースです。このとき、安易に「欠損行を削除する」と母集団にバイアスが生じ、分析結果が実態を反映しなくなります。

    欠損データの適切な処理は、分析結果の信頼性と妥当性を担保するための必須スキルです。

    欠損データの分類体系は、1976年にドナルド・ルービン(Donald Rubin)が提唱しました。ルービンはMCAR(完全ランダム欠損)、MAR(ランダム欠損)、MNAR(非ランダム欠損)の3分類を定式化し、多重代入法(Multiple Imputation)の理論的基盤を確立しました。この分類体系は、欠損データへの適切な対処法を選択する際の標準的な判断基準となっています。

    欠損データ処理の判断フロー

    構成要素

    欠損パターンの3分類

    欠損データは、その発生メカニズムに基づいて3つのパターンに分類されます。

    パターン英語名特徴
    完全ランダム欠損MCAR欠損の発生が他の変数と無関係調査票の印刷ミスによる回答漏れ
    ランダム欠損MAR欠損の発生が観測された他の変数に依存高齢者ほど年収を回答しない
    非ランダム欠損MNAR欠損の発生が欠損値そのものに依存年収が低い人ほど年収を回答しない

    このパターン分類は、適切な補完手法を選択する際の重要な判断基準になります。

    主要な対処アプローチ

    欠損データへの対処は「除去」と「補完」の2つに大別されます。

    除去アプローチには、リストワイズ削除(欠損を含む行を丸ごと削除)とペアワイズ削除(分析に必要な変数のみで判断)があります。データ量が十分でMCARの場合に有効ですが、サンプルサイズの減少とバイアスのリスクがあります。

    補完アプローチには、単一代入法(平均値、中央値、最頻値、定数値での補完)と多重代入法(複数の補完データセットを生成して統合する手法)があります。多重代入法はMARの場合に推奨される手法です。

    実践的な使い方

    ステップ1: 欠損の実態を把握する

    対象データセットの全カラムについて欠損率を算出し、一覧表にします。欠損率が5%未満、5~20%、20%以上で層別し、対処の優先度を判断します。同時に、欠損が特定の条件(時期、地域、ユーザー属性など)に偏っていないかを確認し、欠損パターンの推定を行います。

    ステップ2: 欠損パターンを判定する

    Littleのテスト(MCARの検定)や、欠損の有無を示すフラグ変数と他の変数との相関分析を通じて、欠損パターンがMCAR、MAR、MNARのいずれに該当するかを推定します。この判定結果が、次のステップでの手法選択の根拠になります。

    ステップ3: 対処手法を選択し実行する

    欠損パターンと欠損率に応じて手法を選択します。MCARで欠損率が低い場合はリストワイズ削除、MARの場合は多重代入法、カテゴリ変数の場合は最頻値補完や「不明」カテゴリの追加を検討します。選択した手法の根拠をドキュメント化しておきます。

    ステップ4: 補完結果を検証する

    補完前後でデータの分布(平均、分散、ヒストグラム)が大きく変わっていないかを確認します。補完によって本来存在しない傾向が生まれていないか、分析結果のロバスト性をチェックします。

    活用場面

    • アンケート調査データの欠損対処
    • 顧客データベースの属性欠損補完
    • センサーデータの時系列欠損補間
    • 臨床データや治験データの欠損管理
    • 機械学習モデルの特徴量準備
    • 複数システムのデータ統合時の欠損対応

    注意点

    欠損データの処理は分析結果に直接影響するため、処理方法の選択根拠と処理内容を必ずドキュメント化してください。補完はあくまで「推定値」であり、実測値ではないことを報告書に明記する必要があります。

    欠損率が高いカラムは分析から除外を検討する

    欠損率が非常に高いカラム(50%以上)は、補完の信頼性が低いため、分析から除外する判断も必要です。無理に補完しても、推定値の精度が低く、分析結果を歪める原因となります。

    欠損パターンに応じた手法を選択する

    補完手法の選択を誤ると、分析結果にバイアスが生じます。特にMNAR(非ランダム欠損)の場合は、単純な統計的補完では対処が困難であり、ドメイン知識に基づく判断が求められます。

    補完前後の分布を比較検証する

    補完によってデータの分布(平均値、分散、ヒストグラムの形状)が大きく変わっていないかを確認してください。補完が本来存在しない傾向を生み出していないか、複数の手法で結果を比較するロバスト性チェックが有効です。

    まとめ

    欠損データ処理は、分析精度を左右する重要な前処理工程です。欠損パターンの正確な判定と、それに基づく適切な手法選択が鍵を握ります。安易な削除や補完を避け、根拠のある対処を行うことで、分析結果の信頼性を確保できます。

    関連記事