探索的データ分析(EDA)とは?データの特性を多角的に把握する分析プロセス
探索的データ分析(EDA)は、データの構造やパターンを多角的に把握し仮説を生成する分析プロセスです。John Tukeyが提唱した手法の基本概念、実践ステップ、代表的な手法を解説します。
探索的データ分析(EDA)とは
探索的データ分析(Exploratory Data Analysis: EDA)は、データセットの主要な特性を要約し、パターンや異常を発見するための分析アプローチです。主にグラフィカルな手法を用いて、データが語るストーリーを引き出します。
アメリカの統計学者ジョン・テューキー(John W. Tukey)が1977年の著書『Exploratory Data Analysis』で体系化しました。テューキーは、統計学が仮説検定(確認的データ分析)に偏りすぎていると主張し、まずデータを自由に探索して仮説を生み出すプロセスの重要性を提唱しました。
構成要素
EDAは以下の4つの観点でデータを多角的に把握します。
| 観点 | 目的 | 代表的な手法 |
|---|---|---|
| 分布の把握 | 各変数がどのように散らばっているかを確認 | ヒストグラム、箱ひげ図 |
| 関係の探索 | 変数間の関連性を発見する | 散布図、相関行列 |
| パターンの検出 | 時系列の傾向やグループ構造を見つける | 時系列プロット、クラスタリング |
| 異常の発見 | 外れ値や欠損値を検出する | 箱ひげ図、五数要約 |
テューキーの五数要約
テューキーが推奨した基本統計量で、データの分布を簡潔に表現します。
- 最小値
- 第1四分位数(25%点)
- 中央値(50%点)
- 第3四分位数(75%点)
- 最大値
平均と標準偏差に比べ、外れ値の影響を受けにくい指標です。
実践的な使い方
ステップ1: データの概要を把握する
データの件数、変数の型、欠損値の割合、基本統計量(五数要約、平均、標準偏差)を確認します。この段階でデータの品質問題や明らかな異常を検出します。
ステップ2: 単変量分析を行う
各変数の分布をヒストグラムや箱ひげ図で可視化します。分布の形状(正規分布か歪んでいるか)、外れ値の有無、値の集中度を確認します。
ステップ3: 多変量分析に進む
変数間の関係を散布図や相関行列で探索します。予想外の相関や非線形の関係が見つかることが多く、ここから新たな仮説が生まれます。テューキーの言葉を借りれば「データからの最大の収穫は驚きから来る」のです。
ステップ4: 仮説を生成し次のステップへ
EDAで得られた発見を仮説として言語化します。「変数Aと変数Bに正の相関がある」「地域Cに外れ値が集中している」といった仮説を、確認的分析やモデリングで検証します。
活用場面
- 新規データ取得後の初期分析
- 機械学習モデル構築前の特徴量理解
- クライアントへのデータ分析レポートの作成
- 業務KPIの異常検知と原因探索
- データ品質の評価とクレンジング計画の策定
注意点
可視化だけで因果関係を判断しない
EDAで発見されるのは相関やパターンであり、因果関係ではありません。散布図で強い相関が見えても、それが因果関係であるかは別途検証が必要です。
確証バイアスに注意する
見たいパターンだけを探してしまう確証バイアスに陥りやすい段階です。予想に反する発見こそ価値がある、という姿勢でデータに向き合いましょう。
反復的に取り組む
EDAは一回で完了する作業ではありません。新たなパターンを発見するたびに視点を変え、さらに深く探索する反復的なプロセスです。最初から完璧な分析を目指すのではなく、段階的に理解を深めていくことが大切です。
まとめ
探索的データ分析は、データの構造やパターンを自由に探索し仮説を生み出すための分析アプローチです。仮説検定の前段階としてデータと対話し、予想外の発見を引き出すことが最大の価値です。コンサルティングにおいても、データ分析プロジェクトの初期段階でEDAを実施することで、分析の方向性を正しく設定できます。
参考資料
- Exploratory data analysis - Wikipedia - Wikipedia(EDAの歴史と手法の包括的解説)
- Exploratory data analysis (EDA) - IBM(実務的な観点からのEDA解説)
- Exploratory Data Analysis - Learning Data Science - UC Berkeley(教育的観点からのEDA入門)
- Exploratory Data Analysis - NCBI Bookshelf - NCBI(医療データにおけるEDAの適用)