箱ひげ図分析とは?データのばらつきと外れ値を可視化する統計手法
箱ひげ図(Box Plot)はデータの分布、ばらつき、中央値、外れ値を一目で把握できる統計グラフです。構成要素、読み方、Excelでの作成法、ビジネスでの活用場面を解説します。
箱ひげ図分析とは
箱ひげ図(Box Plot、Box-and-Whisker Plot)は、データの分布状況を5つの要約統計量(最小値、第1四分位数、中央値、第3四分位数、最大値)で視覚化する統計グラフです。1977年にアメリカの統計学者ジョン・テューキー(John W. Tukey)が著書「Exploratory Data Analysis」で体系化しました。
箱ひげ図の最大の特徴は、データのばらつき具合と外れ値の存在を、コンパクトな図形一つで直感的に把握できることです。ヒストグラムのように詳細な分布形状は示せませんが、複数のグループや時系列でのデータ比較においては、箱ひげ図の方が圧倒的に見やすく、一覧性に優れています。
コンサルティングやデータ分析の現場では、売上データの地域間比較、品質管理における工程間のばらつき比較、顧客満足度のセグメント別分析などで日常的に活用されています。
構成要素
箱ひげ図は以下の要素で構成されます。
5つの要約統計量
-
中央値(Median / Q2): データを昇順に並べたときの中央の値です。箱の中の線で表されます。平均値と異なり、極端な値の影響を受けにくい代表値です。
-
第1四分位数(Q1): データの下位25%に位置する値です。箱の左端(下端)に対応します。
-
第3四分位数(Q3): データの上位25%に位置する値です。箱の右端(上端)に対応します。
-
四分位範囲(IQR): Q3 - Q1 で算出される箱の幅です。データの中央50%がこの範囲に収まっています。IQRが大きいほどデータのばらつきが大きいことを意味します。
-
ひげ(Whisker): 箱から伸びる線で、通常は Q1 - 1.5×IQR から Q3 + 1.5×IQR の範囲内にあるデータの最端値までを示します。この範囲を超えるデータ点は外れ値として個別にプロットされます。
外れ値の判定基準
外れ値の判定にはテューキーの1.5×IQRルールが標準的に使われます。
| 区分 | 条件 | 解釈 |
|---|---|---|
| 通常値 | Q1 - 1.5×IQR ≦ x ≦ Q3 + 1.5×IQR | 正常な範囲のデータ |
| 軽度の外れ値 | 1.5×IQR〜3×IQRの範囲外 | 注意が必要なデータ |
| 極端な外れ値 | 3×IQRを超える範囲外 | 異常値の可能性が高い |
実践的な使い方
ステップ1: データの準備と要約統計量の算出
分析対象のデータを収集し、昇順に並べ替えます。次に5つの要約統計量を算出します。Excelの場合は QUARTILE.INC 関数または PERCENTILE.INC 関数を使用します。
- 中央値: MEDIAN(データ範囲)
- Q1: QUARTILE.INC(データ範囲, 1)
- Q3: QUARTILE.INC(データ範囲, 3)
- IQR: Q3 - Q1
- 外れ値の境界: Q1 - 1.5 x IQR、Q3 + 1.5 x IQR
ステップ2: 箱ひげ図の作成
Excelでは2016以降のバージョンで箱ひげ図が標準チャートとして利用可能です。「挿入」→「統計グラフの挿入」→「箱ひげ図」で作成できます。Pythonではmatplotlibのboxplotメソッドやseabornのboxplot関数が便利です。
ステップ3: 分布の読み取りと解釈
作成した箱ひげ図から以下の情報を読み取ります。
- 箱の位置: データの中心がどこにあるか(中央値の確認)
- 箱の幅: データのばらつきの大きさ(IQRの確認)
- ひげの長さ: データの裾の広がり(左右対称性の確認)
- 外れ値の有無: 異常値やエラーデータの検出
- 中央値の偏り: 箱の中で中央値がどちらに偏っているかで分布の歪み(skewness)を推定
活用場面
- 品質管理: 製造工程ごとの品質データのばらつきを比較し、管理が必要な工程を特定します。工程間で箱ひげ図を並べることで、ばらつきの大きい工程が一目でわかります
- 売上分析: 地域別、店舗別、期間別の売上分布を比較し、パフォーマンスのばらつきが大きいセグメントを発見します
- 顧客分析: 顧客セグメント別の購入金額や利用頻度の分布を比較し、セグメントごとの特性を把握します
- 人事データ分析: 部門別の残業時間、評価スコア、勤続年数の分布を比較し、組織の健全性を評価します
- 外れ値検出: データクレンジングの一環として、入力ミスや異常値を機械的に検出するスクリーニングに活用します
注意点
サンプル数が少ない場合は信頼性が低い
箱ひげ図は四分位数を基盤とするため、データ数が極端に少ない(目安として10件未満の)場合は四分位数の算出が不安定になります。少数のデータでは個々の点をプロットするドットプロットの方が適切です。
分布の形状は詳細にはわからない
箱ひげ図は5つの要約統計量に情報を圧縮するため、双峰分布(2つの山がある分布)や多峰分布の存在を見落とす可能性があります。分布の形状を詳しく確認する必要がある場合は、ヒストグラムやバイオリンプロットと併用します。
外れ値を安易に除外しない
箱ひげ図で外れ値として表示されたデータ点は、必ずしも「異常」とは限りません。入力ミスやシステムエラーによる外れ値は除外すべきですが、実際に発生した極端な値(大口顧客の購入など)はビジネス上の重要な情報である可能性があります。外れ値の原因を調査してから除外を判断します。
まとめ
箱ひげ図は、中央値、四分位数、外れ値という5つの要約統計量でデータの分布を視覚化する統計グラフです。複数グループの比較やばらつきの把握に優れ、品質管理、売上分析、顧客分析など幅広い場面で活用できます。ヒストグラムやバイオリンプロットとの併用により、データの全体像をより正確に把握できます。
参考資料
- 箱ひげ図 - JMP Statistical Discovery(箱ひげ図の統計学的な定義と構成要素の詳細解説)
- 箱ひげ図とは | 統計学の時間 - 統計WEB(四分位数の算出方法と箱ひげ図の読み方を段階的に解説)
- 箱ひげ図 - Wikipedia(テューキーによる考案の歴史的背景と外れ値の定義を含む概要)