記述統計とは?平均・分散・標準偏差の基本をデータ分析で活用する
記述統計はデータの特徴を代表値と散布度で要約する基本的な分析手法です。平均値・中央値・分散・標準偏差の定義、使い分け、ビジネスでの活用方法を体系的に解説します。
記述統計とは
記述統計(Descriptive Statistics)とは、収集したデータの特徴を数値で要約し、データの全体像を把握するための統計手法です。データの「中心がどこにあるか」「どれくらいばらついているか」「どのような形の分布をしているか」を定量的に記述します。
記述統計と対をなす概念が推測統計(Inferential Statistics)です。記述統計が「手元のデータの特徴を要約する」のに対し、推測統計は「手元のデータから母集団の特性を推定する」ことを目的とします。記述統計は推測統計の前提であり、データ分析のすべての出発点です。
コンサルティングの現場では、クライアントから提供されたデータの全体像を素早く把握し、意思決定に有用な知見を抽出するために記述統計が不可欠です。「平均売上はいくらか」「顧客満足度のばらつきはどの程度か」「売上の分布は正規分布に近いか」といった基本的な問いに答えるのが記述統計の役割です。
構成要素
記述統計量は大きく「代表値(中心傾向の指標)」と「散布度(ばらつきの指標)」に分類されます。
平均値(Mean)
すべてのデータの合計を個数で割った値です。最も広く使われる代表値ですが、外れ値の影響を強く受けるという弱点があります。例えば、年収データにおいて一部の超高収入者が含まれると、平均年収は大多数の人が実感する水準よりも高くなります。
中央値(Median)
データを大きさ順に並べたとき、ちょうど中央に位置する値です。外れ値の影響を受けにくい(頑健な)代表値であり、年収、不動産価格、サービス利用回数など、分布が偏っているデータに適しています。
分散(Variance)
各データと平均値との差(偏差)の二乗を平均した値です。データのばらつきの大きさを定量化する基本指標ですが、元データの単位の二乗になるため、直感的な解釈がしにくいという弱点があります。
標準偏差(Standard Deviation)
分散の平方根であり、元データと同じ単位でばらつきの大きさを表現できます。正規分布に従うデータでは、平均値から標準偏差1つ分の範囲に約68%のデータが、2つ分の範囲に約95%のデータが含まれるという性質があります。
| 統計量 | 分類 | 計算方法 | 特徴 | 適したデータ |
|---|---|---|---|---|
| 平均値 | 代表値 | 合計 / 個数 | 外れ値に敏感 | 正規分布に近いデータ |
| 中央値 | 代表値 | 並び替えの中央 | 外れ値に頑健 | 偏った分布のデータ |
| 分散 | 散布度 | 偏差の二乗の平均 | 単位が二乗 | ばらつきの定量比較 |
| 標準偏差 | 散布度 | 分散の平方根 | 元データと同単位 | ばらつきの直感的把握 |
実践的な使い方
ステップ1: 基本統計量を算出する
分析対象のデータに対して、まず平均値、中央値、最小値、最大値、標準偏差、データ件数を算出します。Excelであれば「データ分析」ツールの「基本統計量」、Pythonであればpandasのdescribe()メソッドで一括算出できます。この段階で、データの規模感、中心、ばらつきの概要を把握します。
ステップ2: 平均値と中央値を比較する
平均値と中央値の乖離は、分布の偏りを示す重要なシグナルです。平均値が中央値より大きく上回る場合、右に裾が長い分布(正の歪み)であり、一部の高い値に引きずられています。この場合、代表値としては中央値のほうが実態を反映します。例えば、顧客あたり売上で平均値が20万円、中央値が8万円であれば、少数の大口顧客が平均を引き上げていると解釈できます。
ステップ3: ばらつきの大きさを評価する
標準偏差を平均値で割った「変動係数(CV)」を用いて、異なるスケールのデータのばらつきを比較します。例えば、A事業部の売上(平均10億円、標準偏差3億円、CV=30%)とB事業部の売上(平均1億円、標準偏差4000万円、CV=40%)では、B事業部のほうが相対的なばらつきが大きいと判断できます。
ステップ4: ヒストグラムと箱ひげ図で視覚化する
記述統計量だけでは見えない分布の形状を、グラフで可視化します。ヒストグラムは分布の全体像(正規分布か、二峰性か、偏りがあるか)を、箱ひげ図は中央値・四分位範囲・外れ値を一目で把握できます。アンスコムの四重奏が示すように、同じ統計量でも分布の形は大きく異なる場合があるため、視覚化は必須です。
活用場面
- データの初期探索: 分析プロジェクトの最初のステップとして、データの全体像を把握します
- KPIモニタリング: 売上、コスト、顧客満足度などのKPIの水準とばらつきを定量的に把握します
- セグメント間の比較: 地域別、部門別、顧客セグメント別のパフォーマンスを統計量で比較します
- 異常値の検出: 平均値から標準偏差の3倍以上離れた値を外れ値として検出し、調査します
- 報告書の基礎データ: 経営層やクライアントへの報告で、データの要約統計量を提示します
注意点
平均値の罠に注意する
平均値は最も馴染みのある統計量ですが、万能ではありません。「平均年収500万円」という情報だけでは、大多数が400〜600万円の範囲にいるのか、一部が数千万円で多くが300万円以下なのかが区別できません。必ず中央値、分散、分布の形状を併せて確認します。
記述統計だけで因果を語らない
記述統計はデータの「現状」を記述するものであり、「なぜそうなっているか」の因果関係を説明するものではありません。「A地域の売上平均が高い」という記述統計から「A地域に投資すべき」という因果的な結論を直接導くことはできません。因果の検証には、回帰分析やA/Bテストなどの推測統計手法が必要です。
サンプルサイズに敏感であること
少数のデータから計算した記述統計量は不安定です。5件のデータの平均値は、1件のデータが変わるだけで大きく変動します。統計量を報告する際は、必ずサンプルサイズ(n)を併記し、解釈の信頼性を示します。
まとめ
記述統計は、平均値・中央値などの代表値と分散・標準偏差などの散布度を用いて、データの特徴を定量的に要約する基本手法です。すべてのデータ分析の出発点であり、データの全体像を正しく把握するための必須スキルです。ただし、平均値の限界を理解し、中央値や分布の視覚化と組み合わせることで、初めてデータの実態に迫る分析が可能になります。
参考資料
- Data StaRt: 記述統計量 - 総務省統計局(統計学習サイトにおける記述統計量の基本解説)
- 統計学の基礎である「基本統計量」についてわかりやすく解説 - Data Viz Lab(平均値、中央値、分散、標準偏差などの基本統計量をビジュアルで解説)
- 記述統計~統計的にデータを見る視点 - marketechlabo(マーケティングデータ分析の観点からの記述統計活用ガイド)