記述統計とは？平均・分散・標準偏差の基本をデータ分析で活用する

記述統計とは

記述統計（Descriptive Statistics）とは、収集したデータの特徴を数値で要約し、データの全体像を把握するための統計手法です。データの「中心がどこにあるか」「どれくらいばらついているか」「どのような形の分布をしているか」を定量的に記述します。

記述統計と対をなす概念が推測統計（Inferential Statistics）です。記述統計が「手元のデータの特徴を要約する」のに対し、推測統計は「手元のデータから母集団の特性を推定する」ことを目的とします。記述統計は推測統計の前提であり、データ分析のすべての出発点です。

コンサルティングの現場では、クライアントから提供されたデータの全体像を素早く把握し、意思決定に有用な知見を抽出するために記述統計が不可欠です。「平均売上はいくらか」「顧客満足度のばらつきはどの程度か」「売上の分布は正規分布に近いか」といった基本的な問いに答えるのが記述統計の役割です。

構成要素

記述統計量は大きく「代表値（中心傾向の指標）」と「散布度（ばらつきの指標）」に分類されます。

平均値（Mean）

すべてのデータの合計を個数で割った値です。最も広く使われる代表値ですが、外れ値の影響を強く受けるという弱点があります。例えば、年収データにおいて一部の超高収入者が含まれると、平均年収は大多数の人が実感する水準よりも高くなります。

中央値（Median）

データを大きさ順に並べたとき、ちょうど中央に位置する値です。外れ値の影響を受けにくい（頑健な）代表値であり、年収、不動産価格、サービス利用回数など、分布が偏っているデータに適しています。

分散（Variance）

各データと平均値との差（偏差）の二乗を平均した値です。データのばらつきの大きさを定量化する基本指標ですが、元データの単位の二乗になるため、直感的な解釈がしにくいという弱点があります。

標準偏差（Standard Deviation）

分散の平方根であり、元データと同じ単位でばらつきの大きさを表現できます。正規分布に従うデータでは、平均値から標準偏差1つ分の範囲に約68%のデータが、2つ分の範囲に約95%のデータが含まれるという性質があります。

統計量	分類	計算方法	特徴	適したデータ
平均値	代表値	合計 / 個数	外れ値に敏感	正規分布に近いデータ
中央値	代表値	並び替えの中央	外れ値に頑健	偏った分布のデータ
分散	散布度	偏差の二乗の平均	単位が二乗	ばらつきの定量比較
標準偏差	散布度	分散の平方根	元データと同単位	ばらつきの直感的把握

実践的な使い方

ステップ1: 基本統計量を算出する

分析対象のデータに対して、まず平均値、中央値、最小値、最大値、標準偏差、データ件数を算出します。Excelであれば「データ分析」ツールの「基本統計量」、Pythonであればpandasのdescribe()メソッドで一括算出できます。この段階で、データの規模感、中心、ばらつきの概要を把握します。

ステップ2: 平均値と中央値を比較する

平均値と中央値の乖離は、分布の偏りを示す重要なシグナルです。平均値が中央値より大きく上回る場合、右に裾が長い分布（正の歪み）であり、一部の高い値に引きずられています。この場合、代表値としては中央値のほうが実態を反映します。例えば、顧客あたり売上で平均値が20万円、中央値が8万円であれば、少数の大口顧客が平均を引き上げていると解釈できます。

ステップ3: ばらつきの大きさを評価する

標準偏差を平均値で割った「変動係数（CV）」を用いて、異なるスケールのデータのばらつきを比較します。例えば、A事業部の売上（平均10億円、標準偏差3億円、CV=30%）とB事業部の売上（平均1億円、標準偏差4000万円、CV=40%）では、B事業部のほうが相対的なばらつきが大きいと判断できます。

ステップ4: ヒストグラムと箱ひげ図で視覚化する

記述統計量だけでは見えない分布の形状を、グラフで可視化します。ヒストグラムは分布の全体像（正規分布か、二峰性か、偏りがあるか）を、箱ひげ図は中央値・四分位範囲・外れ値を一目で把握できます。アンスコムの四重奏が示すように、同じ統計量でも分布の形は大きく異なる場合があるため、視覚化は必須です。

活用場面

データの初期探索: 分析プロジェクトの最初のステップとして、データの全体像を把握します
KPIモニタリング: 売上、コスト、顧客満足度などのKPIの水準とばらつきを定量的に把握します
セグメント間の比較: 地域別、部門別、顧客セグメント別のパフォーマンスを統計量で比較します
異常値の検出: 平均値から標準偏差の3倍以上離れた値を外れ値として検出し、調査します
報告書の基礎データ: 経営層やクライアントへの報告で、データの要約統計量を提示します

注意点

平均値の罠に注意する

平均値は最も馴染みのある統計量ですが、万能ではありません。「平均年収500万円」という情報だけでは、大多数が400〜600万円の範囲にいるのか、一部が数千万円で多くが300万円以下なのかが区別できません。必ず中央値、分散、分布の形状を併せて確認します。

記述統計だけで因果を語らない

記述統計はデータの「現状」を記述するものであり、「なぜそうなっているか」の因果関係を説明するものではありません。「A地域の売上平均が高い」という記述統計から「A地域に投資すべき」という因果的な結論を直接導くことはできません。因果の検証には、回帰分析やA/Bテストなどの推測統計手法が必要です。

サンプルサイズに敏感であること

少数のデータから計算した記述統計量は不安定です。5件のデータの平均値は、1件のデータが変わるだけで大きく変動します。統計量を報告する際は、必ずサンプルサイズ（n）を併記し、解釈の信頼性を示します。

まとめ

記述統計は、平均値・中央値などの代表値と分散・標準偏差などの散布度を用いて、データの特徴を定量的に要約する基本手法です。すべてのデータ分析の出発点であり、データの全体像を正しく把握するための必須スキルです。ただし、平均値の限界を理解し、中央値や分布の視覚化と組み合わせることで、初めてデータの実態に迫る分析が可能になります。

参考資料

Data StaRt: 記述統計量 - 総務省統計局（統計学習サイトにおける記述統計量の基本解説）
統計学の基礎である「基本統計量」についてわかりやすく解説 - Data Viz Lab（平均値、中央値、分散、標準偏差などの基本統計量をビジュアルで解説）
記述統計～統計的にデータを見る視点 - marketechlabo（マーケティングデータ分析の観点からの記述統計活用ガイド）

記述統計とは？平均・分散・標準偏差の基本をデータ分析で活用する