📈データ分析・定量スキル

記述統計とは?平均・分散・標準偏差の基本をデータ分析で活用する

記述統計はデータの特徴を代表値と散布度で要約する基本的な分析手法です。平均値・中央値・分散・標準偏差の定義、使い分け、ビジネスでの活用方法を体系的に解説します。

#記述統計#平均値#標準偏差#データ分析

    記述統計とは

    記述統計(Descriptive Statistics)とは、収集したデータの特徴を数値で要約し、データの全体像を把握するための統計手法です。データの「中心がどこにあるか」「どれくらいばらついているか」「どのような形の分布をしているか」を定量的に記述します。

    記述統計と対をなす概念が推測統計(Inferential Statistics)です。記述統計が「手元のデータの特徴を要約する」のに対し、推測統計は「手元のデータから母集団の特性を推定する」ことを目的とします。記述統計は推測統計の前提であり、データ分析のすべての出発点です。

    コンサルティングの現場では、クライアントから提供されたデータの全体像を素早く把握し、意思決定に有用な知見を抽出するために記述統計が不可欠です。「平均売上はいくらか」「顧客満足度のばらつきはどの程度か」「売上の分布は正規分布に近いか」といった基本的な問いに答えるのが記述統計の役割です。

    記述統計量の体系

    構成要素

    記述統計量は大きく「代表値(中心傾向の指標)」と「散布度(ばらつきの指標)」に分類されます。

    平均値(Mean)

    すべてのデータの合計を個数で割った値です。最も広く使われる代表値ですが、外れ値の影響を強く受けるという弱点があります。例えば、年収データにおいて一部の超高収入者が含まれると、平均年収は大多数の人が実感する水準よりも高くなります。

    中央値(Median)

    データを大きさ順に並べたとき、ちょうど中央に位置する値です。外れ値の影響を受けにくい(頑健な)代表値であり、年収、不動産価格、サービス利用回数など、分布が偏っているデータに適しています。

    分散(Variance)

    各データと平均値との差(偏差)の二乗を平均した値です。データのばらつきの大きさを定量化する基本指標ですが、元データの単位の二乗になるため、直感的な解釈がしにくいという弱点があります。

    標準偏差(Standard Deviation)

    分散の平方根であり、元データと同じ単位でばらつきの大きさを表現できます。正規分布に従うデータでは、平均値から標準偏差1つ分の範囲に約68%のデータが、2つ分の範囲に約95%のデータが含まれるという性質があります。

    統計量分類計算方法特徴適したデータ
    平均値代表値合計 / 個数外れ値に敏感正規分布に近いデータ
    中央値代表値並び替えの中央外れ値に頑健偏った分布のデータ
    分散散布度偏差の二乗の平均単位が二乗ばらつきの定量比較
    標準偏差散布度分散の平方根元データと同単位ばらつきの直感的把握

    実践的な使い方

    ステップ1: 基本統計量を算出する

    分析対象のデータに対して、まず平均値、中央値、最小値、最大値、標準偏差、データ件数を算出します。Excelであれば「データ分析」ツールの「基本統計量」、Pythonであればpandasのdescribe()メソッドで一括算出できます。この段階で、データの規模感、中心、ばらつきの概要を把握します。

    ステップ2: 平均値と中央値を比較する

    平均値と中央値の乖離は、分布の偏りを示す重要なシグナルです。平均値が中央値より大きく上回る場合、右に裾が長い分布(正の歪み)であり、一部の高い値に引きずられています。この場合、代表値としては中央値のほうが実態を反映します。例えば、顧客あたり売上で平均値が20万円、中央値が8万円であれば、少数の大口顧客が平均を引き上げていると解釈できます。

    ステップ3: ばらつきの大きさを評価する

    標準偏差を平均値で割った「変動係数(CV)」を用いて、異なるスケールのデータのばらつきを比較します。例えば、A事業部の売上(平均10億円、標準偏差3億円、CV=30%)とB事業部の売上(平均1億円、標準偏差4000万円、CV=40%)では、B事業部のほうが相対的なばらつきが大きいと判断できます。

    ステップ4: ヒストグラムと箱ひげ図で視覚化する

    記述統計量だけでは見えない分布の形状を、グラフで可視化します。ヒストグラムは分布の全体像(正規分布か、二峰性か、偏りがあるか)を、箱ひげ図は中央値・四分位範囲・外れ値を一目で把握できます。アンスコムの四重奏が示すように、同じ統計量でも分布の形は大きく異なる場合があるため、視覚化は必須です。

    活用場面

    • データの初期探索: 分析プロジェクトの最初のステップとして、データの全体像を把握します
    • KPIモニタリング: 売上、コスト、顧客満足度などのKPIの水準とばらつきを定量的に把握します
    • セグメント間の比較: 地域別、部門別、顧客セグメント別のパフォーマンスを統計量で比較します
    • 異常値の検出: 平均値から標準偏差の3倍以上離れた値を外れ値として検出し、調査します
    • 報告書の基礎データ: 経営層やクライアントへの報告で、データの要約統計量を提示します

    注意点

    平均値の罠に注意する

    平均値は最も馴染みのある統計量ですが、万能ではありません。「平均年収500万円」という情報だけでは、大多数が400〜600万円の範囲にいるのか、一部が数千万円で多くが300万円以下なのかが区別できません。必ず中央値、分散、分布の形状を併せて確認します。

    記述統計だけで因果を語らない

    記述統計はデータの「現状」を記述するものであり、「なぜそうなっているか」の因果関係を説明するものではありません。「A地域の売上平均が高い」という記述統計から「A地域に投資すべき」という因果的な結論を直接導くことはできません。因果の検証には、回帰分析やA/Bテストなどの推測統計手法が必要です。

    サンプルサイズに敏感であること

    少数のデータから計算した記述統計量は不安定です。5件のデータの平均値は、1件のデータが変わるだけで大きく変動します。統計量を報告する際は、必ずサンプルサイズ(n)を併記し、解釈の信頼性を示します。

    まとめ

    記述統計は、平均値・中央値などの代表値と分散・標準偏差などの散布度を用いて、データの特徴を定量的に要約する基本手法です。すべてのデータ分析の出発点であり、データの全体像を正しく把握するための必須スキルです。ただし、平均値の限界を理解し、中央値や分布の視覚化と組み合わせることで、初めてデータの実態に迫る分析が可能になります。

    参考資料

    関連記事