📈データ分析・定量スキル

散布図分析とは?2変数の関係性を視覚的に把握する分析手法

散布図分析は、2つの変数間の関係性を視覚的に把握し、相関やクラスタ、外れ値を発見するための可視化手法です。散布図の作り方、相関パターンの読み取り方、活用場面を実践的に解説します。

    散布図分析とは

    散布図分析とは、2つの変数の関係性を平面上の点の分布で表現し、相関やパターン、外れ値を視覚的に発見する分析手法です。横軸に一方の変数、縦軸にもう一方の変数を取り、各データポイントを座標上にプロットします。

    散布図は品質管理の「QC7つ道具」のひとつとしても知られ、製造業の品質改善から始まり、現在ではマーケティング、財務分析、人事分析など幅広い領域で使われています。統計学者フランシス・ゴルトンが19世紀後半に親子の身長の関係を散布図で示したことが、近代的な活用の起点とされています。

    2変数の関係を把握する方法には相関係数の計算もありますが、数値だけでは関係の「形」がわかりません。散布図はデータの形状(線形か曲線か)、ばらつきの度合い、外れ値の存在を一目で把握できる点が強みです。アンスコムのカルテットが示すように、同じ相関係数でもデータの分布は全く異なることがあります。

    構成要素

    散布図には大きく分けて3つの相関パターンがあります。正の相関、負の相関、無相関です。

    散布図の相関パターン(正・負・無相関)

    正の相関

    一方の変数が増加するともう一方も増加する関係です。点の分布が右上がりの帯状になります。広告費と売上、経験年数と給与などがこのパターンに該当します。

    負の相関

    一方の変数が増加するともう一方が減少する関係です。点の分布が右下がりの帯状になります。価格と需要量、不良率と顧客満足度などが典型例です。

    無相関

    2つの変数間に明確な関係が見られない状態です。点がランダムに散らばります。身長と試験の点数などがこのパターンです。

    相関パターン相関係数の範囲散布図の形状
    強い正の相関0.7 〜 1.0右上がりの細い帯
    弱い正の相関0.3 〜 0.7右上がりの広い帯
    無相関-0.3 〜 0.3ランダムな散らばり
    弱い負の相関-0.7 〜 -0.3右下がりの広い帯
    強い負の相関-1.0 〜 -0.7右下がりの細い帯

    実践的な使い方

    ステップ1: 分析対象の2変数を選定する

    まず分析の仮説を立て、関係性を調べたい2つの変数を選びます。「広告費を増やすと売上が伸びるのではないか」という仮説であれば、横軸に広告費、縦軸に売上を設定します。

    一般的に、原因と考えられる変数(説明変数)を横軸に、結果と考えられる変数(目的変数)を縦軸に配置します。ただし散布図は因果の方向を証明するものではないため、あくまでデータ上の関係を確認する目的で使います。

    ステップ2: 散布図を作成してパターンを観察する

    データをプロットしたら、まず全体の形状を観察します。チェックすべき観点は4つあります。

    1つ目は「方向」です。右上がりか、右下がりか、方向性がないかを確認します。2つ目は「強さ」です。点が直線に近いほど相関が強く、散らばっているほど弱いと判断します。3つ目は「形状」です。直線的な関係か、曲線的な関係かを見分けます。曲線的であれば非線形の回帰分析を検討します。4つ目は「外れ値」です。他の点から大きく離れた点がないかを確認します。

    ステップ3: 回帰直線を追加して関係を定量化する

    目視での傾向把握に加えて、回帰直線(トレンドライン)を追加すると関係性を定量的に表現できます。Excelであれば「近似曲線の追加」、PythonやRであれば線形回帰モデルのfit関数を使います。

    回帰直線のR二乗値は、一方の変数がもう一方の変数の変動をどの程度説明するかを示します。R二乗値が0.7以上であれば、実務的に有意な関係があると判断できることが多いです。

    ステップ4: サブグループで層別分析を行う

    全体では無相関に見えるデータも、サブグループに分けるとグループごとに異なる相関が見える場合があります。たとえば「顧客全体では価格と満足度に相関がない」が、「法人顧客と個人顧客に分けるとそれぞれ異なる傾向がある」というケースです。

    色やマーカー形状でサブグループを区別し、層別の散布図を作成します。この手法はシンプソンのパラドックス(全体と部分で傾向が逆転する現象)の発見にも役立ちます。

    活用場面

    • マーケティング分析: 広告費とCV数、顧客単価とLTVの関係を可視化し、投資対効果を評価します
    • 品質管理: 製造条件と品質指標の関係をプロットし、最適な条件範囲を特定します
    • 人事分析: 研修投資と生産性、エンゲージメントスコアと離職率の関係を分析します
    • 財務分析: 売上高と営業利益率、設備投資額とROIの関係を企業間比較で把握します
    • 競合分析: 市場シェアと広告シェア、価格帯と顧客評価の関係を競合プロットで可視化します

    注意点

    相関と因果を混同しない

    散布図で強い相関が見えても、それが因果関係を意味するとは限りません。第三の変数(交絡変数)が両方に影響している可能性があります。「アイスクリームの売上と水難事故が相関する」のは、気温という第三変数が両方に影響しているためです。因果を主張するには、散布図の先にある因果推論の手法が必要です。

    外れ値の扱いを慎重に判断する

    外れ値が1つあるだけで相関係数は大きく変動します。外れ値を機械的に除外するのではなく、なぜ外れているのかを調べてください。データの入力ミスであれば修正し、実際に異常な事象であれば別途分析の対象とします。

    非線形の関係を見逃さない

    相関係数はあくまで線形の関係を測定する指標です。U字型や指数関数的な関係がある場合、相関係数は低く出ますが、散布図を見れば明確なパターンが確認できます。まず散布図で形状を確認し、その後に適切な統計手法を選択する順序が重要です。

    変数のスケールに注意する

    2つの変数のスケールが極端に異なる場合、点の分布が一方向に圧縮されてパターンが見えにくくなります。必要に応じて対数スケールを適用するか、標準化してからプロットしてください。

    まとめ

    散布図分析は、2つの変数間の関係を点の分布として視覚化し、相関の方向と強さ、非線形パターン、外れ値を直感的に発見する手法です。回帰直線の追加や層別分析を組み合わせることで、データの構造をより深く理解できます。相関と因果の区別を意識しつつ、仮説の検証やデータ探索の出発点として活用してください。

    関連記事