相関分析とは?2変数間の関連性を定量的に測定するデータ分析の基本手法
相関分析は、2つの変数間の関連性の強さと方向を相関係数で定量的に測定する統計手法です。ピアソン相関とスピアマン順位相関の違い、散布図の読み方、相関と因果の違い、実務での活用手順と注意点を解説します。
相関分析とは
相関分析とは、2つの変数間にどの程度の関連性があるかを、相関係数という数値で定量的に測定する統計手法です。「一方の変数が増えるとき、もう一方の変数はどのように変化するか」という関係の強さと方向を把握することを目的とします。
相関係数は -1 から +1 の範囲を取ります。+1 に近いほど「正の相関(一方が増えると他方も増える)」が強く、-1 に近いほど「負の相関(一方が増えると他方は減る)」が強いことを意味します。0 に近い場合は、2変数間に線形的な関連がないことを示します。
コンサルティングの実務では、売上と広告費の関係を確認したり、顧客満足度と継続率の関連を調べたりする場面で、まず相関分析を行い、変数間の関係を俯瞰的に把握したうえで、回帰分析や因果推論へと分析を深めていくのが一般的な進め方です。
構成要素
相関分析を理解するには、代表的な相関係数の種類、散布図の読み方、そして相関と因果の違いを押さえる必要があります。
ピアソンの積率相関係数
ピアソン相関係数(Pearson’s r)は、最も広く使われる相関係数です。2つの変数間の線形関係の強さと方向を測定します。両方の変数が連続データ(間隔尺度・比率尺度)であり、正規分布に従うことが前提です。
r の値の目安は以下のとおりです。
| 相関係数の絶対値 | 関連性の強さ |
|---|---|
| 0.7 以上 | 強い相関 |
| 0.4 〜 0.7 | 中程度の相関 |
| 0.2 〜 0.4 | 弱い相関 |
| 0.2 未満 | ほぼ無相関 |
スピアマンの順位相関係数
スピアマン順位相関係数(Spearman’s ρ)は、データを順位に変換してから相関を計算するノンパラメトリック手法です。順序データ(例: 5段階評価のアンケート)や、外れ値が多いデータに対して有効です。線形でない単調増加・単調減少の関係も検出できるため、ピアソン相関では捉えにくい非線形の関連性を把握する場合に活用します。
| 項目 | ピアソン相関 | スピアマン順位相関 |
|---|---|---|
| 対象データ | 連続データ(間隔・比率尺度) | 順序データにも適用可能 |
| 前提条件 | 正規分布・線形関係 | 分布の仮定不要 |
| 検出できる関係 | 線形関係のみ | 単調な関係(非線形含む) |
| 外れ値への耐性 | 影響を受けやすい | 比較的頑健 |
散布図による可視化
相関係数を計算する前に、まず散布図でデータの分布を目視で確認することが重要です。散布図を描くことで、線形か非線形か、外れ値はないか、2つのグループに分かれていないかといったデータの特徴を直感的に把握できます。相関係数だけに頼ると、非線形の関係や外れ値の影響を見逃すリスクがあります。
相関と因果の違い
相関分析で「2変数に関連がある」と分かっても、それは「一方が他方の原因である」ことを意味しません。有名な例として、アイスクリームの売上と水難事故の件数には正の相関がありますが、アイスクリームが水難事故を引き起こしているわけではなく、気温という第三の変数(交絡因子)が両方に影響しています。
相関関係から因果関係を主張するためには、因果推論の手法(RCT、差分の差分法など)が必要です。相関分析はあくまで「関係の発見」のためのツールであり、「原因の特定」には別のアプローチが求められます。
実践的な使い方
ステップ1: 分析の目的と対象変数を明確にする
何を知りたいのかを言語化し、関連性を調べたい変数のペアを定義します。「広告費と売上の関係を把握したい」「顧客満足度スコアとリピート率に関連があるか確認したい」のように、具体的な変数名を挙げて目的を設定します。
ステップ2: データを収集し散布図で概観する
対象変数のデータを収集し、まず散布図を作成して目視でデータの傾向を確認します。外れ値の有無、線形・非線形の傾向、データの偏りなどをチェックし、どの相関係数を使うべきかを判断します。
ステップ3: 適切な相関係数を選択して算出する
データの性質に応じて、ピアソン相関またはスピアマン順位相関を選択します。Excelでは CORREL 関数でピアソン相関を計算できます。Pythonであれば scipy.stats の pearsonr や spearmanr を使用します。算出された相関係数に加えて、p値を確認し、統計的に有意な相関かどうかを判定します。
ステップ4: 結果を解釈しビジネス上の示唆を導く
相関係数の値を「強さ」と「方向」の2つの観点から解釈し、ビジネス上の示唆に変換します。「広告費と売上の相関係数は0.82であり、強い正の相関が確認された。広告費の増減が売上に関連している可能性が高い」のように報告します。ただし、この段階では因果関係の主張は避け、関連性の記述に留めることが重要です。
活用場面
- KPIの構造把握: 複数のKPI間の相関を分析し、どの先行指標がどの遅行指標と関連しているかを構造的に理解します。ダッシュボード設計やKPIツリーの構築に役立ちます
- マーケティング施策の予備分析: 施策の投入量(広告費、配信頻度など)と成果指標(CV数、売上など)の相関を確認し、詳細な回帰分析や因果推論に進む前のスクリーニングとして活用します
- 顧客満足度の要因探索: アンケートの各設問スコアと総合満足度の相関を算出し、満足度への寄与が大きい要因を特定します。改善施策の優先順位づけに活用します
- リスク要因の洗い出し: 財務指標や事業KPIの中で、収益性やキャッシュフローと強い負の相関を持つ変数を特定し、リスク管理の対象を絞り込みます
- 変数選択の事前検討: 回帰分析やクラスター分析を行う前に、説明変数同士の相関を確認して多重共線性のリスクを事前に把握します。VIFの算出と合わせて変数選択の判断材料とします
注意点
相関係数だけで判断しない
相関係数は線形関係の強さしか測定できません。U字型や曲線的な関係がある場合、相関係数は0に近い値を示すことがありますが、それは「関連がない」ことを意味しません。必ず散布図でデータの全体像を確認し、相関係数の数値と合わせて判断します。また、サンプルサイズが小さい場合は相関係数の信頼性が低くなるため、p値と信頼区間を必ず確認します。
擬似相関に注意する
2つの変数に相関があっても、第三の変数(交絡因子)が両方に影響を与えている「擬似相関」の可能性を常に疑います。時系列データでは特にこのリスクが高く、経年的に増加する2つの変数は、実質的な関連がなくても高い相関を示す場合があります。偏相関係数を用いて第三の変数の影響を除外したり、因果推論の手法で検証したりすることが必要です。
外れ値の影響を確認する
ピアソン相関係数は外れ値に対して敏感です。少数の極端な値が相関係数を大きく歪めることがあります。散布図で外れ値の存在を確認し、外れ値がある場合はスピアマン順位相関を併用するか、外れ値の原因を調査して適切に対処します。外れ値を安易に除外するのではなく、その発生理由を確認したうえで判断することが重要です。
まとめ
相関分析は、2変数間の関連性を相関係数で定量的に把握するための基本的な統計手法です。ピアソン相関で線形関係を測定し、スピアマン順位相関で順序データや非線形の関係にも対応するという使い分けが重要です。散布図による可視化を必ず併用し、相関係数の数値だけに頼らない分析姿勢が求められます。そして、相関関係と因果関係は本質的に異なるものであるという認識を常に持ち、相関分析を因果推論への入り口として位置づけることで、データに基づく意思決定の精度を高めることができます。
参考資料
- 相関係数 - グロービス経営大学院(MBA用語集。相関係数の基本概念と-1から+1の範囲の解釈、ビジネスでの活用例を解説)
- 相関分析とは? - GLOBIS学び放題×知見録(相関分析の基本をビジネスパーソン向けに解説。相関と因果の違い、回帰分析との関連も紹介)
- Correlation (Pearson, Kendall, Spearman) - Statistics Solutions(ピアソン・スピアマン・ケンドールの3種類の相関係数の特徴と使い分けを解説)
- 複数の変数の関係性を見る - 総務省統計局(なるほど統計学園。散布図と相関係数の読み方を初学者向けに図解)