回帰分析とは?データから因果と予測を導く定量分析の基本手法
回帰分析はデータの変数間の関係を数式で表し、要因の影響度定量化や将来予測を行う統計手法です。単回帰・重回帰の違い、実践ステップ、ビジネスでの活用場面と注意点を解説します。
回帰分析とは
回帰分析とは、ある変数(目的変数)と別の変数(説明変数)の間にある関係を数式として表現し、要因の影響度を定量化したり将来の値を予測したりする統計手法です。
19世紀にイギリスの統計学者フランシス・ゴルトンが「親の身長と子の身長の関係」を研究する中で提唱した手法に由来します。「平均への回帰(regression toward the mean)」という現象を発見したことから「回帰分析」と呼ばれています。
コンサルティングの現場では、売上予測、価格感応度分析、KPI間の因果構造の把握など、データに基づく意思決定のあらゆる場面で活用される基本手法です。
構成要素
回帰分析は大きく「単回帰分析」と「重回帰分析」に分類されます。
単回帰分析
説明変数が1つの回帰分析です。「広告費(x)を増やすと売上(y)がどの程度増えるか」のように、1対1の関係を分析します。
散布図上のデータ点に最もフィットする直線(回帰直線)を求めるのが基本的な手法で、回帰式は以下のように表されます。
y = a + bx
- y: 目的変数(予測したい値)
- x: 説明変数(影響を与える要因)
- a: 切片(xが0のときのyの値)
- b: 回帰係数(xが1単位増えたときのyの変化量)
重回帰分析
説明変数が2つ以上の回帰分析です。実際のビジネスでは、売上に影響を与える要因は広告費だけでなく、価格・競合動向・季節性など複数存在します。重回帰分析はこれらの要因を同時に考慮し、各要因の影響度を個別に評価できます。
y = a + b₁x₁ + b₂x₂ + b₃x₃ + …
| 項目 | 単回帰分析 | 重回帰分析 |
|---|---|---|
| 説明変数の数 | 1つ | 2つ以上 |
| 分析の目的 | 2変数間の関係把握 | 複数要因の影響度比較 |
| 可視化 | 散布図 + 回帰直線 | 数値での評価が中心 |
| 適用場面 | 単一要因の影響を見たいとき | 複合的な要因分析・予測 |
モデルの精度を測る指標
回帰分析の結果を評価する際に押さえるべき指標は以下の3つです。
- 決定係数(R²): モデルがデータのばらつきをどの程度説明できるかを0〜1で示します。1に近いほど説明力が高いことを意味します
- 回帰係数: 各説明変数の影響の大きさと方向(正・負)を示します。係数が大きいほどインパクトが大きい要因です
- p値: 各説明変数の影響が統計的に有意かを判定します。一般的にp値が0.05未満であれば「偶然ではない」と判断します
実践的な使い方
ステップ1: 目的変数と説明変数を定義する
何を予測・説明したいのか(目的変数)と、それに影響を与えると考えられる要因(説明変数)を定義します。たとえば「月次売上を予測するために、広告費・営業人員数・季節指数を説明変数とする」といった設定です。
変数の選定には業務知識と仮説が不可欠です。闇雲にデータを投入するのではなく、因果関係の仮説に基づいて変数を選びます。
ステップ2: データを収集・整備する
説明変数と目的変数のデータを収集し、分析可能な状態に整備します。欠損値の処理、外れ値の確認、変数のスケール(単位)の統一を行います。データの質が分析の質を決めるため、この工程を疎かにしないことが重要です。
ステップ3: 回帰モデルを構築する
ExcelやPython、R等の分析ツールを使って回帰モデルを構築します。Excelであれば「データ分析」アドインの「回帰分析」機能、Pythonであればscikit-learnやstatsmodelsライブラリが利用できます。
ステップ4: モデルの精度を評価する
決定係数(R²)、各変数のp値、残差の分布を確認します。R²が低い場合は説明変数の追加・変更を検討します。p値が有意でない変数は除外を検討します。残差に偏りがないか(パターンが存在しないか)もチェックします。
ステップ5: 結果を解釈しビジネスに適用する
回帰係数の大きさと符号からビジネス上の示唆を読み取ります。「広告費を100万円増やすと売上が約300万円増加する」「価格を1%上げると販売数量が0.5%減少する」といった具体的なインプリケーションに変換して意思決定に活用します。
活用場面
- 売上予測: 過去のデータをもとに将来の売上を予測し、経営計画や予算策定に活用します
- 価格感応度分析: 価格変更が販売数量に与える影響を定量化し、最適な価格戦略を設計します
- マーケティングROI分析: 各マーケティング施策が売上にどの程度寄与しているかを明らかにし、投資配分を最適化します
- 人事・組織分析: 従業員の満足度・離職率に影響を与える要因を特定し、施策の優先順位を決めます
- 需要予測: 季節性や外部要因を考慮した需要予測モデルを構築し、在庫管理や生産計画に反映します
注意点
相関と因果を混同しない
回帰分析で「x と y に関係がある」ことが分かっても、「x が y の原因である」とは限りません。アイスクリームの売上と溺死事故の件数には正の相関がありますが、原因は気温という第三の変数です。回帰分析の結果を因果関係と短絡的に解釈しないよう注意が必要です。
多重共線性に注意する
重回帰分析で説明変数同士が強く相関している場合、回帰係数が不安定になる「多重共線性」が発生します。たとえば「広告費」と「広告のクリック数」を同時に説明変数に入れると、両者が強く連動しているため回帰係数の信頼性が低下します。VIF(分散拡大係数)で確認し、VIFが10を超える変数は除外を検討します。
外挿の危険性を認識する
回帰モデルはデータが存在する範囲内では有効ですが、データ範囲外への予測(外挿)は信頼性が低くなります。過去にない水準の広告費を投入した場合の売上予測などは、モデルの適用範囲を超えている可能性があります。
データ数と変数数のバランスを取る
説明変数の数に対してデータ数が少ないと、モデルが過学習(overfitting)を起こし、手元のデータには合うが新しいデータへの予測力が低いモデルになります。目安として、説明変数1つに対して最低10〜20のデータポイントが必要とされます。
まとめ
回帰分析は、変数間の関係をデータから定量的に読み解くための基本的な統計手法です。単回帰で2変数間の関係を把握し、重回帰で複数要因の影響度を比較するという使い分けが重要です。相関と因果の区別、多重共線性の回避、外挿の制限といった注意点を踏まえた上で適切に活用すれば、データに裏付けられた説得力のある意思決定を支える強力なツールとなります。
参考資料
- A Refresher on Regression Analysis - Harvard Business Review(回帰分析の基礎をビジネスパーソン向けに解説。「相関は因果を意味しない」原則や、降雨量と売上の関係を用いた実例あり)
- 回帰分析 - グロービス経営大学院(MBA用語集。単回帰・重回帰の基本概念と数式表現、ビジネス予測への応用を解説)
- 重回帰分析 - グロービス経営大学院(MBA用語集。複数の説明変数を用いた重回帰分析の数式と、実務での活用における注意点を解説)
- 回帰分析とは? - GLOBIS学び放題×知見録(回帰分析の因果関係把握・予測への活用法を動画で解説。相関分析やロジックツリーとの関連も紹介)