ロジスティック回帰分析とは?二値分類の確率予測とオッズ比によるビジネス活用
ロジスティック回帰分析は、購買/非購買・離脱/継続などの二値分類の確率を予測する統計手法です。シグモイド関数の仕組み、オッズ比の解釈、多クラス分類への拡張、実務での活用場面と注意点を解説します。
ロジスティック回帰分析とは
ロジスティック回帰分析(Logistic Regression)とは、「購入する/しない」「離脱する/継続する」「合格する/不合格になる」のように、結果が2つの値(二値)を取る事象について、その発生確率を説明変数から予測する統計手法です。
通常の回帰分析(線形回帰)は売上金額や体重といった連続値を予測するのに対し、ロジスティック回帰は「ある事象が起こる確率」を0から1の範囲で出力します。この違いが、ロジスティック回帰の最大の特徴です。
1958年に統計学者デイヴィッド・コックスが提唱した手法であり、医学・疫学分野での疾病リスク予測をきっかけに発展しました。現在ではマーケティング、金融、人事など幅広いビジネス領域で活用されています。解釈性が高く、結果を「オッズ比」として説明できるため、コンサルティングの現場でも意思決定者への説明がしやすい分析手法です。
構成要素
シグモイド関数(ロジスティック関数)
ロジスティック回帰の中核にあるのがシグモイド関数です。線形回帰の出力 z = b0 + b1x1 + b2x2 + … をシグモイド関数に通すことで、出力を必ず0から1の範囲に収めます。
P(Y=1) = 1 / (1 + e^(-z))
この関数はS字型の曲線を描き、zが大きくなるほどP(Y=1)は1に近づき、zが小さくなるほど0に近づきます。閾値(通常は0.5)を設定し、確率がそれ以上であれば「発生する」、未満であれば「発生しない」と判定します。
オッズとオッズ比
ロジスティック回帰の結果解釈において重要な概念がオッズとオッズ比です。
- オッズ: ある事象が「起こる確率」を「起こらない確率」で割った値です。確率が0.8であればオッズは 0.8 / 0.2 = 4(4倍起こりやすい)となります
- オッズ比(Odds Ratio): 説明変数が1単位増加したときに、オッズが何倍になるかを示す値です。回帰係数 b の指数関数 e^b で求められます
たとえば、ある広告接触の回帰係数が0.7の場合、オッズ比は e^0.7 ≒ 2.01 です。これは「広告に接触した人は、接触しなかった人と比べて購入オッズが約2倍になる」と解釈できます。
モデルの評価指標
ロジスティック回帰モデルの精度評価には、以下の指標を組み合わせて使用します。
| 指標 | 内容 | 目安 |
|---|---|---|
| 正答率(Accuracy) | 全体のうち正しく分類できた割合 | 高いほど良いが、データの偏りに注意 |
| 適合率(Precision) | 「Y=1」と予測したもののうち実際にY=1だった割合 | 偽陽性を減らしたい場合に重視 |
| 再現率(Recall) | 実際にY=1のもののうち正しくY=1と予測できた割合 | 見逃しを減らしたい場合に重視 |
| AUC(ROC曲線下面積) | 閾値に依存しない総合的な判別能力 | 0.7以上で実用的、0.8以上で良好 |
多クラス分類への拡張
ロジスティック回帰は本来二値分類の手法ですが、3つ以上のカテゴリに拡張することも可能です。代表的な方法は以下の2つです。
- 多項ロジスティック回帰: 3つ以上のカテゴリを同時にモデル化します。基準カテゴリを1つ定め、他のカテゴリとの比較を行います
- One-vs-Rest(OvR): 各カテゴリについて「そのカテゴリか否か」の二値分類モデルを個別に構築し、最も確率が高いカテゴリに分類します
実践的な使い方
ステップ1: 目的変数を二値で定義する
分析の出発点は、予測したい事象を明確な二値変数として定義することです。「購入する(1)/しない(0)」「解約する(1)/継続する(0)」のように、ビジネス上の意思決定に直結する定義を設定します。
定義が曖昧だと分析結果の解釈も曖昧になります。たとえば「アクティブユーザー」の定義は、月1回以上ログインか、週3回以上利用かで大きく変わります。関係者と事前に合意を取ることが重要です。
ステップ2: 説明変数を選定しデータを整備する
目的変数に影響を与えると仮説立てできる説明変数を選びます。たとえば購買予測であれば、過去の購買回数、サイト訪問頻度、年齢、広告接触有無などが候補です。
データ整備では以下に注意します。
- カテゴリ変数(性別、地域など)はダミー変数に変換する
- 欠損値の処理方法を決める(除外、平均値補完、多重代入法など)
- 説明変数のスケールが極端に異なる場合は標準化を検討する
ステップ3: モデルを構築し係数を推定する
ツール(Excel、Python、R、SPSSなど)を使ってモデルを構築します。Pythonであればscikit-learnのLogisticRegressionクラスやstatsmodelsのLogitクラスが利用できます。
ロジスティック回帰のパラメータは最尤推定法(Maximum Likelihood Estimation)で求められます。線形回帰の最小二乗法とは異なり、「観測データが得られる確率(尤度)が最大になる係数」を数値的に探索します。
ステップ4: モデルを評価し閾値を調整する
AUC、正答率、適合率、再現率を確認し、ビジネス目的に合った閾値を設定します。たとえば、解約防止施策では「解約しそうな顧客を見逃さない」ことが重要なため、再現率を重視して閾値を0.3に下げるといった判断があり得ます。
交差検証(Cross-Validation)でモデルの汎化性能を確認し、過学習が起きていないかも確認します。
ステップ5: 結果を解釈しアクションにつなげる
各説明変数のオッズ比を算出し、ビジネス上のインサイトに変換します。「メルマガ登録者は非登録者と比べて購入オッズが1.8倍」「価格が1,000円上がると購入確率のオッズが0.6倍に低下」のように、具体的な数値で施策の効果や要因の影響度を伝えます。
活用場面
- 顧客の購買予測: 顧客属性や行動データから購入確率を算出し、ターゲティング施策の精度を高めます
- 解約(チャーン)予測: サービスの利用頻度低下やクレーム履歴から解約リスクを予測し、リテンション施策を優先的に展開します
- 与信審査・リスク評価: ローン申請者の属性や取引履歴から貸し倒れリスクを予測し、審査基準の設計に活用します
- マーケティング施策の効果測定: 広告接触やキャンペーン参加の有無が購買に与える影響をオッズ比で定量化し、投資対効果を評価します
- 医療・ヘルスケア: 患者の属性や検査値から疾病リスクを予測し、予防的な介入の優先順位を決めます
注意点
線形分離可能性の前提
ロジスティック回帰は、説明変数の線形結合で事象の確率を予測します。つまり、説明変数と目的変数の関係が非線形に複雑な場合、十分な予測精度が得られないことがあります。非線形な関係が疑われる場合は、決定木やランダムフォレストなどの手法を検討してください。
多重共線性の影響
線形回帰と同様に、説明変数同士が強く相関していると回帰係数が不安定になります。VIF(分散拡大係数)を確認し、VIFが10を超える変数の除外や統合を検討します。
クラス不均衡への対処
実際のビジネスデータでは「購入した人が全体の3%」「解約した人が5%」のように、Y=1のサンプルが極端に少ない場合がよくあります。このままモデルを構築すると、すべてを「Y=0」と予測しても正答率95%以上になってしまい、実用的なモデルになりません。
対処法としては、アンダーサンプリング(多数クラスを減らす)、オーバーサンプリング(少数クラスを増やす)、SMOTEなどの合成手法、コスト考慮学習(class_weightの調整)があります。
過学習と正則化
説明変数の数がサンプル数に対して多い場合、モデルが過学習するリスクがあります。L1正則化(Lasso)やL2正則化(Ridge)を適用することで、不要な変数の影響を抑制し、汎化性能を向上させることができます。
まとめ
ロジスティック回帰分析は、二値分類の確率予測を行うための基本的かつ実用的な統計手法です。シグモイド関数により出力を確率に変換し、オッズ比によって各要因の影響度を直感的に解釈できることが大きな強みです。線形分離可能性の前提やクラス不均衡への対処といった制約を理解した上で適用すれば、マーケティング、金融、医療など幅広い領域で、データに基づく意思決定を支える有力なツールとなります。
参考資料
- What Is Logistic Regression? | IBM - IBM(ロジスティック回帰の定義、線形回帰との違い、分類問題への適用をビジネス視点で体系的に解説)
- What is Logistic Regression? - AWS - Amazon Web Services(シグモイド関数の仕組み、二値分類・多項分類・順序分類の3タイプの違いを図解付きで説明)
- 8-1. ロジスティック回帰分析 | 統計学の時間 - 統計WEB(オッズ・ロジット変換・最尤推定法など数理的な基礎を日本語で丁寧に解説するオンライン講座)
- ロジスティック回帰分析とは?用途、計算方法をわかりやすく解説! - GMOリサーチ&AI(ビジネスリサーチにおけるロジスティック回帰の活用場面と計算方法を実務寄りに解説)