判別分析とは?線形判別関数とマハラノビス距離によるデータ分類を解説
判別分析は、複数の変数を用いてデータがどのグループに属するかを判別する多変量解析手法です。線形判別関数、マハラノビス距離、判別精度の評価方法からビジネスでの活用法まで体系的に解説します。
判別分析とは
判別分析(Discriminant Analysis)とは、複数の説明変数を用いて、データがあらかじめ定義されたグループのどちらに属するかを判別するための多変量解析手法です。1936年にロナルド・フィッシャーがアヤメの品種分類の研究で提唱した線形判別関数がその起源であり、統計学における分類手法の基礎として今日まで広く用いられています。
クラスター分析が「ラベルなし」のデータからグループを自動的に発見する教師なし学習であるのに対し、判別分析は「既にグループが分かっているデータ」を使って判別ルールを構築する教師あり学習です。過去の既知データから判別関数を導出し、新たなデータがどのグループに属するかを予測する点が特徴です。
コンサルティングの現場では、「優良顧客と離反リスク顧客をどう見分けるか」「融資の承認・否認をどの基準で判断するか」「製品が良品か不良品かをどう分類するか」といった二者択一の分類問題に対して、客観的な判別基準を構築する手段として活用されます。
構成要素
線形判別関数
線形判別関数とは、複数の説明変数を線形結合(重み付きの合計)した関数で、データの分類境界を定義するものです。フィッシャーの線形判別分析では、2群間の分離度を最大化する方向、すなわち「群間の平均値の差を大きく、群内のばらつきを小さくする方向」を数学的に求めます。
判別関数の値が正であればグループA、負であればグループBに分類するという形で判別ルールが構成されます。各変数に付与される係数(判別係数)の大きさを比較することで、どの変数が判別に強く寄与しているかを把握できます。
マハラノビス距離
マハラノビス距離は、インドの統計学者P.C.マハラノビスが考案した距離尺度で、変数間の相関やばらつきを考慮した距離を測定します。通常のユークリッド距離が変数間の相関を無視するのに対し、マハラノビス距離は共分散行列を用いて変数のスケールや相関構造を補正します。
| 距離尺度 | 特徴 | 判別分析での役割 |
|---|---|---|
| ユークリッド距離 | 直線的な距離。変数間の相関を考慮しない | 変数のスケールが同一で無相関な場合に適する |
| マハラノビス距離 | 共分散行列で補正した距離。相関やばらつきを考慮 | 各グループの重心からの距離を算出し、近い方に判別する |
判別分析では、新しいデータポイントについて各グループの重心までのマハラノビス距離を計算し、距離が最も小さいグループに分類するのが基本的な考え方です。
二群判別と多群判別
判別分析は分類先の数によって二群判別と多群判別に分けられます。
- 二群判別分析: 2つのグループのいずれに属するかを判別します。承認・否認、購入・非購入といった二値分類の問題に用います
- 多群判別分析: 3つ以上のグループのいずれに属するかを判別します。顧客ランク(ゴールド・シルバー・ブロンズ)の分類などに用います
二群判別では1つの判別関数で十分ですが、k群の判別には最大k-1個の判別関数が必要となります。
判別精度の評価
構築した判別関数の精度は、正判別率(全データのうち正しく判別できた割合)で評価します。
| 評価指標 | 内容 |
|---|---|
| 正判別率 | 正しく分類されたデータの割合。全体の精度を示す |
| 誤判別率 | 誤って分類されたデータの割合。1 - 正判別率 |
| 混同行列 | 各グループの正判別・誤判別の件数をマトリクスで表示 |
| 交差検証 | データの一部を除外して判別関数を構築し、除外データで精度を検証する手法 |
注意すべき点は、学習に使ったデータで精度を評価すると楽観的な結果になりやすいことです。交差検証(クロスバリデーション)やホールドアウト法を用いて、未知データに対する汎化性能を確認することが重要です。
実践的な使い方
ステップ1: 分析目的とグループ定義を明確にする
まず「何を判別したいのか」「グループの定義は何か」を明確にします。たとえば「契約継続する顧客と解約する顧客を判別する」であれば、過去の継続・解約データを用いて判別ルールを構築します。グループの定義が曖昧だと、判別関数も曖昧になるため、基準の明確化が不可欠です。
ステップ2: 説明変数を選定しデータを前処理する
グループの違いに関連すると考えられる変数を候補として洗い出します。顧客離反の判別であれば、利用頻度、契約期間、問い合わせ回数、直近の利用日からの経過日数などが候補になります。欠損値の処理、外れ値の確認を行い、変数間のスケール差が大きい場合は標準化を検討します。
ステップ3: 判別関数を構築し精度を評価する
選定した変数を用いて判別関数を構築します。正判別率と混同行列を確認し、実用上の精度に達しているかを判断します。交差検証で汎化性能を確認し、精度が不十分であれば変数の追加・削除や変換を検討します。
ステップ4: 判別係数を解釈しビジネスに適用する
各変数の判別係数の大きさと符号を確認し、どの変数が分類にどの程度寄与しているかを解釈します。たとえば「直近の利用日からの経過日数」の係数が大きければ、利用の途絶が離反の強い指標であることが示唆されます。この解釈をもとに、具体的な施策(リテンション施策の対象者選定など)に落とし込みます。
活用場面
- 与信審査: 融資申込者の属性情報から、返済可能性の高低を判別し、審査基準を客観化します
- 顧客離反予測: 契約継続と解約の過去データから判別関数を構築し、離反リスクの高い顧客を早期に特定します
- 医療診断の補助: 複数の検査値から疾患の有無を判別し、スクリーニングの精度向上に活用します
- 品質管理: 製造工程の計測データから良品・不良品を判別し、検査の効率化を図ります
- マーケティングのターゲティング: 過去の購買データからキャンペーン反応者・非反応者を判別し、プロモーションの対象を絞り込みます
注意点
多変量正規分布の仮定を確認する
線形判別分析は、各グループのデータが多変量正規分布に従うことを前提としています。データの分布が著しく正規分布から逸脱している場合(極端な歪みや外れ値が多い場合)、判別精度が低下する可能性があります。ヒストグラムやQ-Qプロットで分布を確認し、必要に応じて対数変換などの前処理を行ってください。
等分散性の仮定にも留意する
線形判別分析は2群の共分散行列が等しい(等分散性)ことを仮定しています。共分散行列が大きく異なる場合は、二次判別分析(QDA: Quadratic Discriminant Analysis)の適用を検討します。QDAは各グループに固有の共分散行列を許容するため、より柔軟な判別境界を描けますが、推定すべきパラメータが増えるためサンプルサイズの確保が必要です。
変数間の多重共線性に注意する
説明変数間に強い相関(多重共線性)があると、判別係数が不安定になり解釈が困難になります。相関行列を事前に確認し、相関の高い変数の一方を除外するか、主成分分析で次元を削減してから判別分析を適用するといった対処が有効です。
サンプルサイズの偏りに対処する
一方のグループのデータ数が極端に少ない場合、判別関数がデータ数の多い群に偏った結果を返しやすくなります。事前確率の調整や、サンプリング手法(オーバーサンプリング、アンダーサンプリング)による補正を検討してください。
まとめ
判別分析は、既知のグループ情報をもとに判別関数を構築し、新たなデータの所属グループを予測する多変量解析手法です。線形判別関数による分類境界の構築とマハラノビス距離による帰属判定を理解し、正判別率や交差検証で精度を評価することで、与信審査、顧客離反予測、品質管理など幅広いビジネス場面での意思決定を客観化できます。分布の仮定やサンプルサイズの偏りといった前提条件を適切に確認しながら運用することが、信頼性の高い判別モデルの構築につながります。
参考資料
- 判別分析の活用方法や注意点とは?具体的な事例を使って解説 - NTTコム オンライン(判別分析の基本概念、活用方法、注意点を実務的な視点で解説)
- 判別分析 | 統計用語集 - 統計WEB(判別分析の定義、線形判別関数、マハラノビス距離の基本を解説)
- 判別分析 - 日経リサーチ(判別分析の概要とマーケティングリサーチにおける活用を解説)