混同行列とは？分類モデルの性能を正確に評価する方法

混同行列とは

混同行列とは、分類モデルの予測結果と実際のラベルを2次元の表で整理し、モデルの性能を多角的に評価するための手法です。英語では Confusion Matrix と呼ばれます。

混同行列の基盤となる第一種の過誤（偽陽性）と第二種の過誤（偽陰性）の概念は、統計学者イェジ・ネイマン（Jerzy Neyman）とエゴン・ピアソン（Egon Pearson）が1933年に定式化した仮説検定の理論に由来します。この概念が情報検索や医療診断の評価指標に応用され、機械学習の普及とともに分類モデル評価の標準ツールとして定着しています。

単純な正解率（Accuracy）だけではモデルの性能を正しく評価できないケースが多くあります。たとえば、不正検知のように陽性データが全体の1%しかない場合、すべてを「陰性」と予測するだけで正解率99%になります。混同行列を使えば、こうした見かけ上の高精度に惑わされず、モデルの真の性能を把握できます。

構成要素

4つの分類区分

混同行列は、予測と実際の組み合わせを4つに分類します。

	実際: 陽性	実際: 陰性
予測: 陽性	真陽性（TP）	偽陽性（FP）
予測: 陰性	偽陰性（FN）	真陰性（TN）

真陽性（True Positive）: 正しく陽性と予測
偽陽性（False Positive）: 誤って陽性と予測（第一種の過誤）
偽陰性（False Negative）: 誤って陰性と予測（第二種の過誤）
真陰性（True Negative）: 正しく陰性と予測

適合率（Precision）

陽性と予測したもののうち、実際に陽性だった割合です。TP / (TP + FP) で算出します。偽陽性を減らしたい場面で重視します。スパムフィルタで正常メールを誤ってスパム判定しないことが重要な場合などが該当します。

再現率（Recall）

実際に陽性のもののうち、正しく陽性と予測できた割合です。TP / (TP + FN) で算出します。偽陰性を減らしたい場面で重視します。疾患のスクリーニングで病気を見逃さないことが重要な場合などが該当します。

F1スコア

適合率と再現率の調和平均です。2 x Precision x Recall / (Precision + Recall) で算出します。適合率と再現率のバランスを1つの指標で把握したい場合に使います。

正解率（Accuracy）

全予測のうち正しく予測できた割合です。(TP + TN) / (TP + FP + FN + TN) で算出します。クラス不均衡がない場合は有用ですが、不均衡データでは誤解を招きやすい指標です。

実践的な使い方

ステップ1: 混同行列を作成する

分類モデルの予測結果と実際のラベルを突合し、TP、FP、FN、TNの件数を集計します。多クラス分類の場合は、クラス数 x クラス数の行列になります。可視化ツールを使ってヒートマップ形式で表示すると、どのクラス間で誤分類が多いかが直感的に把握できます。

ステップ2: ビジネス要件に応じた指標を選択する

分析の目的に合わせて重視する指標を決定します。偽陽性のコストが高い場合（正常取引を不正と誤判定すると顧客体験が悪化する場合など）は適合率を重視します。偽陰性のコストが高い場合（不正取引を見逃すと損害が発生する場合など）は再現率を重視します。

ステップ3: 閾値を調整して最適化する

分類モデルの確率閾値を変化させることで、適合率と再現率のトレードオフを調整します。ROC曲線やPrecision-Recall曲線を描画し、ビジネス要件に最も適した閾値を選定します。

活用場面

不正検知モデルの性能評価で見逃し率を最小化したい場面
医療診断支援システムの感度と特異度を評価する場面
顧客離脱予測モデルの精度を多面的に検証する場面
スパムフィルタの誤検知率を低減するための閾値調整
マーケティングのターゲティングモデルの効率を評価する場面

注意点

誤分類コストの非対称性を考慮する

混同行列の解釈では、ビジネス文脈での各誤分類のコストを明確にすることが不可欠です。偽陽性と偽陰性のコストが等しいことは稀であり、コストの非対称性を考慮せずに指標を選ぶと、実運用で期待と異なる結果になります。

多クラス分類と閾値の継続管理

多クラス分類では、クラスごとに適合率と再現率を算出し、マクロ平均とマイクロ平均の両方を確認する必要があります。全体平均だけを見ると、特定クラスの性能低下が隠れてしまいます。また、モデルの閾値は一度設定して終わりではなく、データの分布が変化すれば再調整が必要です。定期的に混同行列を再計算し、指標の推移をモニタリングする仕組みを構築することが重要です。

まとめ

混同行列は、分類モデルの予測結果をTP、FP、FN、TNの4区分で整理し、適合率、再現率、F1スコアなどの指標を算出する評価手法です。正解率だけでは見えないモデルの弱点を特定し、ビジネス要件に合った最適な閾値設定を行うために不可欠なツールです。誤分類のコストを明確化し、定期的なモニタリングを行うことで、実運用に耐えるモデル評価が実現できます。

混同行列とは？分類モデルの性能を正確に評価する方法