📈データ分析・定量スキル

潜在クラス分析(LCA)とは?隠れた顧客セグメントを発見する統計手法

潜在クラス分析(LCA)は、アンケートや購買データの回答パターンから直接観測できない潜在的なグループを確率的に推定する統計手法です。基本概念、手順、活用場面を解説します。

    潜在クラス分析(LCA)とは

    潜在クラス分析(Latent Class Analysis: LCA)は、観測データの回答パターンから直接観測できない「潜在的なグループ(クラス)」を確率的に推定する統計手法です。1950年代にポール・ラザースフェルド(Paul Lazarsfeld)が社会学研究のなかで理論的基盤を構築しました。

    クラスター分析と似た「グルーピング」の手法ですが、LCAは各個人が特定のクラスに所属する「確率」を推定する点が特徴です。また、数値データだけでなく、カテゴリカルデータ(名義尺度・順序尺度)も直接扱えるため、アンケート調査やマーケティングリサーチとの親和性が高い手法です。

    構成要素

    LCAの分析フレームワークは以下の要素で構成されます。

    構成要素説明
    観測変数(Indicator)実際に測定・観測されるデータ項目(質問回答や購買記録)
    潜在クラス(Latent Class)直接観測できない、データの背後にある隠れたグループ
    クラス所属確率各個人がそれぞれのクラスに属する確率(合計1.0)
    条件付き応答確率各クラスに属する人が特定の回答をする確率
    クラス構成比率母集団における各クラスの割合
    潜在クラス分析の構造

    LCAとクラスター分析の主な違いは以下の通りです。

    比較項目潜在クラス分析クラスター分析
    所属の扱い確率的(0~1の連続値)確定的(1つのクラスタに一意に割当)
    変数の種類カテゴリカル・連続の両方主に連続データ
    クラス数の決定情報量基準(BIC/AIC)で統計的に判断主観的な判断が多い
    モデルの基盤確率モデル(最尤推定)距離ベースのアルゴリズム

    実践的な使い方

    ステップ1: 分析変数を選定しデータを整理する

    LCAに投入する観測変数を選定します。変数間の相関は、潜在クラスの存在によって説明されるという「局所独立性」の仮定を意識します。

    • 変数の選定: 仮説に基づき、セグメントの違いを反映する変数を選ぶ
    • データの確認: 欠損値の処理、カテゴリ数の確認を行う
    • サンプルサイズ: 最低300件、理想的には500件以上を確保

    ステップ2: モデルを推定しクラス数を決定する

    異なるクラス数(2クラス、3クラス、4クラス…)のモデルを順に推定し、情報量基準で最適なクラス数を選択します。

    • BIC(ベイズ情報量基準): 値が最小となるクラス数を採用するのが一般的
    • AIC(赤池情報量基準): BICよりクラス数を多く見積もる傾向がある
    • エントロピー: クラス分離の明確さを示す指標(0.8以上が目安)
    • 解釈可能性: 統計基準だけでなく、ビジネス上の意味が通るかを確認

    ステップ3: クラスのプロファイリングと活用

    推定されたクラスごとの条件付き応答確率からプロファイルを作成します。各クラスの特徴をビジネス用語で命名し、施策に結びつけます。

    • 条件付き応答確率の比較で、各クラスの回答パターンの特徴を読み取る
    • デモグラフィック変数との紐づけで、クラスの実態を把握する
    • 最も所属確率が高いクラスに各個人を割り当て、施策対象を特定する

    活用場面

    • 顧客セグメンテーションによるターゲットマーケティングの精緻化
    • ブランドイメージ調査での知覚マップの構築
    • コンジョイント分析と組み合わせた選好構造の異質性の把握
    • 従業員エンゲージメント調査での潜在的な意識グループの発見
    • 医療研究での患者サブタイプの分類
    • 犯罪学・社会学での行動パターンの類型化

    注意点

    クラス数の決定は統計基準だけでは不十分です。BICが最小のモデルでもビジネス上の解釈が困難な場合は、次善のモデルを選ぶ判断も必要です。

    局所独立性の仮定が満たされない場合(変数間に潜在クラスでは説明できない相関が残る場合)、クラスの推定が歪みます。残差相関の確認が重要です。

    少数クラスの過剰推定に注意が必要です。クラス数を増やすほどモデルの適合度は上がりますが、実態を反映しない少人数のクラスが生成されることがあります。

    各個人のクラス所属は「確率」であるため、確定的にクラスを割り当てて施策を展開する際には、所属確率の閾値設定に配慮が必要です。

    まとめ

    潜在クラス分析(LCA)は、観測データの回答パターンから隠れたグループを確率的に推定する手法です。カテゴリカルデータに対応し、所属の不確実性を定量化できる点がクラスター分析との差別化要因です。マーケティングセグメンテーションをはじめ、回答パターンの背後にある構造の発見に幅広く活用されています。

    参考資料

    関連記事