クラスター分析とは?手法・活用法・セグメンテーションへの応用を解説
クラスター分析は、データの類似度に基づいてグループを自動形成する統計手法です。階層的クラスタリング、k-means法、デンドログラムの読み方、顧客セグメンテーションへの応用までコンサルタント向けに体系的に解説します。
クラスター分析とは
クラスター分析とは、データセット内の個体を類似度に基づいて複数のグループ(クラスター)に自動的に分類する統計手法です。英語では Cluster Analysis と呼ばれ、データマイニングや機械学習の基本手法の一つに位置づけられます。
コンサルティングの現場では「顧客をどのようにセグメントに分けるべきか」「市場にはどのような購買パターンのグループが存在するか」といった問いに、分析者の主観に頼らずデータから自然なグループを発見する手段として活用されます。
クラスター分析の特徴は「教師なし学習」である点です。あらかじめ正解ラベル(どのグループに属するか)が与えられていない状態で、データの構造そのものからグループを見出します。これは、事前に仮説を持たずにデータの探索的な理解を深めたい場面で特に有効です。
構成要素
階層的クラスタリング
個体間の距離を計算し、最も近いもの同士から順に結合してツリー構造(デンドログラム)を構築する手法です。
- 凝集型: 各個体を1つのクラスターとして出発し、段階的に統合していく方法です。最も一般的に使われます
- 分割型: 全体を1つのクラスターとして出発し、段階的に分割していく方法です
デンドログラムを任意の高さで切断することで、クラスター数を決定します。切断位置によって分類の粗さ・細かさが変わるため、分析目的に応じた判断が必要です。
階層的クラスタリングはデータ構造を視覚的に把握できる利点がある一方、大規模データ(数万件以上)には計算コストが高くなるという制約があります。
k-means法
あらかじめクラスター数kを指定し、各データポイントを最も近い重心(セントロイド)に割り当てることでグループ化する手法です。
処理の流れは以下の通りです。
- k個の重心をランダムに配置する
- 各データポイントを最も近い重心に割り当てる
- 各クラスターの平均値で重心を再計算する
- 割り当てが変化しなくなるまで2〜3を繰り返す
k-means法は計算が高速で大規模データに適していますが、クラスター数kを事前に指定する必要があります。エルボー法やシルエット分析を用いて最適なkを探索するのが一般的です。
デンドログラムの読み方
デンドログラム(樹形図)は、階層的クラスタリングの結果をツリー構造で表現した図です。
| 要素 | 意味 |
|---|---|
| 横軸 | 各個体(データポイント) |
| 縦軸 | クラスター間の距離(非類似度) |
| 結合の高さ | 低いほど類似度が高い結合を意味する |
| 切断線 | 任意の高さで水平に切ることでクラスター数を決定 |
デンドログラムの「距離が急激に増加するポイント」でクラスターを切り分けると、自然なグループ数が得られやすくなります。
距離の計算方法
クラスター分析の結果は「距離」の定義に大きく依存します。
- ユークリッド距離: 最も一般的な距離尺度で、直線距離を計算します。連続変数に適しています
- マンハッタン距離: 各軸方向の差の絶対値の合計です。外れ値の影響を受けにくい特性があります
- コサイン類似度: ベクトルの方向の類似性を測定します。テキストデータの分析に多用されます
変数のスケールが異なる場合(例: 年収と年齢)は、事前に標準化(z-score変換など)を行う必要があります。標準化を怠ると、スケールの大きい変数が距離計算を支配してしまいます。
実践的な使い方
ステップ1: 分析目的と変数を選定する
まず「何のためにグループ化するのか」を明確にします。顧客セグメンテーションであれば、購買金額、購買頻度、最終購買日(RFM指標)、利用サービスの種類などが候補変数になります。目的に関連しない変数を含めると、意味のないクラスターが形成されます。
ステップ2: データを前処理する
欠損値の処理、外れ値の確認、変数の標準化を行います。k-means法はスケールに敏感なため、標準化は必須です。カテゴリ変数を含む場合はダミー変数化するか、k-modes法やk-prototypes法などカテゴリ変数に対応した手法を使います。
ステップ3: クラスター数を決定する
エルボー法(クラスター内分散の減少が鈍化する点を特定)やシルエット分析(各データポイントのクラスター帰属の妥当性を評価)を用いて、最適なクラスター数を探索します。統計的な最適値に加え、ビジネス上の解釈可能性も考慮して最終決定します。
ステップ4: 結果を解釈しラベルを付与する
各クラスターの中心値や分布を確認し、ビジネス上意味のある名前を付けます。たとえば「高単価ロイヤル層」「コスト重視の比較検討層」「休眠顧客」といった形です。ラベル付けは、分析結果を組織内で共有し施策に落とし込むための重要なステップです。
活用場面
- 顧客セグメンテーション: 購買行動やデモグラフィック情報に基づき、ターゲティングの精度を高めます
- 市場調査: アンケートデータから消費者の嗜好パターンを発見し、商品開発やポジショニングに活用します
- 店舗・エリア分析: 商圏データに基づいて類似する店舗群を特定し、出店戦略や販促施策を最適化します
- 財務分析: 企業群を財務指標に基づいて分類し、ベンチマーク対象の選定や投資判断に活用します
- 異常検知: 通常のクラスターから外れたデータポイントを不正検知やリスク管理に利用します
注意点
クラスター分析は探索的手法であり、正解はない
クラスター分析は教師なし学習であるため、「この分類が正解」という客観的な基準は存在しません。同じデータでも手法やパラメータの違いで異なる結果が出ます。分析者がビジネスの文脈に照らして結果の妥当性を判断する必要があります。
変数の選定が結果を大きく左右する
投入する変数が異なれば、形成されるクラスターもまったく変わります。「とりあえず手元にあるデータを全部入れる」のではなく、分析目的に直結する変数を厳選することが重要です。
結果の安定性を確認する
初期値の違い(k-means法の場合)やサンプルの入れ替えによって結果が大きく変動する場合、そのクラスタリングは頑健ではありません。異なる初期値での複数回実行や、ブートストラップによる安定性の確認を行ってください。
セグメンテーションの「使いやすさ」を意識する
統計的に最適なクラスター数が7つや8つであっても、現場の施策で使い分けできなければ意味がありません。マーケティングチームが施策を打ち分けられる粒度(通常3〜5セグメント)に収めることも実務上の重要な判断です。
まとめ
クラスター分析は、データから自然なグループ構造を発見する探索的な統計手法であり、顧客セグメンテーションをはじめとするビジネス分析の基盤として幅広く活用されています。階層的クラスタリングとk-means法の特性を理解し、変数選定・前処理・クラスター数決定・結果解釈の各ステップを丁寧に実行することで、施策に直結する実用的なセグメントを導き出すことができます。
参考資料
- クラスター分析 - グロービス経営大学院(MBA用語集。階層クラスター分析と非階層クラスター分析の違い、デンドログラムの概念を解説)
- Using marketing analytics to drive superior growth - McKinsey & Company(マーケティングアナリティクスにおけるセグメンテーション分析の活用と成長への貢献を解説)
- クラスター分析とは - グロービス経営大学院 ナノ単科(クラスター分析の定義、K平均法・階層的クラスタリングの手法、ビジネス活用場面を解説)