📈データ分析・定量スキル

主成分分析(PCA)とは?多変量データの本質を捉える次元削減手法を解説

主成分分析(PCA)は多数の変数を少数の主成分に集約し、データの構造を把握する多変量解析手法です。固有値・寄与率の解釈、主成分の抽出プロセス、ビジネスでの活用法を解説します。

    主成分分析とは

    主成分分析(PCA: Principal Component Analysis)とは、多数の変数を持つデータセットを、情報の損失を最小限に抑えながら少数の合成変数(主成分)に集約する多変量解析手法です。1901年にカール・ピアソンが提唱し、1933年にハロルド・ホテリングが体系化したこの手法は、統計学と機械学習の両分野で広く用いられています。

    コンサルティングの実務では、顧客アンケートの数十項目の回答データ、数百銘柄の財務指標、複数のKPIを同時に扱う場面が日常的に発生します。変数が多いとデータの全体像をつかみにくく、分析や可視化が困難になります。このような「次元の呪い」に対処するために、PCAはデータの分散(ばらつき)を最大限に保持する方向へ新しい軸を設定し、元の多変数を少数の主成分に要約します。

    PCAの核となる考え方は「データのばらつきが大きい方向こそ、情報量が多い」というものです。散布図上のデータ点群に対し、分散が最大となる方向を第1主成分、それに直交し次に分散が大きい方向を第2主成分として順次抽出していきます。

    主成分分析(PCA)の概念

    構成要素

    主成分の概念

    主成分とは、元の変数の線形結合(重み付き合計)として作られる新しい合成変数です。第1主成分はデータの分散を最も多く説明する方向に設定され、第2主成分は第1主成分に直交する制約のもとで次に分散が大きい方向に設定されます。このように、各主成分は互いに無相関(直交)であるという性質を持ちます。

    たとえば、顧客データの「年間購買金額」「来店頻度」「購入カテゴリ数」「平均滞在時間」という4変数がある場合、PCAによって「総合的な購買活性度」「購買パターンの偏り」といった解釈可能な合成軸に集約できる可能性があります。

    固有値と寄与率

    各主成分がデータ全体の分散のうちどれだけの割合を説明するかを示す指標が寄与率です。寄与率は固有値(eigenvalue)から算出されます。

    指標定義解釈
    固有値各主成分が説明する分散の大きさ1以上の固有値を持つ主成分は、元の変数1つ分以上の情報量を持つ
    寄与率各主成分の固有値を全固有値の合計で割った値第1主成分の寄与率が高いほど、1つの軸でデータの構造を捉えられる
    累積寄与率第1主成分から順に寄与率を足し合わせた値一般に累積寄与率70〜80%を目安に採用する主成分数を決定する

    固有値が1未満の主成分は、元の変数1つよりも情報量が少ないため、通常は採用しません(カイザー基準)。スクリープロット(固有値を降順に並べたグラフ)で固有値の減少が急激に鈍化する「肘」の位置を確認する方法も広く用いられます。

    累積寄与率

    主成分をいくつ採用するかの判断基準として、累積寄与率は最も重要な指標です。たとえば、10変数のデータに対してPCAを適用した結果、第1主成分の寄与率が45%、第2主成分が25%、第3主成分が10%であれば、3つの主成分で累積寄与率80%に達します。これは、元の10変数の情報の80%を3つの合成変数で表現できることを意味します。

    ビジネスの実務では、累積寄与率70〜80%を確保できる主成分数を採用し、残りは「ノイズ」として切り捨てるのが一般的です。ただし、分析目的に応じて採用基準は柔軟に調整してください。

    因子分析との違い

    PCAと混同されやすい手法に因子分析(Factor Analysis)があります。両者はいずれも多変数を少数の軸に集約しますが、目的と仮定が異なります。

    観点主成分分析(PCA)因子分析
    目的データの分散を最大限保持して次元を削減する観測変数の背後にある潜在因子を推定する
    モデル観測変数 → 主成分(変数の線形結合)潜在因子 → 観測変数(因子が変数を生成するモデル)
    誤差の扱い誤差を仮定しない各変数に固有の誤差(独自性)を仮定する
    用途データの要約・可視化・前処理心理尺度の構成概念の検証、質問項目の構造分析

    探索的にデータを要約したい場合はPCA、理論的に想定される潜在構造を検証したい場合は因子分析を選ぶのが適切です。

    実践的な使い方

    ステップ1: データの前処理と標準化を行う

    PCAを適用する前に、欠損値の処理と変数の標準化を行います。PCAは分散に基づく手法であるため、スケールの異なる変数(例: 売上高(億円)と顧客満足度(5段階評価))をそのまま投入すると、スケールの大きい変数が主成分を支配してしまいます。各変数を平均0・標準偏差1に標準化(z-score変換)してからPCAを適用するのが標準的な手順です。

    ステップ2: 主成分を抽出し採用数を決定する

    相関行列(または共分散行列)から固有値と固有ベクトルを計算し、主成分を抽出します。スクリープロットや累積寄与率を確認し、採用する主成分の数を決定します。累積寄与率が70〜80%に達する主成分数が一つの目安ですが、分析目的や可視化の要件(2次元プロットであれば2成分)に応じて判断してください。

    ステップ3: 主成分負荷量を解釈する

    各主成分と元の変数との相関係数(主成分負荷量)を確認し、主成分がどのような意味を持つかを解釈します。たとえば、第1主成分の負荷量が「売上高: 0.85」「従業員数: 0.80」「資本金: 0.78」であれば、この主成分は「企業規模」を表していると解釈できます。

    負荷量の絶対値が大きい変数ほど、その主成分への寄与が大きいことを意味します。ビジネス上の文脈に照らして、各主成分に意味のある名前を付けることが重要です。

    ステップ4: 主成分得点を活用する

    各データポイント(個体)について主成分得点を算出し、後続の分析に活用します。代表的な活用方法は以下の通りです。

    • 2次元散布図による可視化: 第1主成分と第2主成分を軸にデータをプロットし、全体の構造やグループの傾向を視覚的に把握する
    • クラスター分析の前処理: 多数の変数を主成分に集約してからクラスター分析を適用することで、ノイズを除去し、より安定したクラスタリング結果を得る
    • 回帰分析の多重共線性対策: 相関の高い説明変数群をPCAで集約し、独立な主成分を説明変数として回帰モデルに投入する(主成分回帰)

    活用場面

    • 顧客セグメンテーションの前処理: 数十項目の顧客属性データを少数の主成分に集約し、クラスター分析やターゲティングの精度を高めます
    • 財務分析・企業評価: 売上高、利益率、ROE、負債比率など多数の財務指標を「収益性」「安全性」「成長性」といった主成分に集約し、企業間の比較を容易にします
    • ブランドポジショニング: 消費者調査の多項目評価データを2〜3成分に集約し、ポジショニングマップを作成して競合との差別化要因を可視化します
    • 品質管理: 製造プロセスの多数のセンサーデータを主成分に集約し、異常検知や工程改善に活用します
    • アンケート分析: 多数の質問項目の回答パターンを主成分に集約し、回答者の類型化や質問項目の構造把握に利用します

    注意点

    標準化の判断を誤らない

    スケールの異なる変数を標準化せずにPCAを適用すると、分散の大きい変数に引きずられた主成分が得られます。原則として標準化を行いますが、全変数が同じ単位・同じスケールで測定されている場合(例: 同じ5段階尺度の複数項目)は、あえて共分散行列ベースのPCAを選択する場合もあります。分析前にスケールの確認を必ず行ってください。

    主成分の解釈は自明ではない

    PCAは数学的に最適な軸を算出しますが、その軸にビジネス上の意味があるかどうかは分析者の判断に委ねられます。負荷量のパターンから無理なく解釈できる場合もあれば、解釈が困難な主成分が出現する場合もあります。解釈が難しい主成分を無理に命名するよりも、「この主成分はデータの分散を説明するが明確な解釈は困難」と正直に報告する方が誠実です。

    非線形な構造には対応できない

    PCAは変数間の線形関係を前提とした手法であるため、データが非線形な構造を持つ場合は十分に機能しません。たとえば、データが円弧状や螺旋状に分布している場合、PCAでは適切な次元削減ができません。このような場合は、カーネルPCA、t-SNE、UMAPなどの非線形次元削減手法を検討してください。

    外れ値の影響に注意する

    PCAは分散を基準に主成分を算出するため、外れ値の影響を強く受けます。一つの極端なデータポイントが主成分の方向を大きく歪める可能性があります。分析前に外れ値の検出と処理(除外または変換)を行い、外れ値を含むデータと除外したデータの両方でPCAを実行して結果を比較することを推奨します。

    まとめ

    主成分分析は、多数の変数を少数の合成変数に集約し、データの本質的な構造を把握するための基本手法です。固有値と寄与率に基づいて主成分の採用数を決定し、負荷量の解釈を通じてビジネス上の意味を見出すことで、顧客分析、財務評価、ブランドポジショニングなど多様な場面で活用できます。標準化の徹底、解釈の慎重さ、非線形データへの限界の認識を持ちながら運用することで、データ分析の精度と効率を向上させることができます。

    参考資料

    • 主成分分析 - グロービス経営大学院(MBA用語集。主成分分析の基本概念とビジネスにおける活用を解説)
    • An Introduction to Statistical Learning - Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani(統計的学習の入門書。PCAを含む次元削減手法を数学的基礎から実装まで体系的に解説)
    • 主成分分析とは - NTTコム オンライン(主成分分析の概要、手順、ビジネスでの活用シーンを実務的な視点で解説)

    関連記事