📈データ分析・定量スキル

最尤推定とは?尤度関数の仕組みからビジネス応用まで分かりやすく解説

最尤推定(MLE)はデータが得られる確率を最大化するパラメータを求める統計手法です。尤度関数の考え方、対数尤度、情報量基準との関係、ビジネスでの活用場面と注意点を解説します。

#最尤推定#統計推定#尤度関数#パラメータ推定#データ分析

    最尤推定とは

    最尤推定(MLE: Maximum Likelihood Estimation)とは、観測されたデータが得られる確率(尤度)を最大にするパラメータの値を推定する手法です。「このデータが観測される可能性が最も高いのは、パラメータがいくつのときか」という問いに答えます。

    たとえば、コイン投げを10回行って7回表が出たとき、「このコインの表が出る確率はいくつか」を推定する場合、尤度を最大にする値は0.7です。これが最尤推定量です。

    最尤推定は回帰分析、ロジスティック回帰、生存分析、混合モデルなど、多くの統計モデルのパラメータ推定に使われる基礎的な方法です。コンサルティングの現場で使われる多くの分析手法の裏側で、この原理が機能しています。

    最尤推定の基本概念は、1922年にロナルド・A・フィッシャー(Ronald A. Fisher)によって体系化されました。フィッシャーは尤度関数の概念を明確に定義し、最尤推定量の漸近的な性質(一致性、漸近正規性、漸近有効性)を証明しました。現代の統計学における推定理論の基盤を築いた業績です。

    最尤推定(MLE)の基本構造

    構成要素

    尤度関数

    尤度関数L(θ)は、パラメータθを変数として、観測データが得られる確率を表す関数です。確率関数がパラメータを固定してデータの確率を見るのに対し、尤度関数はデータを固定してパラメータの確からしさを見ます。

    概念固定するもの変動するもの問い
    確率パラメータθデータxθのもとでxが出る確率は
    尤度データxパラメータθxが観測されたとき最適なθは

    対数尤度関数

    尤度関数はデータ点ごとの確率の積になるため、数値が極端に小さくなります。対数を取ることで積が和に変換され、計算が安定します。最尤推定量は尤度を最大化しても対数尤度を最大化しても同じ値になります。

    最尤推定量の性質

    最尤推定量には理論的に優れた性質があります。

    • 一致性: サンプルサイズが大きくなると真のパラメータに収束します
    • 漸近正規性: 十分なサンプルサイズで正規分布に近似できます
    • 漸近有効性: 大標本で最小分散の推定量になります

    ただしこれらは大標本での漸近的な性質であり、小標本では保証されません。

    情報量基準との関係

    最尤推定値を基にしたモデル比較の指標として、AIC(赤池情報量基準)やBIC(ベイズ情報量基準)があります。

    • AIC = -2 × 対数尤度 + 2 × パラメータ数
    • BIC = -2 × 対数尤度 + log(n) × パラメータ数

    これらはモデルの適合度とパラメータ数のバランスを評価し、過学習を防ぎます。

    実践的な使い方

    ステップ1: 確率モデルを設定する

    データの生成過程を仮定し、確率分布を選びます。たとえばコンバージョンの有無なら二項分布、待ち時間なら指数分布、連続量なら正規分布を仮定します。

    ステップ2: 尤度関数を構成する

    選んだ確率分布の確率関数にデータを代入し、パラメータの関数として尤度関数を構成します。独立なデータの場合は各データ点の確率の積になります。

    ステップ3: 対数尤度を最大化する

    対数尤度関数をパラメータで微分してゼロとおき、解析的に解くか、数値最適化アルゴリズム(ニュートン法、勾配降下法など)で最大化します。

    ステップ4: 推定量の精度を評価する

    フィッシャー情報量から推定量の標準誤差を算出し、信頼区間を構成します。尤度比検定やワルド検定でパラメータの有意性を評価できます。

    ステップ5: モデルを選択し報告する

    複数のモデルを比較する場合はAICやBICを用いて最適なモデルを選びます。推定値、標準誤差、信頼区間をセットで報告します。

    活用場面

    • ロジスティック回帰: 顧客の購買確率やチャーン予測で使われるロジスティック回帰の係数推定はMLEに基づきます
    • 生存分析: 顧客の離脱までの期間やサービス寿命を推定するパラメトリック生存モデルのパラメータ推定に使います
    • 混合モデル: 顧客を複数のセグメントに確率的に分類するガウス混合モデルのパラメータ推定に使います
    • 時系列モデル: ARIMA等の時系列モデルのパラメータ推定に最尤法が使われます
    • A/Bテストの分析: コンバージョン率の推定は、二項分布の最尤推定に基づいています

    注意点

    最尤推定の結果は、仮定する確率分布(モデル)の選択に強く依存します。分布の仮定が実際のデータ生成過程と大きく異なる場合、推定結果は不正確になります。残差分析やモデル診断で仮定の妥当性を必ず確認してください。

    局所最適に陥る可能性がある

    尤度関数が複数の極大値を持つ場合、数値最適化が局所最適に収束する可能性があります。初期値を変えて複数回最適化を実行し、最も尤度の高い解を選ぶことが重要です。

    小標本では偏りが生じうる

    最尤推定量は大標本で優れた性質を持ちますが、小標本では偏り(バイアス)が生じることがあります。分散の推定では自由度で割る補正が知られていますが、複雑なモデルでは補正が難しい場合もあります。

    モデルの仮定が重要

    最尤推定はモデル(確率分布)の仮定に強く依存します。仮定した分布がデータの生成過程と大きく異なる場合、推定結果は不正確になります。残差分析やモデル診断で仮定の妥当性を確認します。

    ベイズ推定との違いを理解する

    最尤推定はパラメータの事前知識を組み込みません。事前情報がある場合はベイズ推定の方が適切です。データが少ない場面では、事前分布による正則化効果が有効に働きます。

    まとめ

    最尤推定は、データが得られる確率を最大化するパラメータを求める統計推定の基本原理です。回帰分析、分類モデル、時系列分析など多くの手法の基盤として機能しています。尤度関数の構成、対数尤度による計算の安定化、情報量基準によるモデル選択という一連の流れを理解することで、統計モデルの結果をより深く解釈できるようになります。

    関連記事