📈データ分析・定量スキル

ベンフォードの法則分析とは?数値データの不正・異常検出手法を解説

ベンフォードの法則分析は、数値データの先頭桁の分布パターンから不正や異常を検出する手法です。法則の原理、分析手順、適用条件、注意点を体系的に解説します。

#ベンフォードの法則#不正検出#異常検知#データ監査

    ベンフォードの法則分析とは

    ベンフォードの法則(Benford’s Law)は、自然発生的な数値データの先頭桁が均等に分布するのではなく、1が最も多く約30.1%を占め、数字が大きくなるほど出現頻度が下がるという法則です。1938年に物理学者フランク・ベンフォードが多数のデータセットで検証し、発表しました。

    この法則を利用したベンフォード分析は、会計データや財務データの先頭桁分布を調べ、理論値からの乖離が大きい箇所を「異常」として検出する手法です。法定監査やフォレンジック会計で広く活用されています。

    構成要素

    ベンフォードの法則による先頭桁の理論的分布は以下の通りです。

    先頭桁出現確率
    130.1%
    217.6%
    312.5%
    49.7%
    57.9%
    66.7%
    75.8%
    85.1%
    94.6%

    この分布は対数則に従い、P(d) = log10(1 + 1/d) の式で表されます。

    ベンフォードの法則 - 先頭桁の理論分布

    実践的な使い方

    ステップ1: 分析対象のデータを選定する

    売上データ、経費精算データ、仕訳データなど、自然発生的で桁数に幅があるデータを選びます。固定値(従業員番号など)は対象外です。

    ステップ2: 先頭桁の分布を集計する

    データの各数値から先頭桁を抽出し、1〜9の出現頻度をカウントします。Excelやスプレッドシートで簡単に実行可能です。

    ステップ3: 理論値との乖離を検定する

    集計した分布をベンフォードの理論値と比較します。カイ二乗検定やZ検定を用いて、統計的に有意な乖離があるかを判定します。

    ステップ4: 乖離の大きい先頭桁を深掘りする

    理論値から大きく外れている先頭桁の取引を抽出し、個別に内容を精査します。乖離が不正を示すとは限らず、業務上の合理的な理由がある場合もあります。

    活用場面

    • 会計監査: 仕訳データの先頭桁分布を検査し、不正仕訳の候補を絞り込む
    • 経費精算チェック: 承認閾値直下に集中する申請の検出
    • 税務調査: 申告データの信頼性を統計的に評価する
    • 選挙データ分析: 得票数の分布パターンから異常を検出する
    • データ品質管理: データ入力の誤りやシステムエラーの検出

    注意点

    すべてのデータに適用できるわけではない

    ベンフォードの法則が成立するのは、複数桁にまたがる自然発生的なデータに限られます。電話番号、郵便番号、人為的に設定された価格帯のデータには適用できません。

    乖離=不正とは限らない

    統計的な乖離は「調査すべきシグナル」であり、それだけで不正の証拠にはなりません。乖離の原因として業務上の合理的な説明がないかを必ず確認します。

    サンプルサイズが小さいと精度が落ちる

    一般的に1,000件以上のデータが必要とされます。サンプルが少ないと、偶然による乖離と異常による乖離の区別がつきにくくなります。

    まとめ

    ベンフォードの法則分析は、大量の数値データから異常や不正の候補を効率的にスクリーニングできる強力な手法です。統計的な検定と組み合わせることで客観的な根拠を示せる点が強みです。ただし法則の適用条件を正しく理解し、乖離を発見した後の詳細調査と合わせて活用することが不可欠です。

    参考資料

    関連記事