差分プライバシーとは?数学的に個人情報保護を保証する分析手法
差分プライバシーは、データ分析の結果にノイズを加えることで、個人のデータが含まれるかどうかを推測不能にする数学的プライバシー保護手法です。基本原理、ε値の設計、活用事例を解説します。
差分プライバシーとは
差分プライバシー(Differential Privacy)は、Cynthia Dworkが2006年の論文「Calibrating Noise to Sensitivity」で提唱した数学的概念です。「あるデータセットに特定の個人のデータが含まれていてもいなくても、分析結果がほとんど変わらない」ことを数学的に保証します。Apple、Google、米国国勢調査局が実運用で採用しており、現在最も理論的基盤の確立したプライバシー保護技術とされています。
差分プライバシーとは、データ分析の結果にランダムなノイズを付加することで、個々のレコードがデータセットに含まれるかどうかを第三者が推測できないようにする数学的手法です。
従来のデータ匿名化(k-匿名性、l-多様性など)は、補助情報との結合による再識別攻撃に対して脆弱であることが指摘されています。差分プライバシーは、攻撃者がどのような補助情報を持っていても、個人のプライバシーが一定の水準で保護されることを数学的に保証する点で画期的です。
構成要素
ε(イプシロン)パラメータ
差分プライバシーの強度を制御するパラメータで、プライバシーバジェットと呼ばれます。
| ε値 | プライバシー | データ有用性 | 用途 |
|---|---|---|---|
| 0.1以下 | 非常に強い | 低い | 高機密データ |
| 0.1〜1.0 | 強い | 中程度 | 一般的な分析 |
| 1.0〜10 | 中程度 | 高い | 集計統計 |
εが小さいほどノイズが大きくなり、プライバシー保護は強くなりますが、分析結果の精度は低下します。
ノイズ付加メカニズム
- ラプラスメカニズム: 数値クエリに対してラプラス分布のノイズを付加する
- ガウスメカニズム: ガウス分布のノイズを使用し、δ-近似差分プライバシーを実現する
- 指数メカニズム: 非数値の出力に対して確率的に最適な回答を選択する
ローカル差分プライバシーと中央差分プライバシー
ローカルモデルでは各個人がデータ送信前にノイズを付加します。中央モデルでは信頼できるデータ管理者が集計段階でノイズを付加します。ローカルモデルはデータ管理者を信頼する必要がない一方、精度が低下する傾向があります。
実践的な使い方
ステップ1: プライバシー要件を定義する
保護すべきデータの機密度と、分析結果に求められる精度を明確にします。この要件に基づいてε値の上限(プライバシーバジェット)を設定します。
ステップ2: 感度を計算する
分析クエリの感度(1レコードの追加・削除が結果に与える最大変化量)を計算します。感度が高いクエリほど、大きなノイズが必要になります。
ステップ3: ノイズメカニズムを選択・適用する
クエリの種類に応じたノイズメカニズムを選択し、ε値と感度に基づいてノイズの大きさを決定します。カウント、合計、平均などの集計関数に対して適用します。
ステップ4: プライバシーバジェットを管理する
同一データセットへの複数のクエリは、プライバシーバジェットを消費します(合成定理)。バジェットの残量を追跡し、枯渇する前に分析を終了する管理の仕組みを設計します。
活用場面
- 国勢調査データの公開(米国Census Bureau)
- モバイルデバイスの利用統計収集(Apple、Google)
- 医療データの研究目的での共有
- 位置情報データの集計・分析
- 機械学習モデルの学習データ保護
注意点
ε値の設定に客観的な正解はない
ε値の選択は、プライバシーとデータ有用性のトレードオフであり、技術的に「正しい値」は存在しません。組織のリスク許容度、データの機密度、利用目的を総合的に考慮して判断する必要があります。εの設定根拠を明文化し、ステークホルダーの合意を得るプロセスが不可欠です。
小さなデータセットでは有用性が著しく低下する
差分プライバシーはデータ件数が多いほど有効です。サンプルサイズが小さい場合、ノイズが本来の統計量を圧倒し、分析結果が無意味になる可能性があります。適用前にデータ量と求められる精度の関係を検証してください。
まとめ
差分プライバシーは、分析結果にランダムノイズを付加することで、個人のプライバシーを数学的に保証する手法です。ε値の適切な設定とプライバシーバジェットの管理を通じて、データの有用性とプライバシー保護のバランスを取りながら、安全なデータ分析基盤を構築できます。