データ重複排除とは？名寄せとレコード統合の実践手法

データ重複排除とは

曖昧一致マッチングで用いられるレーベンシュタイン距離は、1965年にロシアの数学者ウラジーミル・レーベンシュタイン（Vladimir Levenshtein）が提案した文字列間の距離尺度です。また、ジャロ・ウィンクラー距離はマシュー・ジャロ（Matthew Jaro）が1989年に提案し、ウィリアム・ウィンクラー（William Winkler）が1990年に改良した指標で、特に人名の照合に優れた性能を発揮します。

データ重複排除（Data Deduplication）とは、データベースやデータセット内に存在する同一エンティティの複数レコードを検出し、1つの正確なレコードに統合する処理です。「名寄せ」や「レコードリンケージ」とも呼ばれ、マスターデータ管理（MDM）の中核プロセスです。

コンサルティングの現場では、顧客データベースの重複が深刻な問題を引き起こすケースが多くあります。同一顧客が異なるIDで複数登録されているため、正確な顧客数が把握できない、DMが二重に送付される、顧客単位の売上集計が過少になるといった問題です。M&Aによるシステム統合や、複数チャネルからのデータ統合時に特に顕在化します。

データ重複排除は、データの一意性を確保し、分析やオペレーションの精度を担保するための基本的な品質管理手法です。

構成要素

重複の種類

種類	特徴	例
完全一致重複	すべてのフィールドが一致	二重インポートによる全く同じレコード
部分一致重複	一部のフィールドのみ一致	住所は同じだが電話番号が異なる
表記揺れ重複	同一エンティティの異なる表記	「（株）ABC」と「株式会社ABC」
時系列重複	同一エンティティの異なる時点の情報	旧住所と新住所の両方が存在

マッチング手法

完全一致マッチングは、キーとなるフィールドの値が完全に一致するレコードを検出します。処理が高速で確実ですが、表記揺れには対応できません。

曖昧一致マッチングは、文字列の類似度を計算して、一定の閾値以上のレコードを重複候補として検出します。レーベンシュタイン距離、ジャロ・ウィンクラー距離、コサイン類似度などのアルゴリズムが用いられます。

ルールベースマッチングは、ビジネスルールに基づいて重複を判定します。「同一電話番号かつ同一姓の場合は重複とみなす」といった複合条件を設定します。

統合ルール（サバイバーシップルール）

重複レコードを統合する際に、どのレコードの値を残すかを決めるルールです。「最新の値を採用する」「最も完全な値を採用する」「特定のソースシステムを優先する」など、フィールドごとに統合ルールを定義します。

実践的な使い方

ステップ1: 重複の実態を把握する

対象データセットに対してプロファイリングを実施し、重複の規模感を把握します。キーとなるフィールド（氏名、住所、電話番号、メールアドレスなど）の組み合わせで、完全一致の重複件数を集計します。重複率が全体の何%かを確認し、対処の優先度を判断します。

ステップ2: マッチングルールを設計する

重複の種類とデータの特性に応じて、マッチングルールを設計します。まず完全一致マッチングで明確な重複を処理し、次に曖昧一致マッチングで表記揺れ重複に対処する段階的アプローチが効果的です。閾値の設定は、精度（Precision）と再現率（Recall）のバランスを考慮して決めます。

ステップ3: マッチング結果をレビューする

自動マッチングの結果をサンプルベースで人間がレビューし、誤マッチング（False Positive）と見逃し（False Negative）の発生状況を確認します。誤マッチングが多い場合は閾値を引き上げ、見逃しが多い場合は引き下げるか、マッチング条件を追加します。

ステップ4: 統合処理を実行する

確定した重複ペアに対して、サバイバーシップルールに基づいてレコードを統合します。統合元のレコードは物理削除せず、論理削除（フラグ立て）として残し、統合先レコードへのマッピングを保持します。

活用場面

顧客マスタの名寄せと統合
M&Aに伴うデータ統合
マーケティングリストの重複排除
サプライヤーマスタの統合
医療機関における患者データの統合
行政データのマッチング

注意点

閾値設定と同姓同名の誤判定リスク

曖昧一致マッチングの閾値設定は慎重に行う必要があります。閾値が低すぎると別人を同一人物と誤判定し、高すぎると重複を見逃します。特に「山田太郎」のような一般的な氏名は、同姓同名の別人が多いため、氏名だけでのマッチングは危険です。複数の属性（住所、電話番号、生年月日など）を組み合わせた複合条件を設定してください。

統合処理の不可逆性への対処

統合処理は不可逆な操作になりやすいため、必ず元データのバックアップを取得してから実行します。また、統合の判断は機械的に行うだけでなく、高リスクなケースは業務担当者によるレビューを挟みます。論理削除とマッピングの保持を原則とし、物理削除は慎重に判断してください。

まとめ

データ重複排除は、データの一意性と正確性を確保するための基本手法です。完全一致と曖昧一致の検出を段階的に進め、ビジネスルールに基づく統合ルールを適用することで、信頼性の高いマスターデータを構築できます。

データ重複排除とは？名寄せとレコード統合の実践手法