k-匿名性とは？わかりやすく解説

k-匿名性とは

k-匿名性（k-Anonymity）とは、データベース内の各レコードが、少なくともk-1個の他のレコードと同一の準識別子の値の組み合わせを持つように加工するプライバシー保護の手法です。これにより、特定の個人のレコードを少なくともk人の中から区別できなくなり、再識別のリスクを低減します。2002年にLatanya Sweeneyによって提案された概念で、匿名化技術の基本的なフレームワークとして広く認知されています。

実現手法と具体例

k-匿名性の実現には、汎化（Generalization）と秘匿化（Suppression）の2つの手法が用いられます。汎化では、データの精度を下げることでグループ化します。例えば、年齢「27」を「25-30」に、住所の「渋谷区」を「東京都」に置き換えます。秘匿化では、特定の値を非表示にします。kの値が大きいほどプライバシー保護は強くなりますが、データの有用性は低下するため、適切なバランスを見つけることが重要です。

限界と発展

k-匿名性には限界も知られています。同一グループ内のセンシティブ属性の値が全て同じ場合、個人の情報が推測されてしまう問題（同質性攻撃）があります。これに対処するため、l-多様性（各グループのセンシティブ属性に少なくともl種類の異なる値を確保）やt-近接性（センシティブ属性の分布が全体の分布に近い）などの発展的な概念が提案されています。実務では、差分プライバシーと組み合わせて利用されることも多いです。