メンバーシップ推定(セキュリティ)

Membership Inference Attack

メンバーシップ推定とは

メンバーシップ推定攻撃とは、特定のデータポイントがAIモデルの訓練データに含まれていたかどうかを判定する攻撃手法です。プライバシー攻撃の一種であり、訓練データに個人情報が含まれる場合、その個人のプライバシーを侵害する可能性があります。

攻撃の原理

機械学習モデルは、訓練データに対して訓練されていないデータよりも高い確信度(confidence)で予測を行う傾向があります。この過学習の性質を利用し、ターゲットデータに対するモデルの出力(確信度スコア、損失値など)を分析することで、そのデータが訓練に使用されたかどうかを推定します。攻撃者はシャドウモデル(類似のモデルを自ら訓練)を用いて攻撃の精度を向上させることもあります。

影響と対策

メンバーシップ推定が成功すると、医療データや金融データなど、訓練データに含まれる個人の存在が特定され、プライバシー侵害につながります。対策として、差分プライバシーの適用(訓練時にノイズを追加して個別データの影響を制限)、正則化による過学習の抑制、出力の確信度スコアの丸め処理、知識蒸留によるモデルの一般化が有効です。