属性推定攻撃とは
属性推定攻撃とは、AIモデルの出力から、訓練データに含まれる個人の非公開属性(年齢、性別、健康状態、収入など)を推測する攻撃手法です。データの一部の属性を知っている攻撃者が、モデルを利用して未知の属性を推定するプライバシー攻撃です。
攻撃の仕組み
攻撃者は、ターゲットの既知の属性情報をモデルに入力し、その応答を分析することで未知の属性を推定します。例えば、レコメンデーションモデルに対してユーザーの購買履歴の一部を入力し、推薦結果のパターンから健康状態や政治的嗜好を推測できる場合があります。LLMの場合、ファインチューニングに使用されたデータに含まれる個人の属性情報が、特定のプロンプトによって引き出される可能性があります。
対策
属性推定攻撃への対策は、訓練データの匿名化と最小化が基本です。不必要な個人属性を訓練データから除去し、差分プライバシーを適用して個別データの影響を制限します。また、モデルの出力から推測可能な属性の範囲を事前に評価し、リスクの高い属性に関する情報漏洩を防ぐための追加のプライバシー保護措置を講じることが重要です。公平性の観点からの監査も、属性推定リスクの発見に有効です。