データ再構築攻撃

Data Reconstruction Attack

データ再構築攻撃とは

データ再構築攻撃とは、AIモデルの出力やパラメータから、訓練に使用された個別のデータポイントを高精度に復元しようとする攻撃手法です。モデル反転攻撃が平均的な特徴の再構成を目指すのに対し、データ再構築攻撃は特定の訓練サンプルの詳細な復元を試みます。

攻撃の手法

データ再構築攻撃の代表的な手法は、勾配からの再構築です。連合学習においてクライアントが共有する勾配情報から、元の訓練データを逆算する「勾配反転攻撃」が知られています。また、過度に記憶力の高いモデル(過学習モデル)から訓練データを抽出する「記憶化攻撃」や、LLMに対して特定のプロンプトで訓練データの一部を再現させる手法も報告されています。

防御策

データ再構築攻撃への対策として、差分プライバシーの適用が有効です。勾配にノイズを追加する差分プライバシーSGD(DP-SGD)は、勾配反転攻撃を困難にします。勾配の圧縮やスパース化による共有情報の削減、秘密計算技術(セキュアアグリゲーション)の活用も連合学習における防御手段です。モデルの記憶化を抑制するための正則化や、データの重複排除処理も推奨されます。