訓練データ抽出

Training Data Extraction

訓練データ抽出とは

訓練データ抽出とは、AIモデル(特にLLM)から訓練に使用されたデータの具体的な内容を引き出す攻撃手法です。モデルが訓練データを「記憶」している現象を悪用し、個人情報、企業秘密、著作権で保護されたコンテンツなどを復元します。

LLMにおけるリスク

大規模言語モデルは膨大なテキストデータで訓練されており、その一部を記憶していることが多くの研究で示されています。特に、訓練データ内で繰り返し出現するテキスト(電話番号、メールアドレス、定型文など)は記憶されやすい傾向にあります。攻撃者は特定のプレフィックスを与えてモデルに続きを生成させたり、繰り返しクエリを送信したりすることで、記憶されたデータを引き出すことが可能です。

対策

訓練データ抽出への対策は多岐にわたります。訓練データの前処理段階で個人情報をマスキングまたは除去する「データサニタイゼーション」が基本です。差分プライバシーを適用した訓練により記憶化を抑制し、デュプリケーション(重複排除)により特定データの過学習を防ぎます。推論時には、出力内容が訓練データと高い類似度を持つ場合にフィルタリングする仕組みも有効です。定期的な監査により、記憶化のリスクを継続的に評価することが推奨されます。