データ汚染とは
データ汚染(Data Poisoning)とは、AIモデルの訓練データに意図的に不正なデータを混入させることで、モデルの動作を操作する攻撃手法です。訓練フェーズを標的とする攻撃であり、汚染されたデータで学習したモデルは、特定の入力に対して攻撃者が意図した誤った出力を返すようになります。
汚染の手法
データ汚染には複数の手法があります。ラベル反転攻撃は正解ラベルを意図的に書き換えます。クリーンラベル攻撃は正しいラベルを維持しながら、データの特徴量を巧妙に改変します。バックドア攻撃は特定のトリガーを含むデータを挿入し、モデルに隠しパターンを学習させます。Web上のクロールデータを利用するLLMでは、大規模なデータ汚染が特に懸念されています。
具体的な脅威
スパムフィルターの訓練データを汚染してスパムメールを通過させる、マルウェア検知システムを汚染して特定のマルウェアを検出不能にする、自動運転の学習データを汚染して特定の標識を誤認識させるなど、様々な脅威シナリオが研究されています。大規模言語モデルに対しても、偏った情報や有害なコンテンツを学習させるデータ汚染が問題視されています。
防御手法
データ汚染への防御としては、訓練データの品質管理と検証、外れ値検出による汚染データの特定、データの来歴(プロヴナンス)の追跡、堅牢な学習アルゴリズムの使用、モデル出力の定期的な監査などが提案されています。特にオープンなデータソースを利用する場合は、データの信頼性の検証が重要です。