データポイズニング

Data Poisoning

データポイズニングとは

データポイズニングとは、機械学習モデルの学習データに悪意のあるデータを混入させ、モデルの性能を低下させたり、意図的な誤動作を引き起こしたりする攻撃手法のことです。AIセキュリティにおける深刻な脅威の一つであり、データガバナンスの観点からは、学習データの完全性(Integrity)を確保する重要性を示す概念です。

攻撃の種類

データポイズニングには大きく2つの種類があります。可用性攻撃(Availability Attack)は、モデル全体の精度を低下させることを目的とし、ノイズや誤ったラベルのデータを大量に混入させます。バックドア攻撃(Backdoor Attack)は、特定のトリガー(パターン)が入力に含まれる場合にのみ誤った予測をさせることを目的とし、通常のテストデータでは検出が困難です。例えば、画像認識モデルに特定のパッチが含まれる画像を誤分類させるよう学習させます。

防御策とデータガバナンス

データポイズニングへの防御策として、データの出所と品質の検証、異常検出アルゴリズムによるポイズニングデータの検出、ロバストな学習アルゴリズムの使用(外れ値に頑健な損失関数等)、データのサニタイズ(クリーニング)などがあります。ガバナンスの観点では、データサプライチェーンの管理、データの来歴追跡(リネージ)、定期的なモデルの挙動監視、インシデント対応プロセスの整備が重要です。信頼できないソースからのデータの利用には特に注意が必要です。