汚染攻撃(Poisoning Attack)とは？わかりやすく解説

汚染攻撃とは

汚染攻撃とは、AIモデルの訓練データに悪意のあるデータを混入させ、モデルの学習結果を攻撃者の意図した方向に歪める攻撃手法です。データ中心のAI開発が進む中、訓練データの信頼性を脅かす深刻な攻撃として注目されています。

攻撃の種類

汚染攻撃には複数の種類があります。可用性攻撃は、モデル全体の精度を低下させることを目的とします。標的攻撃は、特定の入力に対してのみ誤った予測を行わせるものです。バックドア攻撃は、特定のトリガーが存在する場合にのみ不正な動作を引き起こすよう仕込みます。LLMの場合、ファインチューニング用データの汚染により、特定のトピックに対するバイアスの注入や安全機能の劣化を引き起こす攻撃が報告されています。

防御策

汚染攻撃への防御は、データ品質管理が根幹です。訓練データの出所の検証、異常値検出、データの統計的分析によって汚染データの混入を検出します。堅牢な学習アルゴリズム（外れ値に対して頑健な損失関数の使用）や、データ検証パイプラインの構築も有効です。また、サプライチェーンの管理を徹底し、信頼できるソースからのデータのみを使用することが推奨されます。

汚染攻撃とは

攻撃の種類

防御策

関連用語