バックドア攻撃(セキュリティ)

Backdoor Attack

バックドア攻撃とは

AIにおけるバックドア攻撃とは、モデルの訓練段階で秘密のトリガーパターンを埋め込み、そのトリガーが入力に含まれる場合にのみ不正な動作を引き起こす攻撃手法です。トリガーがない通常の入力に対しては正常に動作するため、検出が非常に困難です。

攻撃の手法

典型的な手法として、画像認識モデルの訓練データに特定のパッチ(小さな模様やステッカー)を付与した画像を誤ったラベルで追加する方法があります。訓練されたモデルは、そのパッチが入力に存在する場合にのみ攻撃者の意図したクラスに分類します。LLMに対するバックドア攻撃では、特定のキーワードやフレーズがトリガーとなり、有害な出力を生成させることが可能です。トリガーのステルス性を高めるため、自然な表現をトリガーとする手法も研究されています。

検出と防御

バックドア攻撃の検出手法として、ニューラルクレンジング(Neural Cleanse)やアクティベーション分析による異常パターンの検出があります。防御策として、訓練データのスキャンと浄化、ファインチューニングによるバックドアの除去、モデルのプルーニング(不要なニューロンの除去)が有効です。サードパーティモデルの使用時には特に、バックドアの有無を確認するための検証プロセスが不可欠です。