バックドア攻撃とは
バックドア攻撃(Backdoor Attack)とは、AIモデルに隠された不正な動作を埋め込む攻撃手法です。通常の入力に対しては正常に動作しながら、特定のトリガー(引き金)を含む入力に対してのみ攻撃者が意図した誤った出力を返すようモデルを改変します。バックドアは訓練段階で仕込まれるため、通常のテストでは検出が困難です。
攻撃のメカニズム
バックドア攻撃は主にデータ汚染を通じて実行されます。攻撃者は訓練データの一部に特定のトリガーパターン(特定のピクセルパターン、特定の単語やフレーズなど)を追加し、そのサンプルのラベルを攻撃者が望む分類先に変更します。モデルはこのパターンとラベルの対応を学習し、推論時にトリガーが含まれる入力に対して不正な分類を行います。
脅威の深刻さ
バックドア攻撃が特に危険な理由は、その隠密性にあります。バックドアが仕込まれたモデルは、通常のベンチマークテストでは正常な精度を示すため、標準的な評価プロセスでは検出できません。サプライチェーン攻撃(事前学習済みモデルの配布を通じたバックドアの拡散)のリスクも指摘されています。
検出と防御
バックドア検出手法としては、ニューラルクレンズ(Neural Cleanse)、スペクトル分析、STRIP(STRong Intentional Perturbation)、メタ分類器を用いた検出などが研究されています。防御手法としては、訓練データの検証、ファインチューニングによるバックドアの除去、知識蒸留によるクリーンモデルの抽出、プルーニング(不要なニューロンの除去)などが提案されています。