敵対的攻撃とは
敵対的攻撃(Adversarial Attack)とは、AIモデルの入力データに意図的に微小な改変を加えることで、モデルの判断を誤らせる攻撃手法の総称です。人間には知覚できないほど小さな変更でも、AIモデルの出力を大きく狂わせることが可能であり、AIシステムの安全性における重大な脅威となっています。
攻撃の分類
敵対的攻撃は、攻撃者がモデルの内部情報を知っているかどうかで分類されます。ホワイトボックス攻撃はモデルのアーキテクチャやパラメータを知った上で行う攻撃、ブラックボックス攻撃はモデルの入出力のみから行う攻撃です。また、すべてのクラスに誤分類させる非標的型攻撃と、特定のクラスに誤分類させる標的型攻撃にも分類されます。
現実世界での脅威
自動運転車の標識認識を誤らせる攻撃、顔認識システムを回避する攻撃、マルウェア検知を逃れる攻撃など、現実のシステムに対する脅威が実証されています。特にセキュリティや安全性が重要なシステムでは、敵対的攻撃への耐性が必須の要件となっています。
防御手法
敵対的攻撃に対する防御手法としては、敵対的訓練(Adversarial Training)、入力の前処理による摂動除去、モデルの蒸留、認証された防御(Certified Defense)などがあります。しかし、攻撃と防御のイタチごっこが続いており、完全な防御は依然として困難な課題です。