敵対的攻撃とは？わかりやすく解説

敵対的攻撃とは

敵対的攻撃（Adversarial Attack）とは、AIモデルの入力データに意図的に微小な改変を加えることで、モデルの判断を誤らせる攻撃手法の総称です。人間には知覚できないほど小さな変更でも、AIモデルの出力を大きく狂わせることが可能であり、AIシステムの安全性における重大な脅威となっています。

攻撃の分類

敵対的攻撃は、攻撃者がモデルの内部情報を知っているかどうかで分類されます。ホワイトボックス攻撃はモデルのアーキテクチャやパラメータを知った上で行う攻撃、ブラックボックス攻撃はモデルの入出力のみから行う攻撃です。また、すべてのクラスに誤分類させる非標的型攻撃と、特定のクラスに誤分類させる標的型攻撃にも分類されます。

現実世界での脅威

自動運転車の標識認識を誤らせる攻撃、顔認識システムを回避する攻撃、マルウェア検知を逃れる攻撃など、現実のシステムに対する脅威が実証されています。特にセキュリティや安全性が重要なシステムでは、敵対的攻撃への耐性が必須の要件となっています。

防御手法

敵対的攻撃に対する防御手法としては、敵対的訓練（Adversarial Training）、入力の前処理による摂動除去、モデルの蒸留、認証された防御（Certified Defense）などがあります。しかし、攻撃と防御のイタチごっこが続いており、完全な防御は依然として困難な課題です。