敵対的サンプル(CV)

Adversarial Examples in Computer Vision

敵対的サンプル(CV)とは

敵対的サンプル(Adversarial Examples)とは、人間には知覚できない微小な摂動(ノイズ)を画像に加えることで、画像認識モデルを意図的に誤分類させる入力画像のことです。2013年にSzegedyらによって発見され、深層学習モデルの脆弱性として大きな注目を集めています。

敵対的サンプルの生成手法

代表的な敵対的攻撃手法には以下のものがあります。FGSM(Fast Gradient Sign Method)は勾配の符号方向に1ステップで摂動を加える高速な手法です。PGD(Projected Gradient Descent)はFGSMを反復的に適用し、より強力な攻撃を生成します。C&W攻撃は最適化問題として定式化し、最小の摂動で誤分類を引き起こします。物理世界で適用可能なパッチ攻撃(Adversarial Patch)もあり、特定のパターンを印刷して対象物に貼り付けるだけで認識を妨害できます。

防御手法と重要性

敵対的サンプルへの防御手法としては、敵対的訓練(Adversarial Training:敵対的サンプルを学習データに含める)、入力変換による防御(JPEG圧縮、ランダムリサイズ)、検出ベースの防御(敵対的入力を検出して拒否)などがあります。自動運転や医療AIなどの安全性が求められる分野では、敵対的サンプルへの耐性はモデルの信頼性に直結する重要な課題です。