回避攻撃とは
回避攻撃とは、AIモデルの推論時に、人間には知覚できない微小な摂動を入力に加えることで、モデルの判定結果を意図的に誤らせる攻撃手法です。敵対的サンプル(Adversarial Example)を用いた攻撃として最もよく研究されています。
攻撃の手法
代表的な攻撃手法として、FGSM(Fast Gradient Sign Method)、PGD(Projected Gradient Descent)、C&W攻撃などがあります。これらは勾配情報を利用して最小限の摂動で誤分類を引き起こす入力を生成します。ブラックボックス環境では、代替モデルを用いた転送攻撃や、クエリベースの攻撃(モデルの出力を観察しながら摂動を最適化)が用いられます。画像に限らず、テキスト、音声、表形式データに対する回避攻撃も研究されています。
防御手法
回避攻撃への防御は、敵対的訓練(訓練時に敵対的サンプルを含めてモデルの堅牢性を向上)が最も実績のある手法です。入力の前処理(ノイズ除去、画像圧縮)、ランダム化(推論時のランダムな変換の適用)、検出ベースの手法(敵対的サンプルを検出して拒否)、認証防御(一定範囲の摂動に対する正確性を数学的に保証)など、多様なアプローチが提案されています。