敵対的サンプル

Adversarial Example

敵対的サンプルとは

敵対的サンプル(Adversarial Example)とは、AIモデルを騙すために意図的に作成された入力データのことです。元のデータに人間には判別困難な微小な摂動(ノイズ)を加えることで、AIモデルに誤った予測や分類を行わせます。2013年にSzegedyらによって初めて報告され、AI安全性研究の重要なテーマとなっています。

敵対的サンプルの特徴

敵対的サンプルの最も注目すべき特徴は、人間の知覚ではほぼ区別できない変更で、AIの判断を大きく変えられることです。例えば、パンダの画像にごく小さなノイズを加えるだけで、AIがそれをテナガザルと高い確信度で誤分類する有名な例があります。この脆弱性は、深層学習モデルの根本的な問題を示しています。

転移性の問題

敵対的サンプルの重要な性質として「転移性(Transferability)」があります。あるモデルに対して作成された敵対的サンプルが、別のモデルに対しても効果を発揮する場合があるのです。この性質により、モデルの内部構造を知らないブラックボックス攻撃も可能となっています。

対策と検出

敵対的サンプルの対策としては、敵対的訓練による堅牢性向上、入力データの統計的検定による検出、モデルアンサンブルの活用、防御的蒸留などがあります。また、人間の判断を組み合わせたハイブリッドシステムの構築も有効な対策とされています。