AIセキュリティ

AI Security

法律・倫理・社会重要度：高

概要

AIセキュリティ（AI Security）とは、AIシステムに対する攻撃手法とその防御技術に関する研究分野です。AIモデルは高い性能を発揮する一方で、意図的に設計された入力（敵対的サンプル）によって誤った判断を行うなど、独自の脆弱性を持っています。

自動運転、医療診断、顔認証など安全性が求められるシステムでAIが活用される中、AIセキュリティの重要性はますます高まっています。G検定では、敵対的サンプル（Adversarial Examples）の概念と代表的な攻撃手法、およびそれに対する防御手法の理解が求められます。

詳細解説

敵対的サンプル（Adversarial Examples）

敵対的サンプルとは、人間には知覚できないほどの微小な摂動（ノイズ）を入力データに加えることで、AIモデルに誤った判断をさせる入力データのことです。2013年にSzegedyらによって初めて報告されました。

例えば、パンダの画像に人間の目には見えないような微小なノイズを加えるだけで、ディープラーニングモデルがその画像を「テナガザル」と高い確信度で誤分類してしまう事例が知られています。この現象はディープラーニングモデルの根本的な脆弱性を示しており、AIの安全性に関する重要な研究テーマとなっています。

敵対的攻撃の手法

FGSM（Fast Gradient Sign Method）

FGSMは、2014年にGoodfellowらが提案した敵対的サンプル生成手法です。損失関数の勾配の符号（sign）を利用して、損失が増大する方向に入力データを摂動させます。計算が非常に効率的であり、1回の勾配計算で敵対的サンプルを生成できるため、攻撃手法の基本として広く知られています。

PGD（Projected Gradient Descent）

PGDはFGSMを反復的に適用する手法です。各ステップで小さな摂動を加え、許容範囲内にクリッピング（射影）することを繰り返します。FGSMよりも強力な敵対的サンプルを生成でき、防御手法の評価基準としても使用されています。

C&W攻撃（Carlini & Wagner Attack）

最適化ベースの攻撃手法であり、最小限の摂動で誤分類を引き起こす敵対的サンプルを生成します。多くの防御手法を突破できる強力な攻撃として知られています。

物理的な敵対的攻撃

デジタル画像だけでなく、物理世界においても敵対的攻撃が可能であることが示されています。例えば、道路標識にステッカーを貼ることで、自動運転車の画像認識AIが標識を誤認識するという研究報告があります。このような物理的な攻撃は、実社会での安全性に直接関わる深刻な脅威です。

データポイズニング

データポイズニング（Data Poisoning）は、AIモデルの学習データに悪意のあるデータを混入させることで、モデルの性能を劣化させたり、特定の入力に対して誤った出力を行わせたりする攻撃手法です。

汚染攻撃：学習データにノイズや誤ったラベルを混入させ、モデルの全体的な性能を低下させる攻撃です。
バックドア攻撃：学習データに特定のトリガー（パターン）を含むサンプルを混入させ、推論時にトリガーが存在する入力に対してのみ特定の誤った出力を行わせる攻撃です。通常の入力に対しては正常に動作するため、検出が困難です。

モデル盗用（Model Stealing / Model Extraction）

モデル盗用とは、公開されたAPIを通じてモデルに大量のクエリを送り、その入出力関係から元のモデルの振る舞いを模倣する代替モデルを構築する攻撃です。知的財産の侵害に加え、盗用されたモデルの分析から脆弱性を発見し、さらなる攻撃に利用される二次的なリスクもあります。

防御手法

敵対的学習（Adversarial Training）

最も広く研究されている防御手法のひとつです。学習時に敵対的サンプルを生成し、通常のデータとともにモデルに学習させることで、敵対的サンプルに対する頑健性（ロバスト性）を向上させます。Madryらが提案したPGDベースの敵対的学習が代表的です。ただし、計算コストが大きく、通常データに対する精度が低下するトレードオフがあります。

入力前処理

推論時に入力データを前処理することで、敵対的な摂動を除去する手法です。画像の圧縮（JPEG圧縮）、ぼかし処理、ノイズ除去などが検討されていますが、適応的な攻撃に対しては効果が限定的な場合があります。

検出手法

入力データが敵対的サンプルであるかどうかを検出するアプローチです。統計的な手法や、別のニューラルネットワークを用いた検出モデルなどが提案されています。

モデルの頑健性評価

AIモデルのセキュリティを評価するために、さまざまな攻撃手法に対するロバスト性を体系的にテストするフレームワークが開発されています。IBM ART（Adversarial Robustness Toolbox）などのツールが公開されています。

歴史・背景

敵対的サンプルの存在は2013年にSzegedyらによって初めて報告されました。その後、2014年にGoodfellowらがFGSMを提案し、敵対的攻撃の研究が本格的に始まりました。

2017年頃からは物理的な敵対的攻撃の研究も活発化し、道路標識への攻撃、顔認証の回避、音声認識への攻撃など、現実世界での脅威が具体的に示されるようになりました。

AIの社会実装が進むにつれ、AIセキュリティは学術研究だけでなく、産業界においても重要な課題として認識されるようになっています。NISTやEUのAI Actにおいても、AIシステムの安全性・頑健性に関する要件が議論されています。

具体的な事例

パンダの誤分類：パンダの画像に微小なノイズを加えることで、ディープラーニングモデルがテナガザルと高い確信度で誤分類する事例。敵対的サンプルの代表例です。
道路標識への攻撃：停止標識にステッカーを貼ることで、自動運転車の画像認識AIが速度制限標識と誤認識する物理的攻撃の研究。
顔認証の回避：特殊なメガネや化粧パターンを用いて、顔認証システムを欺く攻撃手法が研究されています。
音声認識への攻撃：人間には聞こえない超音波や、環境音に隠した音声コマンドを用いて音声アシスタントを操作する攻撃が報告されています。
LLMへの攻撃：プロンプトインジェクション（悪意のあるプロンプトによるモデルの操作）やジェイルブレイク（安全性フィルタの回避）など、大規模言語モデルに対する攻撃手法も研究されています。

G検定での出題ポイント

敵対的サンプル（Adversarial Examples）の定義と基本概念
FGSM（Fast Gradient Sign Method）の仕組み
データポイズニングの概念と種類
敵対的学習（Adversarial Training）の基本的な考え方
物理的な敵対的攻撃の可能性と社会的影響

試験対策のポイント

敵対的サンプルは「人間には知覚できない微小な摂動を加えてAIを誤認識させる入力」と理解する
FGSMは「損失関数の勾配の符号を使って効率的に敵対的サンプルを生成する手法」
データポイズニングは「学習データに悪意あるデータを混入させる攻撃」であり、特にバックドア攻撃は検出が困難
敵対的学習は「敵対的サンプルを学習データに含めてモデルを頑健にする防御手法」
AIセキュリティは自動運転や医療AIなど安全性が求められる分野で特に重要