ペネトレーションテスト(AIセキュリティ)

AI Penetration Testing

ペネトレーションテスト(AIセキュリティ)とは

AIセキュリティにおけるペネトレーションテストとは、実際の攻撃者の手法を模倣してAIシステムの脆弱性を発見する能動的なセキュリティテスト手法です。レッドチーミングの一形態として、AIシステム特有の攻撃ベクトルを重点的に検証します。

テストの範囲

AIペネトレーションテストは、LLMに対するプロンプトインジェクション、ジェイルブレイク、プロンプトリークの試行、画像・音声モデルに対する敵対的サンプルの生成と投入、モデル抽出攻撃の実証、プライバシー攻撃(メンバーシップ推定、モデル反転)の試行、APIの認証・認可の脆弱性の検証、サプライチェーンの弱点の調査など、AI特有の攻撃シナリオを網羅します。

実施方法

AIペネトレーションテストは、ブラックボックス(外部からの攻撃者を模倣)、グレーボックス(部分的な内部情報を持つ攻撃者を想定)、ホワイトボックス(内部の詳細な知識を持つ攻撃者を想定)の各レベルで実施されます。自動化ツール(Garak、Counterfit、ART等)と手動テストを組み合わせ、定期的に実施することが推奨されます。テスト結果は脆弱性の深刻度で分類し、優先度に応じた改善を行います。