堅牢性とは
堅牢性(Robustness)とは、AIモデルが入力データの変動やノイズ、敵対的な操作に対しても安定して正しい予測を維持する能力のことです。堅牢なモデルは、訓練時に想定されなかった状況や意図的な攻撃に直面しても、性能が著しく低下しません。AI安全性において最も基本的かつ重要な性質の一つです。
堅牢性の種類
堅牢性は複数の観点から分類されます。敵対的堅牢性(Adversarial Robustness)は敵対的攻撃に対する耐性、分布的堅牢性(Distributional Robustness)は訓練データと異なる分布のデータに対する耐性、ノイズ堅牢性は自然なノイズや摂動に対する耐性を指します。
堅牢性と精度のトレードオフ
堅牢性の向上は、しばしば標準的な精度の低下を伴います。これは「精度と堅牢性のトレードオフ」として知られ、敵対的訓練を行ったモデルではクリーンデータに対する精度が数パーセント低下する傾向があります。このトレードオフをどのように管理するかは、AI安全性の実践的な課題となっています。
堅牢性の評価と認証
堅牢性の評価手法には、PGDやAutoAttackなどの強力な攻撃による経験的評価と、数学的に保証された堅牢性を証明する認証的評価があります。認証的評価はランダム化平滑化(Randomized Smoothing)や区間境界伝搬(IBP)などの手法で実現されます。実用的なAIシステムでは、求められる堅牢性のレベルと性能のバランスを考慮した設計が求められます。