AI安全性・リスク

ハルシネーション、敵対的攻撃、レッドチーミングなど、AIリスクを解説

01AI安全性AI Safety 02AIリスクAI Risk 03ハルシネーション(安全性)Hallucination (Safety) 04敵対的攻撃Adversarial Attack 05敵対的サンプルAdversarial Example 06敵対的パッチAdversarial Patch 07摂動攻撃Perturbation Attack 08FGSMFast Gradient Sign Method 09PGDProjected Gradient Descent 10堅牢性(Robustness)Robustness 11敵対的訓練Adversarial Training 12レッドチーミングRed Teaming 13AIレッドチームAI Red Team 14ブルーチーミングBlue Teaming 15ペネトレーションテスト(AI)Penetration Testing for AI 16プロンプトインジェクションPrompt Injection 17ジェイルブレイクJailbreak 18プロンプトリークPrompt Leak 19間接的プロンプトインジェクションIndirect Prompt Injection 20ガードレール(安全性)Guardrails (Safety) 21コンテンツフィルタリング(安全性)Content Filtering (Safety) 22セーフティフィルターSafety Filter 23RLHF(安全性)RLHF (Safety) 24Constitutional AIConstitutional AI 25AI alignment研究AI Alignment Research 26存在リスク(X-risk)Existential Risk (X-risk) 27AIの暴走AI Runaway / Rogue AI 28制御問題Control Problem 29停止問題(AI)Halt Problem (AI) 30目的関数の誤設定Objective Misspecification 31報酬ハッキングReward Hacking 32仕様ゲーミングSpecification Gaming 33分布シフトDistribution Shift 34データ汚染Data Poisoning 35バックドア攻撃Backdoor Attack 36モデル反転攻撃Model Inversion Attack 37メンバーシップ推定攻撃Membership Inference Attack 38差分プライバシーDifferential Privacy 39連合学習(安全性)Federated Learning (Safety) 40モデル監査Model Audit 41安全性評価Safety Evaluation 42ベンチマーク(安全性)Safety Benchmark 43AIインシデントAI Incident 44AIインシデントDBAI Incident Database 45フェイルセーフFail-safe 46人間の監視(Human Oversight)Human Oversight 47キルスイッチKill Switch 48AI安全性研究機関AI Safety Research Institutes 49AISIAI Safety Institute 50国際AI安全性サミットInternational AI Safety Summit