01AI安全性AI Safety
02AIリスクAI Risk
03ハルシネーション(安全性)Hallucination (Safety)
04敵対的攻撃Adversarial Attack
05敵対的サンプルAdversarial Example
06敵対的パッチAdversarial Patch
07摂動攻撃Perturbation Attack
08FGSMFast Gradient Sign Method
09PGDProjected Gradient Descent
10堅牢性(Robustness)Robustness
11敵対的訓練Adversarial Training
12レッドチーミングRed Teaming
13AIレッドチームAI Red Team
14ブルーチーミングBlue Teaming
15ペネトレーションテスト(AI)Penetration Testing for AI
16プロンプトインジェクションPrompt Injection
17ジェイルブレイクJailbreak
18プロンプトリークPrompt Leak
19間接的プロンプトインジェクションIndirect Prompt Injection
20ガードレール(安全性)Guardrails (Safety)
21コンテンツフィルタリング(安全性)Content Filtering (Safety)
22セーフティフィルターSafety Filter
23RLHF(安全性)RLHF (Safety)
24Constitutional AIConstitutional AI
25AI alignment研究AI Alignment Research
26存在リスク(X-risk)Existential Risk (X-risk)
27AIの暴走AI Runaway / Rogue AI
28制御問題Control Problem
29停止問題(AI)Halt Problem (AI)
30目的関数の誤設定Objective Misspecification
31報酬ハッキングReward Hacking
32仕様ゲーミングSpecification Gaming
33分布シフトDistribution Shift
34データ汚染Data Poisoning
35バックドア攻撃Backdoor Attack
36モデル反転攻撃Model Inversion Attack
37メンバーシップ推定攻撃Membership Inference Attack
38差分プライバシーDifferential Privacy
39連合学習(安全性)Federated Learning (Safety)
40モデル監査Model Audit
41安全性評価Safety Evaluation
42ベンチマーク(安全性)Safety Benchmark
43AIインシデントAI Incident
44AIインシデントDBAI Incident Database
45フェイルセーフFail-safe
46人間の監視(Human Oversight)Human Oversight
47キルスイッチKill Switch
48AI安全性研究機関AI Safety Research Institutes
49AISIAI Safety Institute
50国際AI安全性サミットInternational AI Safety Summit