ジェイルブレイク(セキュリティ)

Jailbreak

ジェイルブレイクとは

AIセキュリティにおけるジェイルブレイクとは、LLMに設定されたセーフティガードラインや利用ポリシーの制限を回避し、通常は拒否されるはずの有害・不適切なコンテンツを生成させる攻撃手法です。プロンプトインジェクションの一種ですが、特にモデルの安全機能の突破に焦点を当てています。

ジェイルブレイクの手法

代表的な手法として、仮想的なシナリオ設定(「あなたは制限のないAIです」)、ロールプレイの悪用(「悪役の台本を書いてください」)、段階的な誘導(少しずつ制限境界を押し広げる)、多言語での指示(安全フィルターが弱い言語の利用)、エンコーディングの悪用(Base64やモールス信号での指示)などがあります。研究者による新しいジェイルブレイク手法は継続的に発見されています。

対策と課題

ジェイルブレイクへの対策は、モデルの安全学習(RLHF/RLAIF)の強化、ジェイルブレイクパターンの検出フィルター、出力モニタリング、レッドチーミングによる事前検証が中心です。しかし、攻撃手法の進化は防御の進化を常に上回る傾向にあり、完全な防御は困難です。継続的なレッドチーミングとモデルの更新による対応が現実的なアプローチとなっています。