ジェイルブレイクとは
ジェイルブレイク(Jailbreak)とは、AIモデルに組み込まれた安全性のガードレールを回避し、通常は拒否されるような有害な出力や制限された情報を引き出す攻撃手法です。「脱獄」を意味するこの用語は、モデルの安全性制約という「牢獄」から抜け出させることに由来しています。
ジェイルブレイクの手法
代表的なジェイルブレイク手法には、ロールプレイ攻撃(特定のキャラクターになりきらせる)、多段階攻撃(段階的に制約を緩和させる)、エンコーディング攻撃(Base64やROT13などで指示を難読化する)、多言語攻撃(安全性訓練が不十分な言語を利用する)などがあります。
プロンプトインジェクションとの違い
プロンプトインジェクションがシステムプロンプトの制御を奪うことを目的とするのに対し、ジェイルブレイクはモデルの安全性アラインメント自体を回避することを目的とします。プロンプトインジェクションは主にアプリケーションレベルの脆弱性であり、ジェイルブレイクはモデルレベルの脆弱性を突く攻撃です。
対策と軍拡競争
ジェイルブレイク対策としては、安全性学習の強化(RLHF、Constitutional AI)、入出力フィルタの改善、多言語での安全性訓練、レッドチーミングによる事前発見などが行われています。しかし、新たなジェイルブレイク手法が次々と発見される「軍拡競争」の様相を呈しており、完全な防御は現時点では実現していません。研究コミュニティと攻撃者の間の継続的な攻防が続いています。