ガードレール(安全性)

Guardrails (Safety)

ガードレールとは

ガードレール(Guardrails)とは、AIシステムが安全かつ適切に動作するよう制約を設ける仕組みの総称です。道路のガードレールが車両の逸脱を防ぐように、AIのガードレールはモデルの出力が許容範囲を超えないよう制御します。入力の検証から出力のフィルタリングまで、多層的な安全対策を含みます。

ガードレールの種類

ガードレールは実装レベルに応じて分類されます。モデルレベルのガードレールはRLHFやConstitutional AIによる安全性調整を指し、アプリケーションレベルのガードレールは入出力フィルタやキーワードブロックリスト、トピック制限などを含みます。システムレベルのガードレールはレート制限やアクセス制御、ログ記録などを指します。

実装のアプローチ

実務的なガードレールの実装には、ルールベース(正規表現やキーワードマッチング)、分類器ベース(有害性を判定するAIモデル)、LLMベース(別のLLMに安全性を判定させる)などのアプローチがあります。NeMo Guardrails(NVIDIA)やGuardrails AI、LlamaGuardなど、ガードレール構築のためのフレームワークやツールも提供されています。

ガードレールの課題

ガードレールの設計には、安全性と有用性のバランスが重要です。過度に厳格なガードレールはユーザー体験を損ない、緩すぎるガードレールは安全性のリスクを残します。また、ジェイルブレイクやプロンプトインジェクションによるガードレールの回避が常に試みられるため、継続的な改善と更新が必要です。多層防御の考え方に基づく設計が推奨されます。