出力フィルタリングとは
出力フィルタリングとは、AIモデルが生成した出力をユーザーに返す前に検査し、不適切・有害・機密性の高い内容を含む出力をブロックまたは修正するセキュリティ対策です。入力検証と組み合わせることで、多層防御を実現します。
フィルタリング対象
出力フィルタリングが対象とする内容は多岐にわたります。有害コンテンツ(暴力的・差別的・違法な内容)、個人情報(PII)の意図しない開示、システムプロンプトの漏洩、機密情報(APIキー、内部URL、データベース情報など)の出力、著作権侵害のリスクがある内容、セキュリティ上危険なコード、ハルシネーション(虚偽の情報)などが含まれます。
実装手法
出力フィルタリングの実装方法として、ルールベースのフィルター(正規表現やキーワードリスト)、分類モデルによる有害コンテンツ検出、PII検出・マスキングツール、類似度ベースの著作権保護チェックなどがあります。フィルタリングはストリーミング出力にも対応する必要があり、トークン単位または文単位でのリアルタイム検査が求められます。偽陽性(正当な出力を誤ってブロックする)を最小化しつつ、セキュリティを維持するバランスの設計が重要です。