トークン操作とは
トークン操作とは、LLMのトークナイゼーション処理の特性を悪用して、セキュリティフィルターを回避する攻撃手法です。モデルがテキストをトークンに分割する際の挙動の不整合を利用し、禁止された内容をフィルターに検出されない形で入力します。
攻撃の手法
トークン操作には複数の手法があります。文字の分割や結合(「危」「険」のように文字を分けて入力)、Unicode文字の悪用(視覚的に同じだがコードが異なる文字の使用)、特殊トークンの挿入、意図的なスペルミスやレート表記の利用などがあります。これらの手法は、テキストベースの入力フィルターがトークン単位ではなく文字列単位でパターンマッチングを行っている場合に特に効果的です。
対策
トークン操作への対策は、フィルタリングをトークン化後の段階でも実施することが有効です。テキストの正規化処理(Unicode正規化、ホモグリフの統一)をフィルタリング前に適用し、意味レベルでのコンテンツ分析を行うセマンティックフィルターの導入も推奨されます。多層フィルタリング戦略を採用し、文字列レベル・トークンレベル・意味レベルの複数段階でチェックを行うことで、防御の堅牢性が向上します。