安全性ベンチマークとは
安全性ベンチマーク(Safety Benchmark)とは、AIモデルの安全性性能を標準化された方法で測定・比較するためのテストスイートやデータセットの総称です。異なるモデル間の安全性を客観的に比較し、安全性向上の進捗を追跡するための基準となります。
主要な安全性ベンチマーク
LLMの安全性評価では、TruthfulQA(事実性の評価)、BBQ(バイアスの評価)、RealToxicityPrompts(有害性の評価)、AdvBench(ジェイルブレイク耐性の評価)、HarmBench(包括的な有害性評価)などが広く利用されています。MLCommonsのAI Safety Benchmarkは、業界横断的な標準ベンチマークの確立を目指しています。
ベンチマークの構成
安全性ベンチマークは通常、テストケース(プロンプトとその期待される安全な応答)、評価基準(安全か否かの判定基準)、評価手法(自動評価器または人間評価のプロトコル)の3要素で構成されます。多くのベンチマークは有害性のカテゴリ(暴力、差別、違法行為等)ごとに細分化された評価を提供します。
課題と限界
安全性ベンチマークにはいくつかの課題があります。ベンチマークに対する過学習(ベンチマークのスコアは高いが実際の安全性は不十分)、文化・言語依存性(英語中心のベンチマークが多い)、攻撃手法の進化に対する陳腐化、安全性の多面性をカバーしきれないことなどです。ベンチマークはあくまで安全性評価の一要素であり、レッドチーミングや人間評価との組み合わせが不可欠です。