ベンチマーク（安全性）とは？わかりやすく解説

安全性ベンチマークとは

安全性ベンチマーク（Safety Benchmark）とは、AIモデルの安全性性能を標準化された方法で測定・比較するためのテストスイートやデータセットの総称です。異なるモデル間の安全性を客観的に比較し、安全性向上の進捗を追跡するための基準となります。

主要な安全性ベンチマーク

LLMの安全性評価では、TruthfulQA（事実性の評価）、BBQ（バイアスの評価）、RealToxicityPrompts（有害性の評価）、AdvBench（ジェイルブレイク耐性の評価）、HarmBench（包括的な有害性評価）などが広く利用されています。MLCommonsのAI Safety Benchmarkは、業界横断的な標準ベンチマークの確立を目指しています。

ベンチマークの構成

安全性ベンチマークは通常、テストケース（プロンプトとその期待される安全な応答）、評価基準（安全か否かの判定基準）、評価手法（自動評価器または人間評価のプロトコル）の3要素で構成されます。多くのベンチマークは有害性のカテゴリ（暴力、差別、違法行為等）ごとに細分化された評価を提供します。

課題と限界

安全性ベンチマークにはいくつかの課題があります。ベンチマークに対する過学習（ベンチマークのスコアは高いが実際の安全性は不十分）、文化・言語依存性（英語中心のベンチマークが多い）、攻撃手法の進化に対する陳腐化、安全性の多面性をカバーしきれないことなどです。ベンチマークはあくまで安全性評価の一要素であり、レッドチーミングや人間評価との組み合わせが不可欠です。

安全性ベンチマークとは

主要な安全性ベンチマーク

ベンチマークの構成

課題と限界

関連用語