AlpacaEval

AlpacaEval

AlpacaEvalとは

AlpacaEval とは、大規模言語モデルの指示追従能力を自動評価するベンチマークです。スタンフォード大学のグループにより開発され、805の指示に対するモデルの回答品質を、LLMジャッジを用いて評価します。AlpacaEval 2.0ではGPT-4 Turboをジャッジとして使用しています。

AlpacaEvalの評価方法

AlpacaEvalは、評価対象モデルの回答とベースラインモデル(GPT-4 Turbo)の回答を比較し、LLMジャッジがどちらの回答が優れているかを判定します。主な指標は勝率(Win Rate)であり、評価対象モデルがベースラインに勝つ割合を報告します。AlpacaEval 2.0では長さ制御(Length-Controlled)版も導入され、冗長な回答の不当な優位性を補正しています。

Chatbot Arenaとの関係

AlpacaEvalのスコアはChatbot ArenaのEloレーティングと高い相関を示すことが報告されています。Chatbot Arenaが大規模な人間評価を必要とするのに対し、AlpacaEvalは完全自動で評価できるため、モデル開発の初期段階での迅速な性能評価に適しています。

AlpacaEvalの課題

AlpacaEvalにはLLMジャッジ固有のバイアス(長い回答を好む傾向、特定のスタイルを好む傾向など)があります。LC(Length-Controlled)版でこれを部分的に緩和していますが、完全な解消には至っていません。評価の透明性と再現性の確保が継続的な課題です。