MT-Benchとは
MT-Bench とは、大規模言語モデルの多ターン対話能力を評価するためのベンチマークです。LMSYSにより開発され、80問の高品質な多ターン質問で構成されています。各問題は2ターンの対話形式で、最初の質問への回答を踏まえたフォローアップ質問に答える能力を測定します。
MT-Benchの構成
MT-Benchは8つのカテゴリ(ライティング、ロールプレイ、情報抽出、推論、数学、コーディング、知識問題、一般的な質問)から各10問ずつ出題されます。各問題は2ターンで構成され、2ターン目はモデルの1ターン目の回答を前提とした追加の質問や修正依頼が含まれます。
LLM-as-a-Judgeによる評価
MT-Benchの特徴的な点は、GPT-4をジャッジとして使用するLLM-as-a-Judge方式を採用していることです。GPT-4がモデルの回答を1-10のスケールで採点します。この方式は人間評価との高い相関が確認されており、コスト効率の良い評価方法として注目されています。
MT-Benchの意義
MT-Benchは、単発の質問応答ではなく対話の中での一貫性や指示追従能力を評価する点で、MMLUなどの知識ベンチマークとは異なる側面を測定します。Chatbot Arenaの人間評価と高い相関があることが確認されており、LLMの実用的な対話能力を効率的に評価できます。