MMLU

Massive Multitask Language Understanding

MMLUとは

MMLU(Massive Multitask Language Understanding)とは、大規模言語モデルの知識と推論能力を幅広い分野にわたって測定するベンチマークです。2021年に発表され、人文科学、社会科学、自然科学、専門分野など57のタスクにまたがる約15,000問の多肢選択問題で構成されています。

MMLUの構成

MMLUは初等数学から専門的な法律・医学知識まで、幅広い難易度と分野をカバーしています。各タスクは4択の多肢選択問題形式で、少数ショット(few-shot)設定で評価されます。分野には抽象代数、天文学、臨床医学、コンピュータセキュリティ、世界史など多岐にわたるトピックが含まれます。

MMLUの意義

MMLUは大規模言語モデルの「汎用的な知識レベル」を測る代表的なベンチマークとして定着しました。新しいモデルのリリース時にはほぼ必ずMMLUスコアが報告され、モデル間の比較の基準となっています。GPT-4やClaude、Geminiなどの主要なLLMのMMLUスコアは90%前後に達しています。

MMLUの限界と発展

MMLUには問題の正確性に関する指摘や、知識の暗記で解ける問題が多いという批判もあります。これに対応するため、MMLU-Pro(より難しい問題)やMMLU-Redux(修正版)などの改良版ベンチマークが提案されています。