SuperGLUEとは
SuperGLUE(Super General Language Understanding Evaluation)とは、自然言語理解(NLU)能力を測定するベンチマークスイートで、2019年に公開されました。GLUEベンチマークの後継として、GLUEでは飽和してしまった課題に代わる、より困難なタスクセットを提供します。
SuperGLUEのタスク構成
SuperGLUEは8つのタスクで構成されています。含意認識(RTE、CB)、因果推論(COPA)、語義曖昧性解消(WiC)、質問応答(BoolQ、MultiRC、ReCoRD)、共参照解析(WSC)など、高度な言語理解を必要とするタスクが含まれます。各タスクは人間の能力との差を測るように設計されています。
GLUEとの違い
GLUEはBERTの登場により人間の性能を超えるモデルが多数現れ、ベンチマークとしての識別能力を失いました。SuperGLUEはより難しいタスクを含み、データ量も制限することで、当時のモデルでは達成が困難な水準を設定しました。しかし、T5やGPT-3などの大規模モデルにより、SuperGLUEも人間レベルに到達しています。
SuperGLUEの影響と現状
SuperGLUEはNLUの研究を推進する重要な役割を果たしましたが、大規模言語モデルの急速な発展により、現在では新しいベンチマーク(MMLU、BigBenchなど)がLLMの評価に使われています。しかし、自然言語理解の標準的な評価フレームワークとしての歴史的意義は大きいです。