GLUE

General Language Understanding Evaluation

GLUEとは

GLUE(General Language Understanding Evaluation)とは、自然言語理解(NLU)のための包括的なベンチマークスイートで、2018年に公開されました。言語モデルの汎用的な言語理解能力を測定するために設計され、BERTやGPTなどの事前学習モデルの発展を推進する重要な役割を果たしました。

GLUEのタスク構成

GLUEは9つのNLUタスクで構成されています。感情分析(SST-2)、テキスト類似度(STS-B、MRPC、QQP)、自然言語推論(MNLI、QNLI、RTE、WNLI)、言語的受容性判断(CoLA)などが含まれます。これらのタスクを統一的なフォーマットで評価することで、モデルの汎用的な言語理解能力を測定します。

GLUEの歴史的意義

GLUEの公開は、NLP研究における重要な転換点となりました。BERTがGLUEで人間の性能を大幅に超えたことで、事前学習とファインチューニングのパラダイムが確立されました。これにより、タスク固有のモデルから汎用言語モデルへの移行が加速しました。

GLUEの限界

GLUEは公開から短期間で多くのモデルが人間の性能を超え、ベンチマークとしての識別力が低下しました。この「天井効果」を解消するためにSuperGLUEが開発されました。GLUEは現在でも基本的な言語理解の評価には使用されますが、最先端モデルの評価にはより困難なベンチマークが必要です。