SQuADとは
SQuAD(Stanford Question Answering Dataset)とは、スタンフォード大学が開発した機械読解(Reading Comprehension)のベンチマークデータセットです。Wikipedia記事を基にした質問応答ペアで構成されており、モデルが与えられた文章から質問に対する回答を抽出する能力を評価します。
SQuADのバージョン
SQuAD 1.1は10万以上の質問からなり、すべての質問に対して文章中に回答が存在します。SQuAD 2.0はこれに約5万の回答不可能な質問を追加し、モデルが「回答できない」と判断する能力も評価します。SQuAD 2.0はより現実的な読解理解能力を測定できます。
評価指標
SQuADの主な評価指標はEM(Exact Match、完全一致)とF1スコアです。EMはモデルの回答が正解と完全に一致する割合、F1スコアはトークンレベルの適合率と再現率の調和平均です。F1スコアは部分的な一致も評価するため、EMよりも緩やかな指標です。
SQuADの影響と現状
SQuADはBERTやXLNetなどの事前学習モデルの性能実証に大きな役割を果たしました。多くのモデルが人間レベルの性能を達成しており、現在はより高度な推論を必要とするベンチマーク(Natural Questions、DROP、HotpotQAなど)に注目が移っています。