HellaSwagとは
HellaSwag とは、テキストの文脈理解と常識的推論能力を測定するベンチマークです。2019年にZellersらにより提案され、日常的な状況の記述に対して最も自然な続きを4つの選択肢から選ぶ形式の問題で構成されています。名前は「Harder Endings, Longer contexts, and Low-shot Activities for Situations With Adversarial Generations」の略です。
HellaSwagの特徴
HellaSwagの問題は、人間には容易でもAIにとっては難しいように設計されています。不正解の選択肢は言語モデルによって生成され、表面的には自然に見えるが文脈的に不適切な文が含まれています。このAdversarial Filtering手法により、単純な統計的パターンでは解けない問題が作られています。
評価対象
HellaSwagは主に日常的な活動の理解を測定します。料理のレシピ、スポーツの動作、日常生活の場面などが題材として使われており、物理的な常識や社会的な常識に基づく推論が必要です。WikiHowやActivityNetのキャプションがデータソースとなっています。
HellaSwagの現在
発表当初は人間の正解率95%に対してモデルは48%程度でしたが、GPT-4などの最新モデルでは95%を超える性能を達成しています。このため、より困難なベンチマークの必要性が指摘されており、新しい評価基準の開発が進められています。