ROUGEとは
ROUGE(Recall-Oriented Understudy for Gisting Evaluation)とは、自動要約の品質を評価するための指標セットで、2004年にChin-Yew Linにより提案されました。生成された要約と参照要約の間のn-gramの重複を測定し、主に再現率に基づいてスコアを算出します。
ROUGEの種類
ROUGEにはいくつかの変種があります。ROUGE-Nはn-gramの重複率(ROUGE-1は1-gram、ROUGE-2は2-gram)、ROUGE-Lは最長共通部分列(LCS)に基づく評価、ROUGE-Wは連続的な一致に重みを付けた評価です。実務ではROUGE-1、ROUGE-2、ROUGE-Lの組み合わせが最もよく使われます。
BLEUとの違い
BLEUが精度(生成テキスト側の一致率)を重視するのに対し、ROUGEは再現率(参照テキスト側の一致率)を重視します。要約タスクでは、重要な情報がどの程度含まれているかが重要なため、再現率ベースのROUGEが適しています。ROUGEはF値(精度と再現率の調和平均)としても計算できます。
ROUGEの活用と限界
ROUGEは自動要約の評価で事実上の標準指標となっていますが、文章の流暢さや論理的な一貫性を評価できないという限界があります。近年ではBERTScoreやFactCC(事実整合性)など、意味的な側面を捉える指標との併用が一般的になっています。