ROUGEとは？わかりやすく解説

ROUGEとは

ROUGE（Recall-Oriented Understudy for Gisting Evaluation）とは、自動要約の品質を評価するための指標群です。2004年にChin-Yew Linが提案し、文書要約タスクの標準的な評価指標として広く使用されています。生成された要約が参照要約の内容をどれだけカバーしているかを測定します。

ROUGEの主な種類

ROUGE-Nは生成テキストと参照テキストのN-gramの再現率を計算します。ROUGE-1（ユニグラム）は個々の単語の一致を、ROUGE-2（バイグラム）は2単語の連続の一致を測定します。ROUGE-Lは最長共通部分列（LCS）に基づく指標で、語順の情報を部分的に考慮できます。

BLEUとの違い

BLEUが精度（Precision）重視であるのに対し、ROUGEは再現率（Recall）重視の指標です。要約タスクでは参照要約の内容を漏れなくカバーすることが重要なため、再現率重視のROUGEが適しています。実際にはF1スコアも併せて報告されることが一般的です。

ROUGEの限界

ROUGEは表層的な単語の一致のみを評価するため、言い換えや抽象的な表現の質を適切に評価できません。また、要約の一貫性や事実の正確性は評価できないため、人間による評価との併用が推奨されます。

ROUGEとは

ROUGEの主な種類

BLEUとの違い

ROUGEの限界

関連用語