ROUGE

Recall-Oriented Understudy for Gisting Evaluation

ROUGEとは

ROUGE(Recall-Oriented Understudy for Gisting Evaluation)とは、自動要約の品質を評価するための指標群です。2004年にChin-Yew Linが提案し、文書要約タスクの標準的な評価指標として広く使用されています。生成された要約が参照要約の内容をどれだけカバーしているかを測定します。

ROUGEの主な種類

ROUGE-Nは生成テキストと参照テキストのN-gramの再現率を計算します。ROUGE-1(ユニグラム)は個々の単語の一致を、ROUGE-2(バイグラム)は2単語の連続の一致を測定します。ROUGE-Lは最長共通部分列(LCS)に基づく指標で、語順の情報を部分的に考慮できます。

BLEUとの違い

BLEUが精度(Precision)重視であるのに対し、ROUGEは再現率(Recall)重視の指標です。要約タスクでは参照要約の内容を漏れなくカバーすることが重要なため、再現率重視のROUGEが適しています。実際にはF1スコアも併せて報告されることが一般的です。

ROUGEの限界

ROUGEは表層的な単語の一致のみを評価するため、言い換えや抽象的な表現の質を適切に評価できません。また、要約の一貫性や事実の正確性は評価できないため、人間による評価との併用が推奨されます。