METEORとは
METEOR(Metric for Evaluation of Translation with Explicit ORdering)とは、機械翻訳の評価指標の一つで、BLEUの限界を克服するために開発されました。完全一致だけでなく、語幹の一致、同義語の一致、パラフレーズの一致も考慮するため、より人間の判断に近い評価が可能です。
METEORの特徴
METEORはBLEUと異なり、単語レベルのアライメントに基づいて計算されます。まず生成文と参照文の間で最適な単語対応を見つけ、次に精度と再現率の調和平均を計算します。再現率により大きな重みが与えられ、語順の違いに対するペナルティも適用されます。
BLEUとの比較
METEORはBLEUと比較して、文レベルの評価で人間の判断とより高い相関を示すことが報告されています。BLEUが精度のみに基づくのに対し、METEORは精度と再現率の両方を考慮します。また、同義語辞書を利用することで、表現の多様性に対応できます。
METEORの発展
METEORには複数のバージョンがあり、METEOR 1.5では改良されたパラメータチューニングや多言語対応が追加されました。現在では、BERTScoreやCOMETなどの埋め込みベースの指標が登場し、意味的類似性をより精密に捉えることができるようになっていますが、METEORは依然として参考指標として使用されています。