BLEUとは
BLEU(Bilingual Evaluation Understudy)とは、機械翻訳の品質を自動的に評価するための指標です。2002年にIBMのKishore Papineniらが提案し、機械翻訳の標準的な評価指標として広く使用されています。生成されたテキストが参照テキスト(正解訳)にどれだけ近いかをN-gramの一致度で測定します。
BLEUの計算方法
BLEUスコアは生成テキストのN-gramが参照テキストに含まれる割合(精度)を基に計算されます。通常は1-gramから4-gramまでの精度の幾何平均を取り、さらに短すぎる翻訳へのペナルティ(Brevity Penalty)を掛けます。スコアは0から1(または0から100)の範囲で、高いほど良い翻訳です。
BLEUの利点と限界
BLEUは計算が高速で、言語に依存しない汎用的な指標です。しかし、同じ意味でも異なる表現(言い換え)を適切に評価できない、文の流暢さを十分に測れない、短い文での評価が不安定になりやすい、などの限界があります。
他の評価指標との関係
BLEUの限界を補うため、METEOR、TER、COMETなどの代替指標も開発されています。BERTScoreは文脈埋め込みを使った類似度計算で、言い換えにも対応できます。最近では人間の評価との相関が高い学習ベースの評価指標が注目されています。