BLEU

Bilingual Evaluation Understudy

BLEUとは

BLEU(Bilingual Evaluation Understudy)とは、機械翻訳の品質を自動評価するための指標で、2002年にIBMの研究者により提案されました。生成されたテキストと参照テキスト(正解翻訳)との間のn-gramの一致度を測定し、0から1(または0から100)の範囲のスコアを算出します。

BLEUの計算方法

BLEUは修正n-gram精度(Modified n-gram Precision)に基づいて計算されます。1-gramから4-gramまでの精度の幾何平均を取り、さらに短い翻訳に対するペナルティ(Brevity Penalty)を掛け合わせます。修正精度では、参照文に出現する以上のn-gramの一致をカウントしないようにクリッピングが適用されます。

BLEUの利点と限界

BLEUの利点は、計算が高速で再現性があり、人間による評価と一定の相関があることです。しかし、意味的な同一性を捉えられない、語順の違いに敏感、同義語を認識できないなどの限界もあります。また、コーパスレベルでは信頼性が高いものの、文レベルでの評価には向きません。

BLEUの現在の位置づけ

BLEUは現在でも機械翻訳の評価で広く使われていますが、テキスト生成、要約、対話生成などのタスクにはROUGEやBERTScoreなどの指標が併用されるようになっています。大規模言語モデルの評価では、人間評価やLLM-as-a-Judgeと組み合わせた多面的な評価が主流になりつつあります。