BLEUとは？わかりやすく解説

BLEUとは

BLEU（Bilingual Evaluation Understudy）とは、機械翻訳の品質を自動評価するための指標で、2002年にIBMの研究者により提案されました。生成されたテキストと参照テキスト（正解翻訳）との間のn-gramの一致度を測定し、0から1（または0から100）の範囲のスコアを算出します。

BLEUの計算方法

BLEUは修正n-gram精度（Modified n-gram Precision）に基づいて計算されます。1-gramから4-gramまでの精度の幾何平均を取り、さらに短い翻訳に対するペナルティ（Brevity Penalty）を掛け合わせます。修正精度では、参照文に出現する以上のn-gramの一致をカウントしないようにクリッピングが適用されます。

BLEUの利点と限界

BLEUの利点は、計算が高速で再現性があり、人間による評価と一定の相関があることです。しかし、意味的な同一性を捉えられない、語順の違いに敏感、同義語を認識できないなどの限界もあります。また、コーパスレベルでは信頼性が高いものの、文レベルでの評価には向きません。

BLEUの現在の位置づけ

BLEUは現在でも機械翻訳の評価で広く使われていますが、テキスト生成、要約、対話生成などのタスクにはROUGEやBERTScoreなどの指標が併用されるようになっています。大規模言語モデルの評価では、人間評価やLLM-as-a-Judgeと組み合わせた多面的な評価が主流になりつつあります。

BLEUとは

BLEUの計算方法

BLEUの利点と限界

BLEUの現在の位置づけ

関連用語