BLEUとは？わかりやすく解説

BLEUとは

BLEU（Bilingual Evaluation Understudy）とは、機械翻訳の品質を自動的に評価するための指標です。2002年にIBMのKishore Papineniらが提案し、機械翻訳の標準的な評価指標として広く使用されています。生成されたテキストが参照テキスト（正解訳）にどれだけ近いかをN-gramの一致度で測定します。

BLEUの計算方法

BLEUスコアは生成テキストのN-gramが参照テキストに含まれる割合（精度）を基に計算されます。通常は1-gramから4-gramまでの精度の幾何平均を取り、さらに短すぎる翻訳へのペナルティ（Brevity Penalty）を掛けます。スコアは0から1（または0から100）の範囲で、高いほど良い翻訳です。

BLEUの利点と限界

BLEUは計算が高速で、言語に依存しない汎用的な指標です。しかし、同じ意味でも異なる表現（言い換え）を適切に評価できない、文の流暢さを十分に測れない、短い文での評価が不安定になりやすい、などの限界があります。

他の評価指標との関係

BLEUの限界を補うため、METEOR、TER、COMETなどの代替指標も開発されています。BERTScoreは文脈埋め込みを使った類似度計算で、言い換えにも対応できます。最近では人間の評価との相関が高い学習ベースの評価指標が注目されています。

BLEUとは

BLEUの計算方法

BLEUの利点と限界

他の評価指標との関係

関連用語