BERTScoreとは？わかりやすく解説

BERTScoreとは

BERTScore とは、BERTなどの事前学習済み言語モデルの文脈的な単語埋め込みを利用して、生成テキストと参照テキストの意味的な類似度を測定する評価指標です。2020年に提案され、n-gramの表層的な一致に依存する従来の指標（BLEU、ROUGE）の限界を克服します。

BERTScoreの計算方法

BERTScoreは、生成文と参照文の各トークンをBERTで埋め込みベクトルに変換し、コサイン類似度に基づいてトークン間の最適なマッチングを見つけます。このマッチングから精度（Precision）、再現率（Recall）、F1スコアを算出します。同義語やパラフレーズも意味的に近いベクトルを持つため、表現の多様性に対応できます。

従来指標との比較

BLEUやROUGEは表層的なn-gramの一致のみを見るため、「犬が走る」と「イヌが駆ける」のような同じ意味の異なる表現を正しく評価できません。BERTScoreは意味的な類似性を捉えるため、人間の判断とより高い相関を示すことが多数の研究で報告されています。

BERTScoreの注意点

BERTScoreは計算コストがBLEUやROUGEよりも高く、使用するモデルによってスコアが変わります。また、文の論理的な整合性や事実性を直接評価することはできません。現在では機械翻訳、要約、対話生成など幅広い自然言語生成タスクの評価で使用されています。