CIDEr

Consensus-based Image Description Evaluation

CIDErとは

CIDEr(Consensus-based Image Description Evaluation)とは、画像キャプショニング(画像に対する説明文の自動生成)の品質を評価するための指標です。2015年に提案され、複数の参照キャプションとのn-gramの一致度をTF-IDFで重み付けして計算します。

CIDErの仕組み

CIDErはTF-IDF(Term Frequency-Inverse Document Frequency)の考え方を応用しています。頻出するn-gram(冠詞や一般的な表現など)の重みを下げ、画像固有の重要なn-gramの重みを上げることで、画像の内容をより正確に記述しているかを評価します。これにより、画像の特徴を的確に捉えたキャプションが高く評価されます。

他の指標との比較

BLEUやROUGEはすべてのn-gramを均等に扱いますが、CIDErは重要度に応じた重み付けを行います。例えば「a photo of」のような一般的なフレーズの一致よりも、「golden retriever playing in the park」のような画像固有の表現の一致をより重視します。

CIDErの活用

CIDErは画像キャプショニングの研究で標準的な評価指標として使われています。MSCOCO画像キャプショニングチャレンジでも主要な評価指標の一つとして採用されています。また、強化学習を用いたキャプション生成モデルの最適化においても報酬関数としてCIDErが使用されることがあります。