TF-IDF

Term Frequency-Inverse Document Frequency

TF-IDFとは

TF-IDF(Term Frequency-Inverse Document Frequency)とは、文書中の単語の重要度を数値化する統計的な手法です。情報検索やテキストマイニングにおいて、文書を特徴づける重要な単語を特定するために広く使用されています。

TFとIDFの意味

TF(Term Frequency:単語頻度)は、ある単語が文書中に出現する頻度を表します。出現頻度が高い単語ほど、その文書にとって重要である可能性が高いです。IDF(Inverse Document Frequency:逆文書頻度)は、その単語が全文書集合のうちどれだけの文書に出現するかの逆数に基づく値です。多くの文書に出現する一般的な単語(「は」「の」など)のIDFは低く、特定の文書にのみ出現する単語のIDFは高くなります。

TF-IDFの計算

TF-IDF = TF × IDFとして計算されます。これにより、特定の文書で頻出し、かつ他の文書ではあまり出現しない単語に高いスコアが与えられ、その文書を特徴づける重要な単語を特定できます。

TF-IDFの活用

TF-IDFは文書の特徴ベクトル化、検索エンジンのランキング、テキスト分類の特徴量、キーワード抽出などに広く利用されています。深層学習モデルの台頭後も、そのシンプルさと解釈性からベースライン手法として重要な役割を果たしています。