レンマ化

Lemmatization

レンマ化とは

レンマ化(Lemmatization)とは、単語をその辞書形(レンマ、基本形)に変換する自然言語処理の前処理手法です。例えば、英語では「running」「ran」「runs」をすべて「run」に、日本語では「食べた」「食べて」「食べる」をすべて「食べる」に変換します。

レンマ化の仕組み

レンマ化は単純な文字列処理ではなく、単語の品詞や形態論的な知識を考慮して正しい基本形を導出します。例えば英語の「better」のレンマは「good」であり、「meeting」が名詞なら「meeting」のまま、動詞なら「meet」になります。そのため、品詞情報や辞書を利用した処理が必要です。

ステミングとの違い

ステミング(Stemming)は単純なルールで語尾を切り落とす手法で、必ずしも正しい単語形にならないことがあります(例:「studies」→「studi」)。レンマ化は辞書を参照して正しい基本形を返すため精度が高いですが、計算コストはステミングより高くなります。

レンマ化の活用

レンマ化は情報検索(異なる活用形でも同じ単語として検索)、テキストマイニング、特徴量エンジニアリングなどで活用されています。spaCyやNLTKのWordNetLemmatizerなどのツールで容易に実行できます。