LDA

Latent Dirichlet Allocation

LDAとは

LDA(Latent Dirichlet Allocation:潜在ディリクレ配分法)とは、2003年にDavid Bleiらが提案した確率的トピックモデルです。文書集合から潜在的なトピックを発見するための手法として最も広く利用されており、テキストマイニングの標準的な手法の一つです。

LDAの生成過程

LDAは以下の生成過程を仮定します。各文書に対して、まずトピックの分布(混合比率)をディリクレ分布からサンプリングします。次に文書中の各単語について、トピック分布からトピックを選び、そのトピックの単語分布から単語を生成します。この生成過程を逆に解くことで、観測された文書からトピックを推定します。

LDAのパラメータ

LDAの主要なパラメータはトピック数K、文書-トピック分布の集中度α、トピック-単語分布の集中度βです。トピック数は事前に指定する必要があり、Coherenceスコアやパープレキシティを基に適切な値を選択します。

LDAの実装と発展

Gensim、scikit-learn、Malletなどのライブラリで容易に実装できます。大規模データ向けのオンラインLDA、相関トピックモデル(CTM)、教師あり・半教師ありLDAなどの発展形も開発されています。