共起分析

Co-occurrence Analysis

共起分析とは

共起分析(Co-occurrence Analysis)とは、テキストデータ中で特定の単語やフレーズが同時に出現する(共起する)パターンを分析する手法です。単語間の関連性や文書中のテーマの構造を発見するために使用される、テキストマイニングの基本的な手法の一つです。

共起の定義

共起は、一定の範囲(同一文書、同一段落、同一文、または一定の単語距離内)において2つ以上の単語が同時に出現することを指します。共起の頻度が統計的に期待値より有意に高い場合、それらの単語は何らかの意味的関係を持つと推定されます。

共起ネットワーク

共起分析の結果は、共起ネットワーク(共起グラフ)として可視化されることが多いです。単語をノード、共起関係をエッジとして表現し、頻繁に共起する単語群が視覚的にクラスタとして現れます。これにより、テキストデータに含まれるテーマや概念の構造を直感的に把握できます。

共起指標

共起の強さを測る指標には、単純な共起頻度のほか、相互情報量(PMI)、Jaccard係数、対数尤度比(Log-Likelihood Ratio)、ダイス係数などがあります。これらの指標により、統計的に有意な共起関係を特定できます。