ストップワード

Stop Words

ストップワードとは

ストップワード(Stop Words)とは、自然言語処理においてテキストから除外される一般的で情報量の少ない単語のことです。英語では「the」「is」「at」「in」「a」など、日本語では「は」「の」「が」「に」「を」などの助詞や助動詞が代表的なストップワードです。

ストップワード除去の目的

ストップワードを除去する主な目的は、テキスト分析のノイズを減らし、意味的に重要な単語に焦点を当てることです。これにより、TF-IDFやBag of Wordsなどの手法での特徴量のサイズが削減され、計算効率が向上します。また、情報検索での検索精度の向上にも寄与します。

ストップワードリストの作成

ストップワードリストは一般的な汎用リストを使用するか、タスクやドメインに応じてカスタマイズします。NLTKやspaCyなどのNLPライブラリには言語ごとのストップワードリストが組み込まれています。ただし、適切なストップワードリストはタスクによって異なるため、注意が必要です。

ストップワード除去の注意点

ストップワード除去は万能ではなく、タスクによっては悪影響を与えることもあります。感情分析では「not」「no」などの否定語が重要な情報を持ちます。また、BERTやGPTなどの文脈を考慮するモデルでは、ストップワードも文脈理解に寄与するため、除去しないことが一般的です。