単語埋め込み(Word Embedding)

Word Embedding

単語埋め込みとは

単語埋め込み(Word Embedding)とは、単語を固定長の実数値ベクトルとして表現する手法です。意味的に類似した単語が近いベクトルにマッピングされるため、単語の意味的な関係を数値的に捉えることができます。自然言語処理における最も重要な技術革新の一つです。

単語埋め込みの特徴

良い単語埋め込みでは、意味的に近い単語(「犬」と「猫」など)のベクトルが近くに配置されます。さらに、「王−男+女≒女王」のようなベクトル演算で意味的な関係を表現できるという画期的な性質があります。これは分布仮説(同じ文脈に出現する単語は似た意味を持つ)に基づいています。

代表的な手法

Word2Vec(2013年)はCBOWとSkip-gramの2つの手法で単語ベクトルを学習します。GloVe(2014年)は共起行列の統計情報を活用します。FastText(2016年)はサブワード情報を考慮し、未知語にも対応できます。これらは「静的な埋め込み」と呼ばれ、文脈に関係なく各単語に一つの固定ベクトルが割り当てられます。

文脈埋め込みへの発展

静的な埋め込みでは多義語(例:「bank」の銀行と堤防の意味)を区別できません。この問題はBERTやGPTなどの文脈埋め込み(Contextual Embedding)により解決されました。文脈に応じて動的に変化するベクトル表現が可能になっています。