Word2Vecとは
Word2Vec(ワードツーベック)とは、2013年にGoogleのTomas Mikolovらが提案した、大量のテキストデータから単語の分散表現(ベクトル)を学習するモデルです。自然言語処理に革命をもたらし、後のBERTやGPTなどの基盤となる重要な技術です。
2つのアーキテクチャ
Word2Vecには2つの学習方式があります。CBOW(Continuous Bag of Words)は周囲の単語から中心の単語を予測し、Skip-gramは中心の単語から周囲の単語を予測します。一般的にSkip-gramの方が低頻度語に強く、CBOWの方が高速です。
ベクトル演算による意味の表現
Word2Vecの最も画期的な発見は、学習されたベクトルが意味的な関係をベクトル演算で表現できることです。「king - man + woman ≒ queen」「東京 - 日本 + フランス ≒ パリ」のような類推が可能で、単語の意味が数値空間に構造的にエンコードされていることを示しています。
Word2Vecの影響
Word2Vecは自然言語処理だけでなく、推薦システム(Item2Vec)、グラフ解析(Node2Vec)、生物学(Gene2Vec)など多くの分野に「2Vec」の概念を広げました。現在はBERTなどの文脈埋め込みに取って代わられつつありますが、その影響は計り知れません。