Word2Vec(歴史的意義)

Word2Vec (Historical Significance)

Word2Vecとは

Word2Vec(ワード・ツー・ベック)は、2013年にGoogleのトーマス・ミコロフらが発表した、単語を固定長のベクトル(数値の並び)に変換する手法です。自然言語処理(NLP)の歴史において、単語の意味を数値的に捉えることを可能にした画期的な技術です。

単語の分散表現

Word2Vecの革新性は、単語を高次元のベクトル空間に配置し、意味的に近い単語が近くに位置するようにしたことです。「king - man + woman = queen」のようなベクトル演算で意味的な関係を捉えられることが示され、世界中の研究者を驚かせました。

2つのアーキテクチャ

Word2Vecには、CBOW(Continuous Bag of Words)とSkip-gramという2つのモデルがあります。CBOWは周囲の単語から中心の単語を予測し、Skip-gramは中心の単語から周囲の単語を予測します。単純なニューラルネットワーク構造でありながら、大規模コーパスから豊かな意味表現を学習できる効率性が特徴です。

NLP史における位置づけ

Word2Vecは、NLPにおける転移学習の先駆けとなりました。事前学習された単語ベクトルをさまざまなタスクに再利用するというパラダイムは、後のELMo、BERT、GPTなどの大規模事前学習モデルへと発展していきます。Word2Vecは「単語の意味を計算可能にした」という点で、NLPの歴史における重要なマイルストーンです。