文ベクトルとは
文ベクトル(Sentence Vector / Sentence Embedding)とは、文全体の意味を固定長の実数値ベクトルとして表現する技術です。単語ベクトルが個々の単語を表現するのに対し、文ベクトルは文全体の意味をベクトル空間に射影します。文の意味的類似度の計算や文の分類に広く活用されます。
文ベクトルの生成方法
最もシンプルな方法は、文中の単語ベクトルの平均を取る手法です。Doc2Vec(Paragraph Vector)は文全体の分散表現を直接学習する手法です。Sentence-BERTはBERTをファインチューニングして高品質な文ベクトルを生成するモデルで、現在最も広く使用されています。
文ベクトルの応用
文の意味的類似度計算(Semantic Textual Similarity)、類似文書検索、文書クラスタリング、パラフレーズ検出、RAGにおける検索、テキスト分類などに活用されています。特にRAGでは、質問文と文書のチャンクを文ベクトルに変換し、類似度で検索する処理が中核となっています。
多言語文ベクトル
Multilingual Sentence-BERTやLaBSE(Language-agnostic BERT Sentence Embedding)など、複数の言語で共通のベクトル空間に文を射影するモデルも開発されています。異なる言語間での文の類似度計算や多言語検索が可能になります。