情報検索とは
情報検索(Information Retrieval)とは、大量の文書集合の中からユーザーの情報要求に合致する文書を見つけ出す技術です。検索エンジンの中核技術であり、Web検索、企業内検索、学術論文検索など、現代の情報アクセスを支える基盤技術です。
情報検索の基本手法
ブーリアンモデルはAND、OR、NOTの論理演算で検索します。ベクトル空間モデルは文書とクエリをベクトルとして表現し、コサイン類似度でランキングします。BM25は確率モデルに基づく手法で、現在でも広く使われている効果的なランキング関数です。
ニューラル情報検索
近年はBERTなどの事前学習モデルを用いたニューラル情報検索が急速に発展しています。密ベクトル検索(Dense Retrieval)は文書とクエリを密なベクトルに変換し、ベクトルの近傍探索で検索します。ColBERTなどの遅延交互作用モデルも注目されています。
RAGとの関連
検索拡張生成(RAG)は、情報検索と大規模言語モデルを組み合わせたアプローチです。関連文書を検索して取得し、その情報を基に言語モデルが回答を生成します。これにより、最新情報への対応やハルシネーションの軽減が可能になります。