言語モデルとは
言語モデル(Language Model)とは、自然言語のテキストに確率を割り当てるモデルです。ある単語の列がどれくらい「自然な」文であるかを確率的に評価したり、次に来る単語を予測したりします。現代のAI技術の中核をなす重要な概念です。
言語モデルの発展
N-gram言語モデルは単語のN-gram頻度に基づく統計的なモデルで、長い依存関係を捉えられない限界がありました。RNNベースの言語モデルは可変長の文脈を処理できますが、長距離依存関係の学習には課題がありました。Transformerベースの言語モデル(GPT、BERTなど)はAttention機構により長距離の依存関係を効果的に学習し、言語理解と生成の両方で画期的な性能を達成しました。
大規模言語モデル(LLM)
GPT-4、Claude、Gemini、Llamaなどの大規模言語モデル(LLM)は、数千億以上のパラメータを持ち、大量のテキストデータで事前学習されています。これらは翻訳、要約、質問応答、コード生成など、多様なタスクをプロンプトだけで実行できる汎用的な能力を持っています。
言語モデルの評価
言語モデルの品質はパープレキシティ(Perplexity)で評価されることが一般的です。パープレキシティが低いほど、モデルがテキストをより良く予測できていることを意味します。