大規模言語モデル(LLM)とは
大規模言語モデル(LLM:Large Language Model)とは、数十億から数兆のパラメータを持ち、膨大なテキストデータで事前学習された自然言語処理モデルです。Transformerアーキテクチャを基盤とし、テキストの生成・要約・翻訳・質問応答など、幅広い言語タスクを高い精度でこなします。
LLMの仕組み
LLMは大きく分けて「事前学習」と「ファインチューニング」の2段階で構築されます。事前学習ではインターネット上の大量のテキストから言語の構造やパターンを学習し、ファインチューニングでは特定のタスクや指示への応答能力を向上させます。RLHFなどの手法を通じて、人間の意図に沿った出力ができるよう調整されます。
主要なLLMとその影響
代表的なLLMにはGPT-4、Claude、Gemini、LLaMA、Mistralなどがあります。これらは企業の業務効率化から創作支援まで、社会に大きなインパクトを与えています。パラメータ数の増大に伴いモデルの能力が向上する「スケーリング則」が知られていますが、計算コストやエネルギー消費、安全性の確保といった課題にも注目が集まっています。