GPTモデル

Generative Pre-trained Transformer

GPTとは

GPT(Generative Pre-trained Transformer)とは、OpenAIが開発した大規模言語モデルのシリーズです。Transformerのデコーダーを使い、次の単語を予測するタスク(自己回帰型言語モデリング)で事前学習された後、様々なタスクに適用できます。GPT-3以降は「大規模言語モデル(LLM)」の代名詞となりました。

GPTの発展

GPT-1(2018年)は1.17億パラメータで事前学習+ファインチューニングのパラダイムを確立しました。GPT-2(2019年)は15億パラメータに拡大し、Few-shot学習の可能性を示しました。GPT-3(2020年)は1750億パラメータで、プロンプトを与えるだけで多様なタスクを実行するIn-context Learningの能力を示しました。GPT-4(2023年)はマルチモーダル対応と推論能力の大幅な向上を達成しています。

BERTとの違い

BERTがTransformerのエンコーダーを使い双方向の文脈理解に優れるのに対し、GPTはデコーダーを使い自己回帰的にテキストを生成します。BERTは文の理解・分類タスクに、GPTはテキスト生成タスクに強みを持ちます。GPT-3以降はスケーリングにより理解タスクでも高い性能を発揮しています。

GPTの影響

ChatGPTの登場(2022年)により、LLMは一般ユーザーにも広く普及しました。GPTの成功は、Claude、Gemini、Llamaなどの競合モデルの開発を促進し、AI業界全体の急速な発展をもたらしています。