GPTとは
GPT(Generative Pre-trained Transformer)は、OpenAIが開発したTransformerのデコーダーをベースとした自己回帰型の言語モデルアーキテクチャです。2018年のGPT-1から始まり、GPT-2、GPT-3、GPT-4と進化を重ね、テキスト生成能力を劇的に向上させてきました。ChatGPTの基盤技術としても知られ、大規模言語モデル(LLM)の代名詞的存在です。
GPTのアーキテクチャ
GPTはTransformerのデコーダー部分のみを使用し、マスク付き自己注意機構(Masked Self-Attention)により左から右への単方向の文脈で次のトークンを予測します。各位置のトークンは自分自身と左側のトークンのみを参照でき、右側の未来のトークンは参照できません。この自己回帰的な設計により、自然なテキスト生成が可能になっています。
スケーリングの成功
GPTシリーズはモデルサイズとデータ量のスケールアップにより性能が飛躍的に向上することを実証しました。GPT-1は1.2億パラメータ、GPT-2は15億パラメータ、GPT-3は1750億パラメータと規模を拡大し、GPT-3では少数ショット学習(Few-shot Learning)の能力が創発的に出現しました。このスケーリング則の発見はAI研究の方向性に大きな影響を与えました。
GPTの影響と現在の位置づけ
GPTのアーキテクチャは、LLaMA、Mistral、Gemmaなど多くのオープンソースLLMにも採用されており、現代の大規模言語モデルの標準的な設計となっています。デコーダーのみの構造は、テキスト生成だけでなく、プログラミング(Codex/GitHub Copilot)、マルチモーダル理解(GPT-4V)、推論(o1シリーズ)など、幅広いタスクの基盤として発展を続けています。