InstructGPTとは
InstructGPT(インストラクトGPT)とは、OpenAIが2022年に発表した、人間の指示(Instruction)に忠実に従うよう訓練されたLLMです。RLHFの手法を初めて大規模に適用した画期的なモデルであり、後のChatGPTの技術的基盤となりました。InstructGPTは1.3Bパラメータという比較的小さなモデルでありながら、175BパラメータのGPT-3を超えるユーザー満足度を達成したことで大きな注目を集めました。
InstructGPTの訓練方法
InstructGPTの訓練は3段階で構成されます。まず、人間のラベラーが作成した高品質な指示-応答ペアでGPT-3を教師ありファインチューニング(SFT)します。次に、モデルの複数の出力を人間がランキングしたデータから報酬モデルを訓練します。最後に、PPOアルゴリズムを用いた強化学習で、報酬モデルのスコアを最大化するようモデルを最適化します。
InstructGPTの影響
InstructGPTは、LLMの開発パラダイムに根本的な変革をもたらしました。それまでの「モデルを大きくすれば性能が上がる」というスケーリング一辺倒のアプローチから、「人間の意図に沿うよう調整する」というアライメント重視のアプローチへの転換を促しました。この成功により、RLHFは現在のほぼ全ての商用LLMで標準的な訓練プロセスとして採用されています。