RLHFとは
RLHF(Reinforcement Learning from Human Feedback:人間のフィードバックからの強化学習)とは、人間の評価者によるフィードバックを使って報酬モデルを訓練し、その報酬モデルを用いて強化学習によりLLMの出力を改善する手法です。ChatGPTの成功を支える核心技術として広く知られるようになりました。
RLHFのプロセス
RLHFは一般的に3つの段階で行われます。第1段階(SFT)では、人間が作成した高品質なデモンストレーションデータで教師ありファインチューニングを行います。第2段階では、モデルの複数の出力を人間が順位付けしたデータから報酬モデル(Reward Model)を訓練します。第3段階では、PPO(Proximal Policy Optimization)などの強化学習アルゴリズムを用いて、報酬モデルのスコアを最大化するようLLMを最適化します。
RLHFの意義と課題
RLHFにより、AIは人間の意図や好みに沿った有用で安全な応答を生成できるようになります。これは「アライメント」(人間の価値観との整合)の重要な手段です。ただし、人間の評価にはバイアスが含まれる可能性があり、報酬モデルのハッキング(高い報酬を得るが実質的に有害な出力の最適化)のリスクもあります。コストの高さも課題で、代替手法としてDPO(Direct Preference Optimization)が注目されています。