RLHF

Reinforcement Learning from Human Feedback

RLHFとは

RLHF(Reinforcement Learning from Human Feedback、人間のフィードバックからの強化学習)とは、人間の好みや判断を報酬信号として大規模言語モデル(LLM)を微調整する手法です。ChatGPTやClaude、Geminiなどの現代のAIアシスタントの訓練に不可欠な技術として広く採用されています。

RLHFのプロセス

RLHFは3つのステップで行われます。第一に、教師あり微調整(SFT)で基本的な応答能力を学習します。第二に、人間のアノテーターがモデルの出力を比較評価し、そのデータから報酬モデルを訓練します。第三に、報酬モデルからの報酬信号を用いてPPOなどの強化学習アルゴリズムでLLMを最適化します。

なぜRLHFが必要か

事前学習だけでは、モデルの出力が人間にとって有用で安全であることは保証されません。「有用性」「正直さ」「無害性」といった人間の価値観をスカラーの報酬関数として定式化することは困難ですが、「出力Aと出力Bのどちらが良いか」という比較判断は人間が容易に行えます。RLHFはこの比較データを活用して間接的に報酬関数を学習します。

RLHFの課題と発展

報酬モデルの過最適化(Reward Hacking)、アノテーター間の一貫性の確保、計算コストの高さなどが課題です。DPO(Direct Preference Optimization)のようにRLステップを省略する手法や、AI自身のフィードバックを使うRLAIFなどの発展手法も研究されています。