報酬とは
強化学習における報酬(Reward)とは、エージェントが行動した結果として環境から受け取るスカラー値のフィードバック信号です。報酬はエージェントの行動の良し悪しを即時的に評価するもので、エージェントは長期的な累積報酬を最大化することを目標として学習を行います。
即時報酬と累積報酬
即時報酬はある時点で受け取る一回の報酬値ですが、強化学習で本質的に重要なのは、将来にわたる報酬の累積(リターン)です。リターンは将来の報酬に割引率を掛けて合計した値で、目先の報酬だけでなく長期的な結果を考慮した行動選択を可能にします。
報酬信号の特徴
報酬はスパース(まれにしか得られない)な場合と、デンス(頻繁に得られる)な場合があります。ゲームのクリア時のみ報酬が与えられるスパース報酬の環境では学習が困難になりやすく、報酬シェーピングやカリキュラム学習などの工夫が必要になります。
報酬仮説
報酬仮説(Reward Hypothesis)は、「すべての目標はスカラーの累積報酬信号の最大化として定式化できる」という強化学習の基本仮説です。この仮説は強化学習の適用範囲の広さを示すと同時に、適切な報酬関数の設計が問題解決の鍵であることを意味しています。