REINFORCE

REINFORCE

REINFORCEとは

REINFORCE(REward Increment = Nonnegative Factor × Offset Reinforcement × Characteristic Eligibility)とは、1992年にRonald Williamsにより提案された方策勾配法の最も基本的なアルゴリズムです。モンテカルロ法に基づいてリターンをサンプリングし、方策パラメータを更新します。

アルゴリズムの仕組み

REINFORCEはエピソード全体を実行した後、各タイムステップでの勾配推定を計算します。更新式は θ ← θ + α · ∇_θ log π_θ(a_t|s_t) · G_t で、G_tはそのステップ以降の累積報酬(リターン)です。高い報酬を得た行動の選択確率を上げ、低い報酬の行動の確率を下げるよう方策を更新します。

ベースラインの導入

REINFORCEの勾配推定はバリアンスが大きいため、ベースラインb(s)を導入して ∇_θ log π_θ(a_t|s_t) · (G_t - b(s_t)) とすることで分散を削減します。ベースラインとしては状態価値関数V(s)の推定値がよく使われ、これはREINFORCE with Baselineと呼ばれます。

REINFORCEの特徴と限界

モンテカルロ法ベースのためバイアスがなく収束保証がありますが、エピソード完了まで待つ必要があること、バリアンスが大きいことが実用上の限界です。これらの改善としてTD学習を組み合わせたActor-Criticが発展しました。