方策勾配法とは
方策勾配法(Policy Gradient)とは、方策をパラメータθで直接表現し、期待累積報酬J(θ)を最大化するようにθを勾配上昇法で更新する強化学習のアプローチです。価値ベースの手法(Q学習など)とは異なり、方策そのものを直接最適化する点が特徴です。
方策勾配定理
方策勾配定理により、期待リターンの勾配は ∇_θ J(θ) = E_π[∇_θ log π_θ(a|s) · Q^π(s,a)] と表されます。この式は、報酬の高い行動の確率を上げ、報酬の低い行動の確率を下げるように方策パラメータを更新することを意味します。
価値ベース手法との比較
方策勾配法は連続行動空間を自然に扱える、確率的方策を直接表現できる、方策が滑らかに変化するという利点があります。一方、勾配推定のバリアンスが大きく学習が不安定になりやすい、局所最適解に陥りやすいという欠点があります。
バリアンス削減
方策勾配法の実用的な課題はバリアンスの大きさです。ベースライン(通常は状態価値関数V(s))の導入やアドバンテージ関数A(s,a) = Q(s,a) - V(s)の利用により、勾配推定のバリアンスを大幅に削減できます。これがActor-Critic手法の基礎となっています。