方策勾配法とは？わかりやすく解説 | AI用語集

方策勾配法とは

方策勾配法（Policy Gradient）とは、方策をパラメータθで直接表現し、期待累積報酬J(θ)を最大化するようにθを勾配上昇法で更新する強化学習のアプローチです。価値ベースの手法（Q学習など）とは異なり、方策そのものを直接最適化する点が特徴です。

方策勾配定理

方策勾配定理により、期待リターンの勾配は ∇_θ J(θ) = E_π[∇_θ log π_θ(a|s) · Q^π(s,a)] と表されます。この式は、報酬の高い行動の確率を上げ、報酬の低い行動の確率を下げるように方策パラメータを更新することを意味します。

価値ベース手法との比較

方策勾配法は連続行動空間を自然に扱える、確率的方策を直接表現できる、方策が滑らかに変化するという利点があります。一方、勾配推定のバリアンスが大きく学習が不安定になりやすい、局所最適解に陥りやすいという欠点があります。

バリアンス削減

方策勾配法の実用的な課題はバリアンスの大きさです。ベースライン（通常は状態価値関数V(s)）の導入やアドバンテージ関数A(s,a) = Q(s,a) - V(s)の利用により、勾配推定のバリアンスを大幅に削減できます。これがActor-Critic手法の基礎となっています。

← 強化学習・ロボティクス一覧に戻る AI用語集 TOPへ →