方策とは
方策(Policy)とは、強化学習においてエージェントが状態に応じてどの行動を選択するかを定めるルールや戦略のことです。方策はエージェントの振る舞いを完全に規定するもので、強化学習の究極的な目標は最適な方策を見つけることにあります。数学的には、状態から行動への写像として表現されます。
決定論的方策と確率的方策
決定論的方策 π(s) = a は、各状態に対して一つの行動を確定的に返します。確率的方策 π(a|s) は、各状態における行動の確率分布を返します。確率的方策は探索の促進に有利であり、方策勾配法では確率的方策が一般的に用いられます。連続行動空間の問題でも確率的方策が扱いやすいという利点があります。
方策の表現方法
小規模な問題ではテーブル形式で方策を表現できますが、状態空間が大きい場合はニューラルネットワークなどのパラメトリックな関数で方策を近似します。深層強化学習では、方策ネットワーク(Policy Network)が状態を入力として行動確率やパラメータを出力します。
最適方策
あらゆる状態で期待累積報酬を最大化する方策を最適方策(Optimal Policy)と呼びます。最適方策はベルマン最適方程式を満たし、対応する最適価値関数から導出できます。実際の問題では近似的に最適方策を求めることになります。