状態価値関数とは
状態価値関数(State Value Function)V(s)とは、ある状態sにいるときに、方策πに従って行動した場合に得られる将来の累積報酬(リターン)の期待値を返す関数です。状態の「良さ」を数値化するもので、V^π(s) = E_π[Σ γ^t r_t | s_0 = s] と数学的に定義されます。
状態価値関数の役割
状態価値関数はある状態にいること自体の価値を表します。例えばチェスにおいて、多くの駒を持つ有利な局面は高い状態価値を持ちます。方策の評価(現在の方策がどれだけ良いか)に利用されるほか、Actor-Critic手法ではベースラインとして分散の削減に活用されます。
ベルマン方程式との関係
状態価値関数はベルマン方程式 V^π(s) = Σ_a π(a|s) Σ_{s'} P(s'|s,a)[R(s,a,s') + γV^π(s')] を満たします。この再帰的な関係式により、動的計画法やTD学習を用いた効率的な価値推定が可能になります。最適状態価値関数 V*(s) はすべての方策の中で最大の値を取ります。
行動価値関数との関係
状態価値関数と行動価値関数には V^π(s) = Σ_a π(a|s) Q^π(s,a) という関係があります。状態価値関数は方策による行動の重み付き平均としてQ値から計算できます。アドバンテージ関数 A(s,a) = Q(s,a) - V(s) は両者の差として定義され、方策勾配法の効率化に重要な役割を果たします。