状態価値関数とは？わかりやすく解説

状態価値関数とは

状態価値関数（State Value Function）V(s)とは、ある状態sにいるときに、方策πに従って行動した場合に得られる将来の累積報酬（リターン）の期待値を返す関数です。状態の「良さ」を数値化するもので、V^π(s) = E_π[Σ γ^t r_t | s_0 = s] と数学的に定義されます。

状態価値関数の役割

状態価値関数はある状態にいること自体の価値を表します。例えばチェスにおいて、多くの駒を持つ有利な局面は高い状態価値を持ちます。方策の評価（現在の方策がどれだけ良いか）に利用されるほか、Actor-Critic手法ではベースラインとして分散の削減に活用されます。

ベルマン方程式との関係

状態価値関数はベルマン方程式 V^π(s) = Σ_a π(a|s) Σ_{s'} P(s'|s,a)[R(s,a,s') + γV^π(s')] を満たします。この再帰的な関係式により、動的計画法やTD学習を用いた効率的な価値推定が可能になります。最適状態価値関数 V*(s) はすべての方策の中で最大の値を取ります。

行動価値関数との関係

状態価値関数と行動価値関数には V^π(s) = Σ_a π(a|s) Q^π(s,a) という関係があります。状態価値関数は方策による行動の重み付き平均としてQ値から計算できます。アドバンテージ関数 A(s,a) = Q(s,a) - V(s) は両者の差として定義され、方策勾配法の効率化に重要な役割を果たします。