ベルマン方程式

Bellman Equation

ベルマン方程式とは

ベルマン方程式(Bellman Equation)とは、価値関数が満たすべき再帰的な関係式です。リチャード・ベルマンが動的計画法の研究で導出したもので、現在の状態の価値を「即時報酬 + 割引された次状態の価値」として分解します。強化学習のほぼすべてのアルゴリズムはベルマン方程式に基づいています。

ベルマン期待方程式

ある方策πに対するベルマン期待方程式は V^π(s) = Σ_a π(a|s) Σ_{s'} P(s'|s,a)[R + γV^π(s')] と表されます。これは「現在の状態の価値は、方策に従って取る各行動について、即時報酬と次状態の割引された価値の期待値に等しい」ことを意味します。

ベルマン最適方程式

最適方策に対するベルマン最適方程式は V*(s) = max_a Σ_{s'} P(s'|s,a)[R + γV*(s')] です。「最適な状態価値は、最も良い行動を選んだときに得られる期待値に等しい」ことを示します。Q値版は Q*(s,a) = Σ_{s'} P(s'|s,a)[R + γ max_a' Q*(s',a')] です。

強化学習アルゴリズムとの関係

動的計画法はベルマン方程式を直接解きます。TD学習はベルマン方程式のサンプルベースの近似的解法であり、Q学習はベルマン最適方程式に基づく更新則を用いています。ベルマン方程式の理解は強化学習の理論と実装の両面で不可欠です。