マルコフ決定過程とは
マルコフ決定過程(MDP: Markov Decision Process)とは、強化学習問題を数学的に定式化するためのフレームワークです。MDPは状態集合S、行動集合A、状態遷移確率P(s'|s,a)、報酬関数R(s,a,s')、割引率γの5つの要素で定義され、逐次的意思決定問題の標準的なモデルとなっています。
マルコフ性
MDPの根幹をなすのがマルコフ性(Markov Property)です。これは「次の状態と報酬は現在の状態と行動のみに依存し、過去の履歴には依存しない」という性質で、P(s_{t+1}|s_t, a_t) = P(s_{t+1}|s_0, a_0, ..., s_t, a_t) が成り立ちます。この性質により問題が大幅に簡略化されます。
MDPの解法
MDPが完全に既知(遷移確率と報酬関数が分かっている)の場合は、価値反復法や方策反復法などの動的計画法で最適方策を求められます。環境が未知の場合は、モンテカルロ法、TD学習、Q学習などのモデルフリー手法で、環境との相互作用を通じて最適方策を学習します。
MDPの拡張
部分観測MDP(POMDP)は状態が完全に観測できない場合の拡張です。半マルコフ決定過程(SMDP)は行動の持続時間が可変な場合に対応します。これらの拡張により、より現実的な問題を扱うことが可能になります。