状態とは
強化学習における状態(State)とは、ある時点での環境の状況を表す情報のことです。エージェントは状態を観測し、それに基づいて次に取るべき行動を決定します。状態はエージェントが最適な行動を選択するために必要な情報をすべて含んでいることが理想的です。
状態空間
取り得る全ての状態の集合を状態空間(State Space)と呼びます。チェスのようなボードゲームでは盤面の配置が状態であり、ロボット制御では関節の角度や角速度が状態に含まれます。状態空間は離散的(有限個の状態)な場合と連続的(無限の状態)な場合があり、連続状態空間を持つ問題ではニューラルネットワークなどの関数近似が必要になります。
観測と状態の区別
理論的には状態は環境の完全な記述ですが、実際にはエージェントが環境の全情報を得られるとは限りません。エージェントが実際に受け取る情報を「観測(Observation)」と呼び、完全な状態と区別します。ポーカーで相手の手札が見えない場合のように、部分的な観測しか得られない問題は部分観測MDP(POMDP)として定式化されます。
状態表現の重要性
適切な状態表現の設計は強化学習の性能に大きく影響します。画像を状態とする場合はCNNで特徴を抽出し、時系列的な情報が重要な場合はフレームスタッキングやRNNを用いて過去の情報を組み込むなどの工夫が行われています。