行動とは
強化学習における行動(Action)とは、エージェントが各タイムステップで選択する操作や意思決定のことです。エージェントは現在の状態を観測し、方策に基づいて行動を選択します。選択された行動は環境に作用し、状態の遷移と報酬の発生を引き起こします。
行動空間の種類
行動空間(Action Space)は取り得る全ての行動の集合です。離散行動空間では有限個の選択肢(上下左右の移動など)から行動を選び、連続行動空間ではロボットの関節トルクや車のステアリング角度のように連続値として行動を決定します。離散空間にはQ学習やDQN、連続空間にはPPOやSACなどのアルゴリズムが適しています。
行動選択と方策
行動選択は方策(Policy)に基づいて行われます。決定論的方策は状態に対して一つの行動を返し、確率的方策は行動の確率分布を返します。探索と活用のバランスを取るために、ε-greedy法やボルツマン探索などの手法が用いられます。
行動の制約
実世界の問題では、安全性や物理法則による行動の制約が存在します。制約付き強化学習では、累積コストを一定以下に保ちながら報酬を最大化する問題として定式化し、安全な行動選択を保証する手法が研究されています。