モデルフリー強化学習とは
モデルフリー強化学習(Model-Free Reinforcement Learning)とは、環境の動力学モデル(状態遷移関数や報酬関数)を明示的に学習せず、環境との直接的な相互作用から得られる経験のみに基づいて方策を学習するアプローチです。現在の深層強化学習で最も広く使われているパラダイムです。
価値ベースと方策ベース
モデルフリー手法は大きく2つに分類されます。価値ベース手法(Q学習、DQNなど)は行動価値関数を学習し、そこから最適行動を導出します。方策ベース手法(REINFORCE、PPOなど)は方策を直接パラメータ化して最適化します。Actor-Critic手法は両者を組み合わせたハイブリッドです。
モデルフリー手法の利点
環境モデルの構築が不要なため、複雑で未知の環境にも適用できます。モデルの不正確さに起因する性能低下が生じないため、環境のダイナミクスが複雑な場合にロバストな学習が可能です。実装もモデルベース手法と比べてシンプルです。
モデルフリー手法の限界
環境モデルを使ったシミュレーションができないため、実環境との大量の相互作用が必要でサンプル効率が低いことが最大の課題です。実世界での試行錯誤がコスト高となるロボティクスなどの応用では、この制限が実用化の障壁となります。