Q学習とは
Q学習(Q-Learning)とは、最適な行動価値関数Q*(s,a)を学習するモデルフリーの強化学習アルゴリズムです。1989年にChris Watkinsにより提案され、オフポリシー型のTD制御手法として広く利用されています。方策に依存せず最適Q値を直接学習できることが最大の特徴です。
Q学習の更新則
Q学習の更新式は Q(s,a) ← Q(s,a) + α[r + γ max_a' Q(s',a') - Q(s,a)] です。ここでαは学習率、rは即時報酬、γは割引率です。注目すべきは次状態での最大Q値 max_a' Q(s',a') を使う点で、これにより実際の行動方策とは独立に最適Q値を学習できます(オフポリシー学習)。
オフポリシーの利点
Q学習がオフポリシーであるとは、学習に使う方策(ε-greedyなど)と学習対象の方策(greedy方策)が異なることを意味します。これにより、探索しながら同時に最適方策を学習でき、他のエージェントのデータや過去のデータからも学習できるという柔軟性があります。
テーブル型Q学習の限界
テーブル型Q学習は全ての状態-行動ペアのQ値をテーブルに保持するため、状態空間が大きい問題では適用困難です。この制限を克服するため、ニューラルネットワークでQ値を近似するDQN(Deep Q-Network)が開発され、深層強化学習の幕を開けました。