Q学習とは？わかりやすく解説

Q学習とは

Q学習（Q-Learning）とは、最適な行動価値関数Q*(s,a)を学習するモデルフリーの強化学習アルゴリズムです。1989年にChris Watkinsにより提案され、オフポリシー型のTD制御手法として広く利用されています。方策に依存せず最適Q値を直接学習できることが最大の特徴です。

Q学習の更新則

Q学習の更新式は Q(s,a) ← Q(s,a) + α[r + γ max_a' Q(s',a') - Q(s,a)] です。ここでαは学習率、rは即時報酬、γは割引率です。注目すべきは次状態での最大Q値 max_a' Q(s',a') を使う点で、これにより実際の行動方策とは独立に最適Q値を学習できます（オフポリシー学習）。

オフポリシーの利点

Q学習がオフポリシーであるとは、学習に使う方策（ε-greedyなど）と学習対象の方策（greedy方策）が異なることを意味します。これにより、探索しながら同時に最適方策を学習でき、他のエージェントのデータや過去のデータからも学習できるという柔軟性があります。

テーブル型Q学習の限界

テーブル型Q学習は全ての状態-行動ペアのQ値をテーブルに保持するため、状態空間が大きい問題では適用困難です。この制限を克服するため、ニューラルネットワークでQ値を近似するDQN（Deep Q-Network）が開発され、深層強化学習の幕を開けました。

Q学習とは

Q学習の更新則

オフポリシーの利点

テーブル型Q学習の限界

関連用語