探索と活用とは
探索と活用(Exploration vs Exploitation)とは、強化学習における根本的なジレンマです。活用(Exploitation)は現在の知識に基づいて最善と思われる行動を選ぶことであり、探索(Exploration)はより良い行動を発見するために未知の行動を試すことです。この両者のバランスを取ることが強化学習の成功の鍵となります。
なぜバランスが重要か
活用だけを行うと、局所最適な方策に陥り、より良い方策を見つけられません。逆に探索だけでは、得られた知識を活かせず報酬の蓄積が進みません。例えば、いつも行くレストラン(活用)と新しい店を試すこと(探索)のトレードオフに似ています。
探索手法
ε-greedy法は確率εでランダムな行動を選びます。ボルツマン探索はQ値に基づくソフトマックス分布から行動をサンプリングします。UCB(Upper Confidence Bound)は不確実性の高い行動を優先的に選択します。方策勾配法では方策のエントロピーにボーナスを与えて探索を促進します。
高度な探索手法
好奇心駆動型探索(Curiosity-driven Exploration)は予測誤差を内発的報酬として利用し、ランダムネットワーク蒸留(RND)やCount-basedな手法も研究されています。スパース報酬環境での効率的な探索は強化学習の主要な研究課題の一つです。