ε-greedy法とは
ε-greedy法(Epsilon-Greedy)とは、強化学習で探索と活用のバランスを取るための最も基本的な行動選択手法です。確率1-εで現在のQ値が最大の行動を選び(活用)、確率εでランダムな行動を選ぶ(探索)という単純なルールに基づいています。
ε-greedy法の仕組み
各タイムステップで0から1の一様乱数を生成し、その値がεより小さければランダムに行動を選択(探索)、εより大きければQ値が最大の行動を選択(活用)します。εは通常0.01〜0.1程度に設定されます。例えばε=0.1の場合、10%の確率でランダム行動、90%の確率で最善行動を選びます。
εの減衰スケジュール
学習初期は探索を多く行い、学習が進むにつれて活用を増やすのが効果的です。そのためεを学習の進行とともに徐々に小さくする「ε減衰(ε-decay)」がよく用いられます。線形減衰や指数減衰が一般的で、最終的にε_minまで下げた後は一定値に保ちます。
利点と限界
ε-greedy法は実装が簡単で直感的に理解しやすいという利点があります。しかし、探索時に完全にランダムな行動を選ぶため、Q値が2番目に高い行動もQ値が最低の行動も同じ確率で選ばれるという非効率性があります。この改善策としてボルツマン探索やUCBなどの手法があります。