階層型強化学習

Hierarchical Reinforcement Learning

階層型強化学習とは

階層型強化学習(Hierarchical Reinforcement Learning, HRL)とは、方策を複数の階層に分解し、高レベルの方策が抽象的なサブゴールや選択肢を決定し、低レベルの方策がそれを実現する具体的な行動を実行する強化学習のアプローチです。

階層化の動機

長い時間地平を持つ複雑なタスクでは、プリミティブな行動レベルでの学習は非効率です。人間が「料理をする」を「食材を切る→炒める→味付けする」と分解するように、タスクを階層的に分解することで学習効率と転移可能性が向上します。

代表的な枠組み

Options Framework(オプション枠組み)では、開始条件、内部方策、終了条件を持つ時間的に拡張された行動(オプション)を学習します。Feudal Networks(封建ネットワーク)では、マネージャーがサブゴールを設定しワーカーがそれを達成するという主従関係で階層を構成します。HIRO、HAMなどの手法も研究されています。

課題と展望

サブゴールの適切な設計やサブタスクの自動発見は依然として困難な課題です。大規模言語モデルをハイレベルプランナーとして活用し、低レベルの行動は強化学習で学習する新しいアプローチも注目されています。