模倣学習

Imitation Learning

模倣学習とは

模倣学習(Imitation Learning)とは、エキスパート(熟練者)のデモンストレーションから方策を学習する手法の総称です。報酬関数を必要とせず、人間やエキスパートシステムの行動を直接模倣することで、複雑なタスクの方策を効率的に獲得します。

行動クローニング

行動クローニング(Behavioral Cloning, BC)は最もシンプルな模倣学習手法で、エキスパートの状態-行動ペアを教師データとして教師あり学習を行います。実装が簡単ですが、学習した方策が一度エキスパートの軌道から外れるとエラーが蓄積する「分布シフト」の問題があります。

DAgger

DAgger(Dataset Aggregation)は行動クローニングの分布シフト問題を解決する手法です。学習中の方策で新しい軌道を生成し、その軌道上の状態でエキスパートに正しい行動を問い合わせてデータセットに追加するという反復的なプロセスを行います。

強化学習との組み合わせ

模倣学習は強化学習と組み合わせて使われることも多いです。模倣学習で方策を初期化し、その後強化学習で微調整する方法や、GAIL(Generative Adversarial Imitation Learning)のようにGANの枠組みで模倣と強化学習を統合する方法があります。LLMのRLHFも広義には模倣学習と強化学習の組み合わせです。