報酬シェーピング

Reward Shaping

報酬シェーピングとは

報酬シェーピング(Reward Shaping)とは、元の報酬関数に補助的な報酬を追加することで、エージェントの学習を加速させる手法です。特にスパース報酬の問題で学習が進まない場合に、ゴールに向かう途中のステップにも報酬を与えることで、エージェントを正しい方向に誘導します。

報酬シェーピングの方法

典型的な報酬シェーピングとして、目標までの距離に基づく報酬(近づけば正の報酬、遠ざかれば負の報酬)や、中間的な達成目標に対する報酬があります。例えばロボットの歩行タスクでは、前進速度に比例した報酬を与えることで学習を促進できます。

ポテンシャルベースの報酬シェーピング

無秩序に報酬を追加すると最適方策が変わってしまうリスクがあります。ポテンシャルベース報酬シェーピングは F(s,s') = γΦ(s') - Φ(s) の形で補助報酬を設計する手法で、最適方策を変えないことが理論的に保証されています。Φ(s)はポテンシャル関数と呼ばれます。

報酬シェーピングの注意点

不適切な報酬シェーピングはエージェントが補助報酬の最大化に固執し、本来の目標を達成しない問題を引き起こすことがあります。報酬シェーピングの設計にはドメイン知識が必要であり、試行錯誤が不可避です。