報酬設計

Reward Design

報酬設計とは

報酬設計(Reward Design)とは、強化学習においてエージェントが望ましい行動を学習するための報酬関数を適切に設計するプロセスです。報酬関数はタスクの目標をエージェントに伝える唯一の手段であり、その設計が学習の成否を大きく左右します。

報酬設計の難しさ

人間にとっては自明な目標でも、それをスカラーの報酬信号として正確に定式化することは困難です。不適切な報酬設計はReward Hacking(報酬ハッキング)を引き起こし、エージェントが設計者の意図とは異なる方法で報酬を最大化するショートカットを見つけてしまう場合があります。

報酬関数の種類

スパース報酬はタスク達成時のみ報酬を与える設計で、目標が明確ですが学習が困難です。デンス報酬は各ステップで細かいフィードバックを与え、学習を加速しますが、意図しない行動を誘発するリスクがあります。実用的にはスパース報酬と補助的なデンス報酬を組み合わせることが多いです。

報酬設計の代替アプローチ

報酬設計の難しさを回避するため、人間のフィードバックから報酬を学習するRLHF、デモンストレーションから報酬を推定する逆強化学習、目標到達のみを報酬とするGoal-conditioned RLなどの手法が研究されています。