割引率

Discount Factor

割引率とは

割引率(Discount Factor)γとは、将来の報酬を現在の価値に換算する際に使用される0以上1以下の係数です。tステップ先の報酬にγ^tを掛けることで、遠い将来の報酬ほど割り引いて評価します。累積報酬(リターン)はG_t = r_t + γr_{t+1} + γ²r_{t+2} + ... と計算されます。

割引率の意味

割引率が1に近いほどエージェントは将来の報酬を重視し、長期的な視点で行動します。0に近いほど目先の報酬を重視する近視眼的な行動になります。例えばγ=0.99では100ステップ先の報酬は現在の約37%の価値を持ちますが、γ=0.9では100ステップ先はほぼ0の価値となります。

割引率が必要な理由

割引率の導入には数学的・実用的な理由があります。γ < 1とすることで無限の時間地平線でもリターンが有限に収束し、計算が可能になります。また、将来の報酬は不確実性が高いため割り引くのが合理的です。さらに、金融の時間価値の概念とも整合しています。

割引率の設定

一般的にγは0.95〜0.999の範囲で設定されます。タスクの時間スケールに応じて調整が必要で、短期的な判断が重要なタスクでは小さめ、長期的な計画が重要なタスクでは大きめに設定します。エピソディックなタスクではγ=1(割引なし)とすることもあります。