優先度付き経験再生とは
優先度付き経験再生(Prioritized Experience Replay)とは、経験再生バッファからのサンプリング時に、すべての経験を均等に選ぶのではなく、学習に有用な経験を優先的にサンプリングする手法です。2015年にDeepMindにより提案されました。
TD誤差に基づく優先度
各経験の優先度は通常TD誤差の絶対値|δ|に基づいて設定されます。TD誤差が大きい経験は現在の価値推定と実際の値のズレが大きく、そこから多くのことを学べると期待されるためです。新しく追加された経験には最大の優先度を割り当て、少なくとも一度はサンプリングされるようにします。
比例型とランクベース型
優先度付きサンプリングには、TD誤差の大きさに比例した確率でサンプリングする比例型(Proportional)と、TD誤差の順位に基づく確率でサンプリングするランクベース型(Rank-based)の2種類があります。
重要度サンプリング補正
優先度付きサンプリングは一様分布からの逸脱であるため、学習にバイアスが生じます。これを補正するために重要度サンプリング重み w_i = (1/(N·P(i)))^β を使用します。βは学習の進行とともに1に近づけ、補正を段階的に強めます。