ターゲットネットワークとは
ターゲットネットワーク(Target Network)とは、DQNにおいてTDターゲットの計算に使用する固定パラメータのネットワークです。学習対象のメインネットワーク(オンラインネットワーク)とは別に、一定期間パラメータを固定したコピーを保持し、TDターゲット r + γ max_a' Q(s',a';θ⁻) の計算に使います。
なぜターゲットネットワークが必要か
ニューラルネットワークでQ値を近似する場合、更新のたびにTDターゲットも変動するため、学習が不安定になる「移動ターゲット問題」が発生します。ターゲットネットワークのパラメータを固定することで、TDターゲットを安定化させ、発散や振動を防ぎます。
パラメータの更新方法
ターゲットネットワークのパラメータθ⁻はハード更新またはソフト更新で更新されます。ハード更新は一定ステップごとにメインネットワークのパラメータをそのままコピーします。ソフト更新(Polyak averaging)は θ⁻ ← τθ + (1-τ)θ⁻(τは小さな値、例えば0.005)で徐々に追随させます。
適用範囲
ターゲットネットワークはDQNで導入されましたが、DDPG、TD3、SACなど多くの深層強化学習アルゴリズムで使用されています。深層強化学習の学習安定性を確保するための標準的な技術となっています。