Actor-Critic

Actor-Critic

Actor-Criticとは

Actor-Critic(アクタークリティック)とは、方策(Actor)と価値関数(Critic)の2つのコンポーネントを同時に学習する強化学習のアーキテクチャです。方策勾配法と価値ベース手法の利点を組み合わせ、効率的かつ安定した学習を実現します。

ActorとCriticの役割

Actor(行為者)は方策π_θ(a|s)を表すネットワークで、状態を入力として行動の確率分布を出力します。Critic(批評家)は価値関数V_w(s)またはQ_w(s,a)を表すネットワークで、Actorの行動を評価します。Criticの評価結果を用いてActorの方策を改善し、Criticもまた新しい方策のもとで価値推定を改善するという相互的な学習が行われます。

アドバンテージ関数

Actor-Criticではしばしばアドバンテージ関数 A(s,a) = Q(s,a) - V(s) を用いて方策勾配を推定します。アドバンテージ関数は「その行動が平均的な行動と比べてどれだけ良いか」を表し、バリアンスを大幅に削減します。GAE(Generalized Advantage Estimation)はバイアスとバリアンスのトレードオフを制御する実用的な手法です。

代表的な手法

A2C/A3C、PPO、SAC、TD3などの現代的な強化学習アルゴリズムの多くはActor-Criticアーキテクチャに基づいています。特にPPOは安定性と性能のバランスに優れ、最も広く使われているアルゴリズムの一つです。