SACとは
SAC(Soft Actor-Critic)とは、2018年にUCバークレーの研究者らが提案したオフポリシー型のActor-Criticアルゴリズムです。報酬の最大化に加えて方策のエントロピーも最大化する「最大エントロピー強化学習」の枠組みに基づいており、連続行動空間のタスクで特に優れた性能を発揮します。
最大エントロピー原理
SACの目的関数は J(π) = Σ E[r(s,a) + αH(π(·|s))] で、従来の累積報酬に方策のエントロピーH(π)のボーナスを加えた形です。温度パラメータαはエントロピーの重要度を制御します。エントロピーの最大化により、報酬が同程度の行動をランダムに選ぶ「多様な」方策が学習され、探索が促進されます。
SACの特徴
SACはオフポリシー手法であるため、経験再生バッファを活用してサンプル効率が高いです。さらにエントロピー正則化により学習が安定し、ハイパーパラメータに対するロバスト性が高いことが実験的に示されています。温度パラメータαの自動調整機構も備えています。
応用分野
SACはロボットのマニピュレーション、移動制御、シミュレーション環境でのベンチマークタスクなど、連続制御問題で広く使用されています。PPOと並んで現代の深層強化学習の代表的なアルゴリズムの一つです。