マルチエージェント強化学習

Multi-Agent Reinforcement Learning

マルチエージェント強化学習とは

マルチエージェント強化学習(Multi-Agent Reinforcement Learning, MARL)とは、複数のエージェントが同一の環境内で同時に学習・行動する強化学習の枠組みです。エージェント間の相互作用(協力、競争、または混合)を考慮した方策学習が必要であり、単一エージェントの強化学習より格段に複雑な問題となります。

協力・競争・混合

協力型ではエージェントが共通の目標に向かって協調します(例:複数ロボットの協調搬送)。競争型ではエージェント同士が対立します(例:囲碁の対局)。混合型は両方の要素を含みます(例:サッカー)。設定に応じて異なるアルゴリズムやアーキテクチャが必要になります。

MARLの主要な課題

他のエージェントも同時に学習しているため環境が非定常となり、単一エージェント向けアルゴリズムの収束保証が崩れます。また、エージェント数が増えると行動空間が指数的に増大する「次元の呪い」や、個々のエージェントの貢献度を評価する「信用割当問題」が発生します。

代表的な手法

CTDE(Centralized Training with Decentralized Execution)は訓練時に全情報を使い、実行時は各エージェントが局所情報で行動する枠組みです。QMIX、MAPPO、MADDPGなどがこのアプローチの代表的な手法として広く使われています。