マルチエージェント強化学習とは？わかりやすく解説

マルチエージェント強化学習とは

マルチエージェント強化学習（Multi-Agent Reinforcement Learning, MARL）とは、複数のエージェントが同一の環境内で同時に学習・行動する強化学習の枠組みです。エージェント間の相互作用（協力、競争、または混合）を考慮した方策学習が必要であり、単一エージェントの強化学習より格段に複雑な問題となります。

協力・競争・混合

協力型ではエージェントが共通の目標に向かって協調します（例：複数ロボットの協調搬送）。競争型ではエージェント同士が対立します（例：囲碁の対局）。混合型は両方の要素を含みます（例：サッカー）。設定に応じて異なるアルゴリズムやアーキテクチャが必要になります。

MARLの主要な課題

他のエージェントも同時に学習しているため環境が非定常となり、単一エージェント向けアルゴリズムの収束保証が崩れます。また、エージェント数が増えると行動空間が指数的に増大する「次元の呪い」や、個々のエージェントの貢献度を評価する「信用割当問題」が発生します。

代表的な手法

CTDE（Centralized Training with Decentralized Execution）は訓練時に全情報を使い、実行時は各エージェントが局所情報で行動する枠組みです。QMIX、MAPPO、MADDPGなどがこのアプローチの代表的な手法として広く使われています。