環境(強化学習)

Environment

環境とは

強化学習における環境(Environment)とは、エージェントが行動する場となる外部世界のことです。環境はエージェントの行動を受け取り、その結果として次の状態と報酬をエージェントに返す役割を担います。環境の性質がタスクの難易度や学習アルゴリズムの選択に大きく影響します。

環境のモデル化

多くの強化学習問題は、マルコフ決定過程(MDP)として環境をモデル化します。MDPでは状態遷移確率と報酬関数によって環境の振る舞いが定義されます。次の状態が現在の状態と行動のみに依存するというマルコフ性が成り立つことが前提となりますが、現実の環境では部分的にしか状態を観測できない部分観測MDP(POMDP)として扱うこともあります。

環境の種類

環境は決定論的(同じ状態・行動なら同じ結果)と確率的(結果にランダム性あり)、離散的(有限の状態・行動)と連続的(無限の状態・行動空間)、完全観測(全状態を観測可能)と部分観測(一部のみ観測可能)など、さまざまな軸で分類されます。これらの特性に応じて適切なアルゴリズムを選択する必要があります。

シミュレーション環境の重要性

現実世界でのデータ収集はコストやリスクが高いため、OpenAI GymやMuJoCoなどのシミュレーション環境が広く利用されています。シミュレーションでは安全かつ高速に大量の経験を収集でき、強化学習研究の進展に大きく貢献しています。