オフライン強化学習

Offline Reinforcement Learning

オフライン強化学習とは

オフライン強化学習(Offline Reinforcement Learning、バッチ強化学習とも呼ばれる)とは、事前に収集された固定のデータセットのみから方策を学習する強化学習の一分野です。学習中にエージェントが環境と直接相互作用することなく、既存のデータだけで最適方策の学習を目指します。

オフライン強化学習の動機

医療、金融、自律走行など多くの実世界の応用では、環境との直接的な試行錯誤が危険またはコストが高いため困難です。一方で、過去のログデータ(診療記録、取引履歴、走行データなど)は大量に蓄積されています。オフライン強化学習はこれらの既存データを活用して方策を学習します。

分布シフトの課題

オフライン強化学習の最大の課題は分布シフトです。学習した方策が、データ収集に使われた方策とは異なる行動を取る場合、データにない状態-行動ペアのQ値が過大評価され、方策が悪化します。CQL(Conservative Q-Learning)やIQL(Implicit Q-Learning)などの手法は、データ外の行動に対する過大評価を抑制することでこの問題に対処します。

応用と展望

オフライン強化学習は、オフラインで方策を学習した後にオンラインで微調整する「オフライン→オンライン」パイプラインや、LLMの訓練データの品質改善にも応用されています。