強化学習（Reinforcement Learning）

Reinforcement Learning

機械学習重要度：高

概要

強化学習（Reinforcement Learning）とは、エージェント（行動主体）が環境と相互作用しながら、試行錯誤を通じて累積報酬を最大化する行動方策を学習する機械学習の手法です。教師あり学習のように正解ラベルが与えられるのではなく、行動の結果として環境から得られる報酬（スカラー値）をフィードバックとして学習を進めます。

強化学習は、ゲームAI、ロボット制御、自動運転、推薦システムなど、逐次的な意思決定が求められる問題に特に適しています。Google DeepMindのAlphaGoが囲碁の世界チャンピオンに勝利したことで、強化学習の有効性が広く認知されるようになりました。G検定では、教師あり学習・教師なし学習との違いを明確に理解することが求められます。

詳細解説

エージェントと環境

強化学習の枠組みでは、学習の主体を「エージェント」、エージェントが行動する対象の世界を「環境」と呼びます。各時刻において、エージェントは環境の状態（State）を観測し、それに基づいて行動（Action）を選択します。行動の結果として環境は次の状態に遷移し、エージェントに報酬（Reward）を与えます。

この「状態 → 行動 → 報酬 → 次の状態」のサイクルを繰り返しながら、エージェントは累積報酬を最大化する方策（Policy）を学習していきます。

主要な概念

状態（State）：ある時点での環境の状況。例えば、囲碁における盤面の配置が状態に相当します。
行動（Action）：エージェントが取りうる選択肢。囲碁であれば、石を置く位置が行動に当たります。
報酬（Reward）：行動に対する即時的な評価値。正の報酬は望ましい結果、負の報酬は望ましくない結果を示します。
方策（Policy）：状態から行動への対応付け。最適な方策を見つけることが強化学習の目標です。
価値関数（Value Function）：ある状態から将来得られる累積報酬の期待値。状態の「良さ」を評価します。
割引率（Discount Factor）：将来の報酬を現在の価値に換算する際の割引率。0から1の間の値を取ります。

探索と活用のトレードオフ

強化学習における重要な課題の一つが、探索（Exploration）と活用（Exploitation）のトレードオフです。探索とは、まだ試したことのない行動を取って新しい情報を得ること、活用とは、現時点で最良と分かっている行動を取ることです。探索が不足するとより良い方策を見逃す可能性があり、活用が不足すると短期間で報酬を得られません。このバランスを適切に調整することが、強化学習の性能に大きく影響します。

代表的なアルゴリズム

Q学習（Q-Learning）

Q学習は、状態と行動の組み合わせに対する価値（Q値）を学習するアルゴリズムです。Q値テーブルを更新しながら最適な方策を獲得します。モデルフリー（環境のモデルを必要としない）な手法であり、強化学習の基礎的なアルゴリズムとして広く知られています。

SARSA

SARSAは、Q学習と類似していますが、次の状態での実際の行動に基づいてQ値を更新する点が異なります。Q学習がオフポリシー型であるのに対し、SARSAはオンポリシー型のアルゴリズムです。

深層強化学習（Deep Reinforcement Learning）

深層強化学習は、ディープラーニング（深層ニューラルネットワーク）と強化学習を組み合わせた手法です。Q値の近似にニューラルネットワークを使うDQN（Deep Q-Network）が代表的な手法で、2015年にDeepMindがAtariゲームで人間を超える性能を達成したことで注目を集めました。

歴史・背景

強化学習の理論的基盤は、1950年代のリチャード・ベルマンによる動的計画法（Dynamic Programming）に遡ります。1989年にはクリストファー・ワトキンスがQ学習を提案し、モデルフリーな強化学習アルゴリズムの基礎を築きました。

1990年代にはリチャード・サットンとアンドリュー・バートーの教科書「Reinforcement Learning: An Introduction」が出版され、強化学習の理論体系が確立されました。2013年にはDeepMindがDQNを発表し、2016年にはAlphaGoが囲碁の世界チャンピオンであるイ・セドルに勝利するという歴史的な成果を達成しました。さらに2017年にはAlphaGo Zeroが人間の棋譜を一切使わず、自己対戦のみで超人的な強さを獲得しました。

具体的な事例

AlphaGo / AlphaGo Zero：Google DeepMindが開発した囲碁AI。深層強化学習とモンテカルロ木探索を組み合わせ、プロ棋士を上回る実力を獲得しました。
自動運転：車両の制御をエージェントとして、道路環境との相互作用を通じて安全な運転方策を学習します。
ロボット制御：産業用ロボットのアーム制御や歩行ロボットの動作学習に強化学習が活用されています。
ゲームAI：Atariゲーム、StarCraft II（AlphaStar）、Dota 2（OpenAI Five）など、複雑なゲームでの超人的プレイを実現しています。
推薦システム：ユーザーのフィードバックを報酬として、長期的な顧客満足度を最大化する推薦方策を学習します。

G検定での出題ポイント

強化学習はエージェントが環境と相互作用し、報酬を最大化する方策を学習する手法であることを理解する
教師あり学習（正解ラベルで学習）・教師なし学習（データ構造の発見）との違いを明確に区別する
状態・行動・報酬・方策・価値関数などの基本用語を正確に理解する
探索と活用のトレードオフの概念を押さえる
AlphaGoが深層強化学習を用いた代表的な応用事例であることを知っておく

試験対策のポイント

強化学習は「正解ラベルなし」「報酬」に基づく学習。教師あり学習とも教師なし学習とも異なる第3の学習パラダイム
エージェント・環境・状態・行動・報酬・方策の関係を図でイメージできるようにする
探索（新しい行動を試す）と活用（既知の最良行動を取る）のジレンマを理解する
AlphaGoは深層強化学習の代表的な成功事例。AlphaGo Zeroは人間の棋譜なしで自己対戦のみで学習
Q学習はモデルフリーな強化学習の基本アルゴリズム