強化学習(基礎)

Reinforcement Learning Basics

強化学習(Reinforcement Learning)とは、エージェントが環境と相互作用しながら、報酬を最大化する行動方策を学習する機械学習の一分野です。教師あり学習が「正解」を与えるのに対し、強化学習は「報酬」というフィードバックから学習します。

基本要素

エージェント(学習する主体)、環境(エージェントが行動する世界)、状態(環境の状況)、行動(エージェントの選択)、報酬(行動の結果として得られるフィードバック)の5つの基本要素で構成されます。

探索と活用のジレンマ

既に高い報酬が得られる行動を繰り返す「活用」と、未知の行動を試してより良い報酬を探す「探索」のバランスが重要な課題です。ε-greedy法やUCBアルゴリズムなどがこのバランスを制御します。

活用例

ゲームAI(AlphaGo、Atari)、ロボット制御、自動運転、推薦システム、LLMの調整(RLHF)など、幅広い分野で活用されています。