確率的勾配降下法(SGD)

Stochastic Gradient Descent

確率的勾配降下法(SGD: Stochastic Gradient Descent)とは、訓練データからランダムに1つまたは少数のサンプルを選び、その勾配に基づいてパラメータを更新する最適化アルゴリズムです。標準的な勾配降下法の効率的な近似手法として広く利用されています。

SGDの利点

SGDの最大の利点は計算効率です。全データに対する勾配を計算するバッチ勾配降下法に比べ、1サンプル(または少数サンプル)で更新を行うため、大規模データセットでも高速に学習できます。また、ノイズを含む更新が局所最適解からの脱出に役立つ場合があります。

ミニバッチSGD

実務では、1サンプルではなく小さなバッチ(ミニバッチ)単位で勾配を計算するミニバッチSGDが最も一般的です。これはSGDのノイズを適度に抑えながら計算効率を保つバランスの取れた手法です。

SGDの発展形

SGDを改良した手法として、モメンタム、AdaGrad、RMSprop、Adamなどのオプティマイザがあります。これらは学習率の自動調整や過去の勾配情報の活用により、SGDの収束速度と安定性を向上させています。