勾配消失問題

Vanishing Gradient Problem

勾配消失問題(Vanishing Gradient Problem)とは、深いニューラルネットワークの学習時に、逆伝播で勾配が入力層に向かうにつれて指数的に小さくなり、下位層のパラメータがほとんど更新されなくなる問題です。

原因

逆伝播では連鎖律により各層の勾配が掛け合わされます。シグモイド関数やtanh関数は勾配の最大値が1未満であるため、多くの層を通過すると勾配が急速にゼロに近づきます。

解決策

ReLU活性化関数の使用(正領域で勾配が1)、残差結合(ResNet)、バッチ正規化、適切な重み初期化(He初期化、Xavier初期化)、LSTMやGRUなどのゲート機構、勾配クリッピングなどが有効な解決策です。

勾配爆発問題

逆に勾配が指数的に大きくなる「勾配爆発問題」もあります。こちらは勾配クリッピング(勾配のノルムを制限)で対処するのが一般的です。