重み減衰(Weight Decay)とは、最適化の各ステップでパラメータ(重み)を一定の比率で減衰させる正則化手法です。L2正則化と密接に関連していますが、AdamWオプティマイザでは両者が区別されます。
L2正則化との関係
SGDにおいてはL2正則化と重み減衰は数学的に等価です。しかし、Adamなどの適応的学習率オプティマイザではこの等価性が成り立たず、AdamW(decoupled weight decay)で正しい重み減衰が実装されています。
効果
大きな重みにペナルティを課すことで、モデルの複雑さを抑制し過学習を防ぎます。一般的な値は0.01〜0.1程度で、タスクやモデルに応じて調整します。