ソフトマックス関数(Softmax Function)とは、K個の実数値のベクトルを、各要素が0〜1で合計が1となる確率分布に変換する関数です。多クラス分類の出力層で標準的に使用されます。
数式
softmax(z_i) = exp(z_i) / Σ_j exp(z_j) で定義されます。各クラスのスコア(ロジット)を指数関数で正の値に変換し、合計で割ることで確率に正規化します。
温度パラメータ
ソフトマックス関数に温度パラメータTを導入し、softmax(z_i/T)とすることで出力の「鋭さ」を制御できます。Tが小さいほど確率分布が尖り(最大値のクラスに集中)、大きいほど均一な分布になります。知識蒸留などで活用されます。
交差エントロピー損失との組み合わせ
ソフトマックスと交差エントロピー損失の組み合わせは、多クラス分類における標準的な設定です。この組み合わせでは勾配の計算が簡潔になるという数学的な利点もあります。