ログ損失とは
ログ損失(Log Loss)とは、分類モデルの予測確率と実際のラベルとの差異を測る評価指標であり、交差エントロピー損失(Cross-Entropy Loss)とも呼ばれます。モデルが出力する確率値の品質を評価でき、値が小さいほど予測確率が正確であることを意味します。
ログ損失の計算方法
二値分類の場合、ログ損失は -[y * log(p) + (1-y) * log(1-p)] の平均で計算されます。yは実際のラベル(0または1)、pはモデルの予測確率です。正解ラベルに対して高い確率を割り当てるほどログ損失は低くなり、誤った予測に高い確信度を持つほどペナルティが大きくなります。
精度との違い
精度(Accuracy)は閾値を適用した後の正誤判定を見る指標ですが、ログ損失は予測確率自体の品質を評価します。例えば、あるサンプルに対して0.51の確率で正解を予測したモデルと0.99の確率で正解を予測したモデルは、精度では同じ正解ですが、ログ損失では後者の方が良い評価を受けます。
ログ損失の活用
ログ損失は確率的予測が重要なタスク(リスク評価、確率的意思決定)で特に有用です。Kaggleなどのコンペティションでも評価指標として頻繁に採用されています。また、ニューラルネットワークの訓練における損失関数としても広く使われています。