不均衡データ

Imbalanced Data

不均衡データ(Imbalanced Data)とは、クラス間のサンプル数に大きな偏りがあるデータセットです。例えば、不正取引検出では99.9%が正常取引で、不正取引は0.1%しかありません。このような不均衡はモデルの学習に深刻な影響を与えます。

不均衡データの問題

モデルが多数派クラスを常に予測するだけで高い精度を達成できてしまい、少数派クラスの検出能力が著しく低下します。精度だけでは評価できないため、適合率・再現率・F値・AUCなどの指標が重要になります。

対処法

データレベル(オーバーサンプリング、アンダーサンプリング、SMOTE)、アルゴリズムレベル(クラス重みの調整、コスト敏感学習)、アンサンブル手法(バランスドランダムフォレスト、EasyEnsemble)などの対処法があります。