オーバーサンプリング(Oversampling)とは、不均衡データにおいて少数派クラスのサンプル数を増やしてクラス間のバランスを改善する手法です。最もシンプルな方法はランダムオーバーサンプリング(少数派のサンプルをランダムに複製)です。
ランダムオーバーサンプリング
既存の少数派サンプルをランダムに選んで複製します。実装が容易ですが、同じサンプルの複製により過学習のリスクが高まるという欠点があります。
SMOTEなどの合成手法
SMOTE(Synthetic Minority Over-sampling Technique)は少数派サンプル間を補間して新しい合成サンプルを生成します。単純な複製よりも多様なサンプルを生成でき、過学習のリスクを軽減します。
注意点
オーバーサンプリングは必ず訓練データにのみ適用し、テストデータには適用しません。また、交差検証の分割後に行う必要があります(分割前に行うとデータリークが発生)。