ラベルエンコーディング(Label Encoding)とは、カテゴリ変数の各カテゴリに整数値を割り当てる変換手法です。例えば{小、中、大}を{0, 1, 2}に変換します。
適用が適切な場面
順序関係のあるカテゴリ(小<中<大、低学歴<中学歴<高学歴など)には適していますが、順序のないカテゴリ(赤、青、緑など)に使うと、数値の大小関係がモデルに誤った情報を与える可能性があります。
決定木系モデルでの利用
決定木ベースのモデル(ランダムフォレスト、XGBoost等)では、分割条件が「値がN以下か否か」の形式であるため、ラベルエンコーディングでも適切に動作します。メモリ効率もワンホットエンコーディングより優れています。