カテゴリ変数(Categorical Variable)とは、有限個のカテゴリ(グループ)のいずれかに属する値を取る変数です。色(赤/青/緑)、血液型(A/B/O/AB)、都道府県名などが該当します。
名義尺度と順序尺度
名義尺度(Nominal)は順序のないカテゴリ(色、血液型)、順序尺度(Ordinal)は順序関係のあるカテゴリ(小<中<大、低学歴<高学歴)です。エンコーディング方法の選択に影響します。
エンコーディング方法
名義尺度にはワンホットエンコーディング、順序尺度にはラベルエンコーディングが基本です。高カーディナリティ(カテゴリ数が多い)の場合はターゲットエンコーディングやエンティティエンベディングが有効です。
決定木系モデルでの扱い
LightGBMやCatBoostはカテゴリ変数を直接扱えるため、エンコーディングなしで使用可能です。カテゴリの最適な分割を内部的に探索します。