カテゴリ変数

Categorical Variable

カテゴリ変数(Categorical Variable)とは、有限個のカテゴリ(グループ)のいずれかに属する値を取る変数です。色(赤/青/緑)、血液型(A/B/O/AB)、都道府県名などが該当します。

名義尺度と順序尺度

名義尺度(Nominal)は順序のないカテゴリ(色、血液型)、順序尺度(Ordinal)は順序関係のあるカテゴリ(小<中<大、低学歴<高学歴)です。エンコーディング方法の選択に影響します。

エンコーディング方法

名義尺度にはワンホットエンコーディング、順序尺度にはラベルエンコーディングが基本です。高カーディナリティ(カテゴリ数が多い)の場合はターゲットエンコーディングやエンティティエンベディングが有効です。

決定木系モデルでの扱い

LightGBMやCatBoostはカテゴリ変数を直接扱えるため、エンコーディングなしで使用可能です。カテゴリの最適な分割を内部的に探索します。