LightGBM(Light Gradient Boosting Machine)とは、Microsoftが開発した勾配ブースティングフレームワークです。大規模データセットにおいて高速かつメモリ効率の良い学習を実現し、表形式データの機械学習で最も人気のあるライブラリの一つです。
LightGBMの技術革新
LightGBMは2つの革新的な技術を導入しています。GOSS(Gradient-based One-Side Sampling)は勾配の大きなサンプルを重点的に使用し、EFB(Exclusive Feature Bundling)は排他的な特徴量をまとめることで、学習速度を大幅に向上させています。
Leaf-wiseな木の成長
従来の手法がLevel-wise(層ごと)に木を成長させるのに対し、LightGBMはLeaf-wise(葉ごと)に損失の減少が最も大きい葉を分割します。これにより効率的な学習が可能ですが、過学習のリスクも高まるため最大深さの制限が重要です。
カテゴリ特徴量の直接サポート
LightGBMはカテゴリ変数をワンホットエンコーディングなしで直接扱えるため、前処理の手間が省け、メモリ効率も向上します。