ランダムフォレスト(Random Forest)とは、複数の決定木を組み合わせたアンサンブル学習手法です。各決定木をランダムに構築し、その予測を集約することで、個々の決定木よりも高い予測精度と汎化性能を実現します。
アルゴリズムの仕組み
ランダムフォレストは2つのランダム性を導入します。まず、ブートストラップサンプリングにより各決定木に異なるデータサブセットを割り当てます。次に、各ノードの分割時にランダムに選んだ特徴量のサブセットの中から最適な分割を選択します。
予測の集約
分類タスクでは多数決、回帰タスクでは平均値により各決定木の予測を集約します。この集約プロセスにより、個々の決定木のバリアンスが低減され、安定した予測が可能になります。
特徴量重要度
ランダムフォレストは各特徴量の予測への貢献度(特徴量重要度)を算出できるため、特徴量選択やデータ分析にも活用できます。実務で非常に人気の高いアルゴリズムです。