バギング

Bagging (Bootstrap Aggregating)

バギング(Bagging: Bootstrap Aggregating)とは、ブートストラップサンプリングで生成した複数のデータセットで個別にモデルを学習し、それらの予測を集約するアンサンブル手法です。1996年にLeo Breimanにより提案されました。

ブートストラップサンプリング

元のデータセットから復元抽出(同じデータが重複して選ばれることを許容)により、同じサイズの新しいデータセットを複数生成します。各データセットは元のデータの約63.2%のユニークなサンプルを含みます。

予測の集約

分類タスクでは各モデルの予測の多数決、回帰タスクでは平均値を最終予測とします。この集約により、個々のモデルの分散(バリアンス)が低減され、過学習が抑制されます。

ランダムフォレストとの関係

ランダムフォレストはバギングに「特徴量のランダム選択」を追加した手法です。バギング自体は任意のベースモデルに適用可能で、不安定な学習器(決定木など)に特に効果的です。