層化サンプリング

Stratified Sampling

層化サンプリングとは

層化サンプリング(Stratified Sampling)とは、母集団をある特性に基づいて複数の層(グループ)に分割し、各層からそれぞれ独立にサンプルを抽出する手法です。層化抽出法とも呼ばれ、母集団の構造を反映した代表性の高い標本を得ることができます。

層化サンプリングの方法

比例配分法では、各層の母集団に占める割合に応じてサンプル数を配分します。例えば、男女比が6:4の母集団から100人のサンプルを抽出する場合、男性60人、女性40人とします。最適配分法では、層内の分散も考慮して各層のサンプル数を決定します。

層化サンプリングのメリット

単純無作為抽出と比較して、層化サンプリングは推定精度が向上し、各層ごとの分析も可能になります。特に母集団内に異質な部分集団が存在する場合に効果的です。少数グループの代表性を確保するためにも使用されます。

機械学習での活用

機械学習では、クラス不均衡データの分割に層化サンプリングが活用されます。訓練データとテストデータにクラスの比率を保ったまま分割する層化K分割交差検証(Stratified K-Fold)は、偏りのない評価を行うための標準的な手法です。