データ前処理とは
データ前処理(Data Preprocessing)とは、収集した生データを分析や機械学習に適した形式に変換・整備する工程です。現実のデータには欠損値、外れ値、重複、不整合などの問題が含まれることが多く、前処理の品質がモデルの性能を大きく左右します。
主な前処理の手法
代表的な前処理には、欠損値の処理(削除、補完)、外れ値の検出と処理、データ型の変換、カテゴリ変数のエンコーディング(ワンホット、ラベルエンコーディング)、特徴量のスケーリング(正規化、標準化)、テキストデータのトークン化などがあります。
欠損値処理の方法
欠損値の処理方法は大きく3つに分かれます。欠損のあるレコードを削除する方法、平均値や中央値、最頻値で補完する方法、そして機械学習モデルを用いて欠損値を予測する方法です。データの欠損メカニズム(MCAR、MAR、MNAR)に応じて適切な手法を選ぶことが重要です。
前処理の重要性
「ゴミを入れればゴミが出る(Garbage In, Garbage Out)」という格言が示すように、前処理はデータ分析の成否を決める最も重要なステップです。データサイエンティストの業務時間の60〜80%が前処理に費やされるとも言われています。