データ前処理とは？わかりやすく解説 | AI用語集

データ前処理とは

データ前処理（Data Preprocessing）とは、収集した生データを分析や機械学習に適した形式に変換・整備する工程です。現実のデータには欠損値、外れ値、重複、不整合などの問題が含まれることが多く、前処理の品質がモデルの性能を大きく左右します。

主な前処理の手法

代表的な前処理には、欠損値の処理（削除、補完）、外れ値の検出と処理、データ型の変換、カテゴリ変数のエンコーディング（ワンホット、ラベルエンコーディング）、特徴量のスケーリング（正規化、標準化）、テキストデータのトークン化などがあります。

欠損値処理の方法

欠損値の処理方法は大きく3つに分かれます。欠損のあるレコードを削除する方法、平均値や中央値、最頻値で補完する方法、そして機械学習モデルを用いて欠損値を予測する方法です。データの欠損メカニズム（MCAR、MAR、MNAR）に応じて適切な手法を選ぶことが重要です。

前処理の重要性

「ゴミを入れればゴミが出る（Garbage In, Garbage Out）」という格言が示すように、前処理はデータ分析の成否を決める最も重要なステップです。データサイエンティストの業務時間の60〜80%が前処理に費やされるとも言われています。

← データサイエンス・前処理一覧に戻る AI用語集 TOPへ →