データクレンジング

Data Cleansing

データクレンジングとは

データクレンジング(Data Cleansing)とは、データセット内の誤り、不整合、重複、欠損などの品質問題を検出し、修正するプロセスです。データクリーニングとも呼ばれ、データの信頼性と正確性を確保するための基本的な作業です。

データクレンジングの対象

クレンジングの主な対象には、表記揺れの統一(株式会社と(株)など)、重複レコードの除去、不正なフォーマットの修正(日付形式の統一など)、データ型の不整合の解消、不正確なデータの修正または削除などがあります。

データクレンジングの手順

一般的な手順は、まずデータプロファイリングによりデータの品質を評価し、次にルールベースまたは統計的手法で問題を検出し、修正ルールを適用します。自動化ツールを活用することで効率的なクレンジングが可能ですが、ドメイン知識に基づく人手の確認も欠かせません。

データ品質の指標

データ品質は、正確性(Accuracy)、完全性(Completeness)、一貫性(Consistency)、適時性(Timeliness)、一意性(Uniqueness)、妥当性(Validity)の6つの指標で評価されます。クレンジングによりこれらの品質指標を向上させることが目標です。