データベース
ETL
Extract, Transform, Load
概要
データを抽出・変換・格納する一連のプロセスで、データウェアハウス構築の基盤技術。
詳細解説
ETLは、複数のデータソースからデータを抽出(Extract)し、分析に適した形式に変換・加工(Transform)し、データウェアハウスなどの格納先にロード(Load)する一連のプロセスである。
変換処理には、データのクレンジング(不整合や欠損の修正)、フォーマット統一、コード変換、集約などが含まれる。データ統合の品質がDWHの分析精度を左右するため、ETL処理の設計は極めて重要である。
試験対策のポイント
- 暗記必須:ETL=Extract(抽出)・Transform(変換)・Load(格納)。複数の業務システムからデータを集めDWHに統合する一連の処理。
- 頻出ポイント:変換(Transform)の段階で表記の統一・名寄せ・クレンジング(データの誤り修正)を行い、品質を整える点が重要。
- 関連づけ:データウェアハウス構築の基盤技術として、DWH・データマートとセットで理解する。
事例・具体例
販売管理システム、顧客管理システム、経理システムなど異なるシステムのデータを、統一したフォーマットに変換してDWHに格納するプロセスがETLの典型例である。