ETL

Extract, Transform, Load

ETLとは

ETL(Extract, Transform, Load)とは、データを複数のソースから抽出(Extract)し、分析に適した形式に変換(Transform)し、目的のデータストアに読み込む(Load)一連のデータ統合プロセスです。データウェアハウスやデータマートへのデータ投入において中核的な役割を果たします。

ETLの3つのステップ

Extract(抽出)では、データベース、API、ファイル、Webスクレイピングなど多様なソースからデータを取得します。Transform(変換)では、データの整形、フィルタリング、集約、結合、型変換などを行います。Load(読み込み)では、変換済みデータをデータウェアハウスやデータベースに格納します。

ETLツール

代表的なETLツールには、Apache Airflow、Talend、Informatica、AWS Glue、dbtなどがあります。これらのツールにより、複雑なデータパイプラインの構築、スケジューリング、モニタリングが可能になります。

ETLとELTの違い

従来のETLでは変換を読み込み前に行いますが、近年のクラウドデータウェアハウスの計算能力を活かし、先にデータを読み込んでから変換を行うELT(Extract, Load, Transform)の手法も普及しています。