データパイプラインとは？わかりやすく解説 | AI用語集

データパイプラインとは

データパイプライン（Data Pipeline）とは、データの収集、処理、変換、格納、配信までの一連の流れを自動化する仕組みです。データソースから最終的な利用先まで、データが段階的に処理される経路を設計・管理します。

データパイプラインの構成要素

典型的なデータパイプラインは、データ取り込み（Ingestion）、データ処理（Processing）、データ格納（Storage）、データ配信（Delivery）の4つの段階で構成されます。各段階は疎結合に設計され、個別にスケーリングや修正が可能です。

バッチ処理とストリーム処理

データパイプラインは処理タイミングにより、バッチ処理とストリーム処理に分類されます。バッチ処理は定期的にまとまったデータを一括処理する方式で、ストリーム処理はリアルタイムでデータを逐次処理する方式です。Apache KafkaやApache Flinkはストリーム処理の代表的なツールです。

パイプラインの運用管理

パイプラインの信頼性を維持するには、ジョブのスケジューリング、エラーハンドリング、リトライ機構、データ品質チェック、モニタリング、アラート設定が不可欠です。Apache AirflowやPrefectなどのオーケストレーションツールがこれらの管理を支援します。

← データサイエンス・前処理一覧に戻る AI用語集 TOPへ →