データレイクとは
データレイク(Data Lake)とは、構造化データ、半構造化データ、非構造化データをそのままの形式で大量に格納できるストレージシステムです。データウェアハウスがスキーマを事前に定義するのに対し、データレイクはスキーマオンリード(読み取り時にスキーマを適用)のアプローチを取ります。
データレイクの特徴
データレイクは、あらゆる形式のデータ(CSV、JSON、Parquet、画像、動画、ログなど)を変換せずに格納できます。大容量のデータを低コストで保存でき、将来どのような分析に使うかが未定のデータも蓄積しておくことが可能です。
データレイクの課題
適切な管理がなされないデータレイクは「データスワンプ(沼)」と化す危険性があります。メタデータ管理、データカタログ、アクセス権限管理、データ品質の監視などのガバナンス体制が不可欠です。データの発見性と信頼性を確保するための仕組みが重要になります。
レイクハウスの登場
近年ではデータレイクとデータウェアハウスの長所を組み合わせた「データレイクハウス」アーキテクチャが注目されています。Delta Lake、Apache Iceberg、Apache Hudiなどの技術により、データレイク上でACIDトランザクションやスキーマの強制が可能になっています。