データベース
データレイク
Data Lake
概要
構造化・非構造化を問わず、あらゆるデータを生のまま蓄積する大規模データ格納基盤。
詳細解説
データレイクは、構造化データ(RDBのテーブルデータ等)、半構造化データ(JSON、XML等)、非構造化データ(テキスト、画像、動画等)を、変換せずに生のまま蓄積する大規模なデータストレージである。
DWHが分析目的に合わせてデータを整理してから格納するのに対し、データレイクは目的を限定せずにまず蓄積し、後から必要に応じて加工・分析する。ビッグデータやAI分析の基盤として注目されているが、管理が不十分だとデータスワンプ(データ沼)に陥るリスクがある。
試験対策のポイント
- 暗記必須:データレイクは構造化・非構造化を問わず、あらゆるデータを加工せず生のまま大量に蓄積する基盤。
- ひっかけ注意:DWHが「整形・構造化済みデータを目的に応じて蓄積」するのに対し、データレイクは「生データをそのまま貯める」点が違い。
- 関連づけ:ビッグデータ・AI活用の文脈で、多様なデータを後から柔軟に分析できる基盤として問われる。
事例・具体例
企業のWebサイトのアクセスログ、SNSの投稿データ、IoTセンサーの計測データなど、多様な形式のデータをそのままデータレイクに蓄積し、AIによる分析に活用する。