第4問
データを格納する考え方としてデータレイクが注目されている。データレイクに 関する記述として、最も適切なものはどれか。
- ア 組織内で運用される複数のリレーショナルデータベースからデータを集めて格 納する。
- イ 組織内の構造化されたデータや、IoT 機器やSNS などからの構造化されてい ないデータをそのままの形式で格納する。
- ウ データウェアハウスから特定の用途に必要なデータを抽出し、キー・バリュー 型の形式で格納する。
- エ データ利用や分析に適したスキーマをあらかじめ定義して、その形式にした がってデータを格納する。
- オ テキスト形式のデータと画像・音声・動画などのバイナリ形式のデータをそれ ぞれ加工し、構造化したうえで格納する。
▼ 解答・解説を見る
正解:イ
解答:イ
データレイクとは、構造化・非構造化を問わずあらゆる形式の生データを、加工せず元の形式のまま大量に蓄積するデータの保管庫である。利用時にスキーマを定義する「スキーマ・オン・リード」が特徴。
- ア(×):複数RDBからデータを集約・整形して格納するのはデータウェアハウス(DWH)の説明に近い。レイクは構造化データに限定しない。
- イ(○):構造化データもIoT/SNS等の非構造化データも、そのままの形式で格納する。データレイクの定義そのもの。
- ウ(×):DWHから特定用途分を抽出するのはデータマートの説明。キー・バリュー型に限定されもしない。
- エ(×):あらかじめスキーマを定義して格納するのはDWH(スキーマ・オン・ライト)の特徴。レイクは利用時にスキーマを与える。
- オ(×):加工・構造化してから格納するという点がレイクの「生のまま蓄積」と矛盾する。
よって イ。