トップQs
タイムライン
チャット
視点

データレイク

ウィキペディアから

Remove ads

データレイク (Data lake) は構造化/非構造化データやバイナリ等のファイル含めたデータを一元的に格納するデータリポジトリ。一般的に、データレイクはレポート、可視化、分析、機械学習に利用されるエンタープライズのデータのコピーや返還後のデータを一カ所に集約する。データレイクはリレーショナルデータベースの構造化データ(列と行)や、半構造化データ(CSV、ログ、XMLJSON)、非構造化データ(Eメール、ドキュメント、PDF)、バイナリデータ(画像、音声、映像)を含めることができる。

適切に管理されておらず、ユーザが意図するデータへのアクセシビリティが低く、小さな価値しか提供できない低品質のデータレイクはデータの沼と表現される[1]

背景

Pentaho のCTOであるJames Dixonが、データマートと対比してこの概念を提唱したと主張している[2]。彼はデータマートにおけるデータのサイロ化などの問題点を指摘し、データレイクの必要性を説いている。PWCコンサルティングは"データレイクはデータのサイロ化の対策となりえる"と発言している[3]

脚注

関連項目

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads