数据湖 - Wikiwand

背景

據稱此術語由James Dixon為了與資料市集對比而提出，當時他是Pentaho的技術長。^[6]資料市集相對較小，包含從原始資料提取出來的有價值的屬性。^[7]在推廣資料湖泊的時候，他認為，資料市集有幾個原生的問題，例如資訊孤島。普華永道稱，資料湖泊可以"解決資料孤島。"^[8] 在其資料湖泊研究中，他們指出，企業"開始使用一個單一的、基於Hadoop的儲存庫來存放和提取資料。"

Hortonworks, 谷歌, Oracle, Microsoft, Zaloni, 天睿動力的技術，Cloudera和亞馬遜都有資料湖泊的產品。 ^[9]

範例

許多公司使用Azure Data Lake和亞馬遜雲服務 Lake Formation之類的雲端儲存服務，或者Apache Hadoop之類的分散式檔案系統 ^[10] 學術界對於資料湖泊的興趣也正在興起。比如，Cardiff 大學的個人資料湖泊，它定位於管理個人巨量資料，提供收集，管理和分享個人資料的單一入口。

早期的資料湖泊(Hadoop 1.0)在批次資料處理方面能力有限，僅有(MapReduce) 這一個資料處理範式。資料湖泊的訪問者必須具備用Java實現MapReduce的能力，以及掌握一些高層工具，比如Apache Pig和Apache Hive(他們本身是面向批次處理的)。

批評

大多數情況下，管理不善的資料湖泊被稱為「數據沼澤」。^[11]

在2015年6月，David Needle表示"所謂的資料湖泊"是"一個（相比之下）更具爭議性的方法來管理巨量資料"。^[12]

普華永道也在它們的研究中謹慎地指出，並不是所有的資料湖泊行動都是成功的。他們參照Sean Martin，劍橋語意的技術長的話：

“

我們看見顧客們創造大型資料墳場，把所有的資料都扔進 Hadoop distributed file system (HDFS) 里，希望以後能派上用場。但是資料從此就失去了蹤跡。
最主要的挑戰不是創造資料湖泊，而是能從中獲益。^[8]

”

普華永道描述那些在建立資料湖泊方面取得成功的公司能找出對組織重要的那些資料和元資料，逐步讓他們的資料湖泊趨向成熟。對於資料湖泊的另一項批評是，這一概念模糊和任意。它指的是不適合進入傳統的資料倉儲架構的任何工具或資料管理實踐。資料湖泊已被稱為一種特定的技術。資料湖泊已被標記為一個原始資料儲存庫或ETL解除安裝樞紐。資料湖泊已被定義為一個自助分析服務的中央樞紐。資料湖泊這一概念涵蓋了太多意義，因此這個術語的價值存疑。^[13]

麥肯錫指出資料湖泊應該被視為一種在企業內部提供業務價值的服務模式，而不是技術成果。^[14]

資料湖泊

背景

範例

批評

參考文獻

Wikiwand - on