資料湖泊

来自维基百科,自由的百科全书

数据湖

資料湖泊(英語:data Lake)是指以檔案以其原始格式(如BLOB或檔案等)儲存的數據儲存庫或是系統[1] 。資料湖泊多半會將所有的資料統一儲存,包括源系統資料、感測器資料、社會資料等資料的原始副本[2],也包括用於報表英語Data reporting視覺化資料分析機器學習等流程之轉換後資料。資料湖泊也可能包括關聯式資料庫結構化資料(行與列)、半結構化的資料(CSV、紀錄檔、XMLJSON)及非結構化資料 (電子郵件、檔案、PDF)及二進制資料(圖像、音訊、影片)等[3]。資料湖泊可能是「on premises」(指在組織的資料中心裡),也可能放在雲端(使用Amazon微軟或是Google的雲端服務)。

Thumb
資料湖泊可以使用的資料庫範例

構建不良的資料湖泊又稱為資料沼澤。使用者或是無法訪問這樣的資料湖泊,或是資料湖泊內的資料沒什麼價值。[4][5]

背景

據稱此術語由James Dixon為了與資料市集對比而提出,當時他是Pentaho的技術長。[6]資料市集相對較小,包含從原始資料提取出來的有價值的屬性。[7]在推廣資料湖泊的時候,他認為,資料市集有幾個原生的問題,例如資訊孤島普華永道稱,資料湖泊可以"解決資料孤島。"[8] 在其資料湖泊研究中,他們指出,企業"開始使用一個單一的、基於Hadoop的儲存庫來存放和提取資料。"

Hortonworks, 谷歌, Oracle, Microsoft, Zaloni, 天睿動力的技術,Cloudera亞馬遜都有資料湖泊的產品。 [9]

範例

許多公司使用Azure Data Lake和 亞馬遜雲服務 Lake Formation之類的雲端儲存服務,或者Apache Hadoop之類的分散式檔案系統 [10] 學術界對於資料湖泊的興趣也正在興起。比如,Cardiff 大學的個人資料湖泊,它定位於管理個人巨量資料,提供收集,管理和分享個人資料的單一入口。

早期的資料湖泊(Hadoop 1.0)在批次資料處理方面能力有限,僅有(MapReduce) 這一個資料處理範式。資料湖泊的訪問者必須具備用Java實現MapReduce的能力,以及掌握一些高層工具,比如Apache PigApache Hive(他們本身是面向批次處理的)。

批評

大多數情況下,管理不善的資料湖泊被稱為「數據沼澤」。[11]

在2015年6月,David Needle表示"所謂的資料湖泊"是"一個(相比之下)更具爭議性的方法來管理巨量資料"。[12]

普華永道也在它們的研究中謹慎地指出,並不是所有的資料湖泊行動都是成功的。他們參照Sean Martin,劍橋語意的技術長的話:

普華永道描述那些在建立資料湖泊方面取得成功的公司能找出對組織重要的那些資料和元資料,逐步讓他們的資料湖泊趨向成熟。對於資料湖泊的另一項批評是,這一概念模糊和任意。它指的是不適合進入傳統的資料倉儲架構的任何工具或資料管理實踐。資料湖泊已被稱為一種特定的技術。資料湖泊已被標記為一個原始資料儲存庫或ETL解除安裝樞紐。資料湖泊已被定義為一個自助分析服務的中央樞紐。資料湖泊這一概念涵蓋了太多意義,因此這個術語的價值存疑。[13]

麥肯錫指出資料湖泊應該被視為一種在企業內部提供業務價值的服務模式,而不是技術成果。[14]

參考文獻

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.