热门问题
时间线
聊天
视角
數據湖
来自维基百科,自由的百科全书
Remove ads
數據湖(英語:data Lake)是指以檔案以其原始格式(如BLOB或檔案等)儲存的數據儲存庫或是系統[1] 。數據湖多半會將所有的數據統一儲存,包括源系統資料、感測器資料、社會資料等資料的原始副本[2],也包括用於報表、視覺化、數據分析和機器學習等流程之轉換後數據。數據湖也可能包括關聯式資料庫的結構化數據(行與列)、半結構化的數據(CSV、紀錄檔、XML、 JSON)及非結構化數據 (電子郵件、檔案、PDF)及二進制數據(圖像、音頻、影片)等[3]。數據湖可能是「on premises」(指在組織的數據中心裏),也可能放在雲端(使用Amazon、微軟或是Google的雲端服務)。
![]() |

Remove ads
背景
據稱此術語由James Dixon為了與數據市集對比而提出,當時他是Pentaho的技術長。[6]數據市集相對較小,包含從原始數據提取出來的有價值的屬性。[7]在推廣數據湖的時候,他認為,數據市集有幾個原生的問題,例如資訊孤島。普華永道稱,數據湖可以"解決數據孤島。"[8] 在其數據湖研究中,他們指出,企業"開始使用一個單一的、基於Hadoop的儲存庫來存放和提取數據。"
Hortonworks, 谷歌, Oracle, Microsoft, Zaloni, 天睿動力的技術,Cloudera和亞馬遜都有數據湖的產品。 [9]
範例
許多公司使用Azure Data Lake和 亞馬遜雲服務 Lake Formation之類的雲端儲存服務,或者Apache Hadoop之類的分散式檔案系統 [10] 學術界對於數據湖的興趣也正在興起。比如,Cardiff 大學的個人數據湖,它定位於管理個人大數據,提供收集,管理和分享個人數據的單一入口。
早期的數據湖(Hadoop 1.0)在批次數據處理方面能力有限,僅有(MapReduce) 這一個數據處理範式。數據湖的訪問者必須具備用Java實現MapReduce的能力,以及掌握一些高層工具,比如Apache Pig和Apache Hive(他們本身是面向批次處理的)。
批評
大多數情況下,管理不善的數據湖被稱為「數據沼澤」。[11]
在2015年6月,David Needle表示"所謂的數據湖"是"一個(相比之下)更具爭議性的方法來管理大數據"。[12]
普華永道也在它們的研究中謹慎地指出,並不是所有的數據湖行動都是成功的。他們參照Sean Martin,劍橋語意的技術長的話:
“ | 我們看見顧客們創造大型數據墳場,把所有的數據都扔進 Hadoop distributed file system (HDFS) 里,希望以後能派上用場。但是數據從此就失去了蹤跡。 最主要的挑戰不是創造數據湖,而是能從中獲益。[8] |
” |
普華永道描述那些在建立數據湖方面取得成功的公司能找出對組織重要的那些數據和元數據,逐步讓他們的數據湖趨向成熟。對於數據湖的另一項批評是,這一概念模糊和任意。它指的是不適合進入傳統的數據倉儲架構的任何工具或數據管理實踐。數據湖已被稱為一種特定的技術。數據湖已被標記為一個原始數據儲存庫或ETL解除安裝樞紐。數據湖已被定義為一個自助分析服務的中央樞紐。數據湖這一概念涵蓋了太多意義,因此這個術語的價值存疑。[13]
參考文獻
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads