热门问题
时间线
聊天
视角

数据湖

来自维基百科,自由的百科全书

数据湖
Remove ads

数据湖(英语:data Lake)是指以文件以其原始格式(如BLOB或文件等)存储的数据存储库或是系统[1] 。数据湖多半会将所有的数据统一存储,包括源系统资料、传感器资料、社会资料等资料的原始副本[2],也包括用于报表英语Data reporting可视化数据分析机器学习等流程之转换后数据。数据湖也可能包括关系数据库结构化数据(行与列)、半结构化的数据(CSV、日志、XMLJSON)及非结构化数据 (电子邮件、文件、PDF)及二进制数据(图像、音频、视频)等[3]。数据湖可能是“on premises”(指在组织的数据中心里),也可能放在云端(使用Amazon微软或是Google的云端服务)。

Thumb
数据湖可以使用的数据库示例

构建不良的数据湖又称为数据沼泽。用户或是无法访问这样的数据湖,或是数据湖内的数据没什么价值。[4][5]

Remove ads

背景

据称此术语由James Dixon为了与数据集市对比而提出,当时他是Pentaho的首席技术官。[6]数据集市相对较小,包含从原始数据提取出来的有价值的属性。[7]在推广数据湖的时候,他认为,数据集市有几个固有的问题,例如信息孤岛普华永道称,数据湖可以"解决数据孤岛。"[8] 在其数据湖研究中,他们指出,企业"开始使用一个单一的、基于Hadoop的存储库来存放和提取数据。"

Hortonworks, 谷歌, Oracle, Microsoft, Zaloni, 天睿动力的技术,Cloudera亚马孙都有数据湖的产品。 [9]

示例

许多公司使用Azure Data Lake和 亚马孙云服务 Lake Formation之类的云存储服务,或者Apache Hadoop之类的分布式文件系统 [10] 学术界对于数据湖的兴趣也正在兴起。比如,Cardiff 大学的个人数据湖,它定位于管理个人大数据,提供收集,管理和分享个人数据的单一入口。

早期的数据湖(Hadoop 1.0)在批量数据处理方面能力有限,仅有(MapReduce) 这一个数据处理范式。数据湖的访问者必须具备用Java实现MapReduce的能力,以及掌握一些高层工具,比如Apache PigApache Hive(他们本身是面向批处理的)。

批评

大多数情况下,管理不善的数据湖被称为“数据沼泽”。[11]

在2015年6月,David Needle表示"所谓的数据湖"是"一个(相比之下)更具争议性的方法来管理大数据"。[12]

普华永道也在它们的研究中谨慎地指出,并不是所有的数据湖行动都是成功的。他们引用Sean Martin,剑桥语义的首席技术官的话:

普华永道描述那些在创建数据湖方面获取成功的公司能找出对组织重要的那些数据和元数据,逐步让他们的数据湖趋向成熟。对于数据湖的另一项批评是,这一概念模糊和任意。它指的是不适合进入传统的数据仓储架构的任何工具或数据管理实践。数据湖已被称为一种特定的技术。数据湖已被标记为一个原始数据保存库或ETL卸载枢纽。数据湖已被定义为一个自助分析服务的中央枢纽。数据湖这一概念涵盖了太多意义,因此这个术语的价值存疑。[13]

麦肯锡指出数据湖应该被视为一种在企业内部提供业务价值的服务模式,而不是技术成果。[14]

参考文献

Loading content...
Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads