数据湖

背景

据称此术语由James Dixon为了与数据集市对比而提出，当时他是Pentaho的首席技术官。^[6]数据集市相对较小，包含从原始数据提取出来的有价值的属性。^[7]在推广数据湖的时候，他认为，数据集市有几个固有的问题，例如信息孤岛。普华永道称，数据湖可以"解决数据孤岛。"^[8] 在其数据湖研究中，他们指出，企业"开始使用一个单一的、基于Hadoop的存储库来存放和提取数据。"

Hortonworks, 谷歌, Oracle, Microsoft, Zaloni, 天睿动力的技术，Cloudera和亚马孙都有数据湖的产品。 ^[9]

示例

许多公司使用Azure Data Lake和亚马孙云服务 Lake Formation之类的云存储服务，或者Apache Hadoop之类的分布式文件系统 ^[10] 学术界对于数据湖的兴趣也正在兴起。比如，Cardiff 大学的个人数据湖，它定位于管理个人大数据，提供收集，管理和分享个人数据的单一入口。

早期的数据湖(Hadoop 1.0)在批量数据处理方面能力有限，仅有(MapReduce) 这一个数据处理范式。数据湖的访问者必须具备用Java实现MapReduce的能力，以及掌握一些高层工具，比如Apache Pig和Apache Hive(他们本身是面向批处理的)。

批评

大多数情况下，管理不善的数据湖被称为“数据沼泽”。^[11]

在2015年6月，David Needle表示"所谓的数据湖"是"一个（相比之下）更具争议性的方法来管理大数据"。^[12]

普华永道也在它们的研究中谨慎地指出，并不是所有的数据湖行动都是成功的。他们引用Sean Martin，剑桥语义的首席技术官的话：

“

我们看见顾客们创造大型数据坟场，把所有的数据都扔进 Hadoop distributed file system (HDFS) 里，希望以后能派上用场。但是数据从此就失去了踪迹。
最主要的挑战不是创造数据湖，而是能从中获益。^[8]

”

普华永道描述那些在创建数据湖方面获取成功的公司能找出对组织重要的那些数据和元数据，逐步让他们的数据湖趋向成熟。对于数据湖的另一项批评是，这一概念模糊和任意。它指的是不适合进入传统的数据仓储架构的任何工具或数据管理实践。数据湖已被称为一种特定的技术。数据湖已被标记为一个原始数据保存库或ETL卸载枢纽。数据湖已被定义为一个自助分析服务的中央枢纽。数据湖这一概念涵盖了太多意义，因此这个术语的价值存疑。^[13]

麦肯锡指出数据湖应该被视为一种在企业内部提供业务价值的服务模式，而不是技术成果。^[14]

背景

示例

批评

参考文献

Wikiwand - on