Apache Hadoop
来自维基百科,自由的百科全书
Apache Hadoop是一款支援數據密集型分佈式應用程式並以Apache 2.0許可協定發佈的開源軟件框架,有助於使用許多電腦組成的網絡來解決數據、計算密集型的問題。基於MapReduce計算模型,它為大數據的分散式儲存與處理提供了一個軟件框架。所有的Hadoop模組都有一個基本假設,即硬件故障是常見情況,應該由框架自動處理[3]。
Apache Hadoop的核心模組分為儲存和計算模組,前者被稱為Hadoop分散式檔案系統(HDFS),後者即MapReduce計算模型。Hadoop框架先將檔案分成數據塊並分散式地儲存在叢集的計算節點中,接着將負責計算任務的代碼傳送給各節點,讓其能夠並列地處理數據。這種方法有效利用了數據局部性,令各節點分別處理其能夠訪問的數據。與傳統的超級電腦架構相比,這使得數據集的處理速度更快、效率更高[4][5]。
Apache Hadoop框架由以下基本模組構成:
- Hadoop Common – 包含了其他Hadoop 模組所需的庫和實用程式;
- Hadoop Distributed File System (HDFS) – 一種將數據儲存在叢集中多個節點中的分散式檔案系統,能夠提供很高的頻寬;
- Hadoop YARN – (於2012年引入) 一個負責管理叢集中計算資源,並實現用戶程式排程的平台[6][7];
- Hadoop MapReduce – 用於大規模數據處理的MapReduce計算模型實現;
- Hadoop Ozone – (於2020年引入) Hadoop的對象儲存。
Hadoop 一詞通常代指其基本模組和子模組以及生態系統[8],或可以安裝在 Hadoop 之上的軟件套件的集合,例如Apache Pig、Apache Hive、Apache HBase、Apache Phoenix、Apache Spark、Apache ZooKeeper、Cloudera Impala、Apache Flume、Apache Sqoop、Apache Oozie和Apache Storm[9]。
Apache Hadoop的MapReduce和HDFS模組的靈感來源於Google的MapReduce和Google File System論文[10]。
Hadoop 框架本身主要是用Java程式語言編寫的,也包括了一些C語言編寫的本機代碼和Shell指令碼編寫的命令列實用程式。儘管MapReduce Java代碼很常見,但任何程式語言都可以與Hadoop Streaming一起使用來實現用戶程式的map和reduce部分[11]。Hadoop 生態系統中的其他專案實現了更為豐富的用戶介面。
主要子專案
- Hadoop Common:在0.20及以前的版本中,包含HDFS、MapReduce和其他專案公共內容,從0.21開始HDFS和MapReduce被分離為獨立的子專案,其餘內容為Hadoop Common
- HDFS:Hadoop分佈式檔案系統(Distributed File System)-HDFS(Hadoop Distributed File System)
- MapReduce:平行計算框架,0.20前使用org.apache.hadoop.mapred舊介面,0.20版本開始引入org.apache.hadoop.mapreduce的新API
相關專案
- Apache HBase:分散式NoSQL列資料庫,類似谷歌公司BigTable。
- Apache Hive:構建於hadoop之上的數據倉庫,通過一種類SQL語言HiveQL為用戶提供數據的歸納、查詢和分析等功能。Hive最初由Facebook貢獻。
- Apache Mahout:機器學習演算法軟件套件。
- Apache Sqoop:結構化數據(如關聯式資料庫)與Apache Hadoop之間的數據轉換工具。
- Apache ZooKeeper:分散式鎖設施,提供類似Google Chubby的功能,由Facebook貢獻。
- Apache Avro:新的數據序列化格式與傳輸工具,將逐步取代Hadoop原有的IPC機制。
知名用戶
其他知名用戶包括[13]:
Hadoop與Sun Grid Engine
昇陽電腦的Sun Grid Engine可以用來排程Hadoop Job。[14][15]
Hadoop與Condor
威斯康辛大學麥迪遜分校的Condor計算機叢集軟件也可以用作Hadoop Job的排程。[16]
參見
- 大數據
- 雲端運算
- 高效能計算叢集
- OpenStack-以Apache特許條款特許的雲端運算軟件。
- Apache Spark
參考文獻
外部連結
Wikiwand - on
Seamless Wikipedia browsing. On steroids.