Apache Hadoop
From Wikipedia, the free encyclopedia
Hadoop je framework obsahující sadu opensource softwarových komponent určených pro zpracování velkého množství nestrukturovaných a distribuovaných dat v řádech petabytů a exabytů.[1]
![]() | |
Vývojář | Apache Software Foundation |
---|---|
První vydání | 2005 |
Aktuální verze | 3.4.1 (18. října 2024) |
Operační systém | Multiplatformní software |
Platforma | Java Virtual Machine |
Vyvíjeno v | Java |
Typ softwaru | framework |
Licence | Apache License 2.0 |
Web | Hadoop Apache |
Některá data mohou pocházet z datové položky. |
Principy Hadoopu
Podstata spočívá v uložení dat na velkém množství samostatných počítačů.[2] Může jít o běžný hardware a tak je uložení těchto dat levnější než ukládání na specializovaném hardwaru s vysokou dostupností. Pro uložení je potom použit distribuovaný souborový systém. Jeden takový systém nabízí přímo Hadoop. Je to systém HDFS, což je zkratka z anglického názvu Hadoop Distributed File System.[2] Zpracování potom probíhá tak, že je úloha rozdělena a zpracovávána paralelně na více uzlech. Jde tedy vlastně o distribuovaný výpočet. Konečný výsledek je zjištěn výpočtem z dílčích výsledků. Jde o tak zvaný princip MapReduce, kde Map je rozdělení úlohy a Reduce je spojení výsledků. Samotný výpočet je tak posunut z velké části k datům, čímž je značně redukována potřeba přenosu velkých objemů dat po síti.
Vývoj Hadoopu a jeho derivátů
Hadoop je rozvíjen v rámci opensource softwaru. V jeho vývoji se angažuje organizace Apache Software Foundation. [3] Volné komponenty Hadoopu jsou dostupné na stránkách hadoop.apache.org. Na bázi Hadoopu jsou postavena mnohá komerčně dodávaná řešení [4] pro big data.
Apache Hadoop
Aktuální verze Hadoopu v roce 2012 mohla pracovat na 4000 uzlech clusterů. Pro uzel se počítalo 16 (a více) jader a 10000 paralelních úkolů.
Vydání významných verzí
- 22. březen 2017: Release 2.8.0. Pro produkční nasazení je doporučeno počkat na verze 2.8.1/2.8.2
- 25. leden 2017: Release 3.0.0-alpha2
- 8. říjen 2016: Release 2.6.5
- 25. srpen 2016: Release 2.7.3
- 21. duben 2015: Release 2.7.0 (nejde o stabilní verzi pro produkční nasazení)
- 18. listopad 2014: Release 2.6.0 (nejde o stabilní verzi pro produkční nasazení)
- 15. říjen 2013: Release 2.2.0 release s tzv. General availability obsahující významná rozšíření:
- YARN - systém řízení zdrojů pro Hadoop
- High Availability (Vysoká dostupnost) pro HDFS
- HDFS Federation
- HDFS Snapshots
- NFSv3 přístup k datům v HDFS
- Podporu pro provoz Hadoop na Microsoft Windows
- Binární kompatibilitu pro aplikace MapReduce postavené na hadoop-1.x
Významní uživatelé
Reference [5]
- Amazon.com
- Akamai
- American Airlines
- AOL
- Apple[6]
- Cloudera
- eBay
- Federal Reserve Board of Governors
- foursquare
- Fox Interactive Media
- Gauss Algorithmic
- Gemvara
- Hewlett-Packard
- IBM
- ImageShack
- ISI
- Intuit
- Joost
- Last.fm
- LinkedIn[7]
- Microsoft[8]
- NetApp
- Netflix[9]
- Riot Games
- Risk Management Solutions (RMS)
- The New York Times
- The Walt Disney Company
- SAP AG[10]
- SAS Institute[11]
- Seznam.cz
- StumbleUpon[12]
- Socialbakers
- Yahoo!
- Yodlee
Odkazy
Wikiwand - on
Seamless Wikipedia browsing. On steroids.