Big data

nagyobb adatmennyiségek feldolgozása From Wikipedia, the free encyclopedia

Remove ads

A big data fogalma alatt azt a rendkívül komplex technológiai környezetet – beleértve a szoftvereket, hardvereket és hálózati modelleket – értjük, amely lehetővé teszi olyan hatalmas és bonyolult adatállományok begyűjtését, tárolását, feldolgozását és elemzését, amelyek méretük és komplexitásuk miatt a hagyományos adatbázis-menedzsment eszközökkel már csak jelentős nehézségek árán, vagy egyáltalán nem kezelhetők hatékonyan. Leegyszerűsítve fogalmazva: a big data koncepciója alapvetően a nagy mennyiségű (volume), nagy sebességgel keletkező vagy változó (velocity) és rendkívül változatos formátumú (variety) adatok kezelésének és elemzésének kihívásairól és az ezekre adott technológiai válaszokról szól, célja pedig az adatokban rejlő érték kinyerése.

Remove ads

Definíció

A big data nem egyetlen konkrét technológiát jelöl, hanem sokkal inkább régebbi, már bevált módszerek és teljesen új technológiák komplex szintézisét képviseli. Ezek a technológiák együttesen teszik lehetővé a hatalmas adatmennyiségek gyors és hatékony kezelését, feldolgozását, még akkor is, ha azok különböző forrásokból származnak és eltérő struktúrával rendelkeznek. Kiemelt képességük a valós idejű vagy közel valós idejű kiértékelés biztosítása, ami lehetővé teszi a szükség szerinti azonnali vagy rendkívül gyors reagálást az eseményekre. A big data leggyakrabban emlegetett három meghatározó jellemzője, az úgynevezett 3 V (angolul: Volume, Velocity és Variety),[1] a következőkre utal:

  • a rendkívül nagy adatmennyiség (Volume): Terabájtoktól petabájtokig vagy akár exabájtokig terjedő adatmennyiségek kezelése.
  • a rendkívül gyors adatfeldolgozás és adatkeletkezés (Velocity): Az adatok nagy sebességgel érkeznek (pl. szenzorokból, közösségi médiából), és gyakran valós időben kell feldolgozni őket.
  • a rendkívül változatos adatok (Variety): Az adatok sokféle formátumban létezhetnek, beleértve a strukturált (pl. adatbázis táblák), félig strukturált (pl. XML, JSON) és strukturálatlan (pl. szöveg, kép, videó, hang) adatokat.

Bőgel György magyar kutató ezt a modellt kiegészítette egy negyedik lényeges jellemzővel: az adatok megbízhatóságával, hitelességével és pontosságával (Veracity).[2] Ez a szempont arra hívja fel a figyelmet, hogy a nagy mennyiségű adat gyakran tartalmazhat zajt, bizonytalanságot vagy hibákat, amelyeket figyelembe kell venni az elemzés során. Egyes szakértők további V-ket is említenek, mint például a Value (az adatokból kinyerhető érték) vagy a Variability (az adatáramlások ingadozása).

Remove ads

A fogalom létrejötte

Az adatok feldolgozásának és elemzésének igénye gyakorlatilag egyidős a modern számítógépek megjelenésével és elterjedésével. Az adatfeldolgozás történetének első nagyjából ötven évét technológiai szempontból három fő korszakra oszthatjuk, amelyek során az adatkezelési módszerek és eszközök folyamatosan fejlődtek. Ennek a technológiai evolúciónak a jelenlegi, negyedik jelentős szintjét képviseli a big data jelensége és az ahhoz kapcsolódó technológiai ökoszisztéma. Magát a "big data" kifejezést széles körben John Mashey-nek tulajdonítják, aki már 1998-ban használta azt egy előadásában, hogy leírja a növekvő adatmennyiségek által támasztott infrastrukturális kihívásokat.[3] A fogalom azonban csak a 2000-es évek végén és a 2010-es évek elején vált igazán széles körben ismertté és használttá.

Strukturált adatok

Az 1960-as években, ahogy a számítástechnika megjelent a gazdasági élet szereplőinél, az adatokat kezdetben viszonylag egyszerű fájlrendszerekben tárolták. A fájlokban tárolt adatokhoz való hozzáférés jellemzően szekvenciálisan(wd) történt, ami megfelelt az akkori legelterjedtebb tárolóeszköz, a mágneses szalag működési elvének. Jelentős változást hozott az adatok elérésében a közvetlen hozzáférésű tárolóeszközök (Direct Access Storage Devices, DASD), például a mágneslemezek elterjedése. Ezen eszközök szélesebb körű használata tette lehetővé a szoftverfejlesztők számára a relációs adatbázisok elméletének és gyakorlatának kidolgozását. Az 1970-es évek meghatározó találmányai közé tartozott a relációs adatbázis-kezelő rendszer (RDBMS) és az ezek kezelésére kifejlesztett SQL (Structured Query Language) nyelvek, valamint a riportprogram-generátorok (RPG) és más adatmenedzsment eszközök. Az üzleti alkalmazásokban a számítástechnika további térnyerését nagymértékben a relációs adatmodell robusztussága és rugalmassága tette lehetővé. Mindazonáltal az adatbázisok létrehozása, karbantartása és lekérdezése kezdetben meglehetősen költséges és időigényes, azaz viszonylag lassú folyamat volt. A hatékonyság növelése érdekében hamarosan kidolgozták az Entity-Relationship (ER) modellt az adatbázis-tervezés támogatására, és megjelentek az integrált, elemzési célokat szolgáló adattárházak (Data Warehouses). A relációs adatbázisok használata az 1990-es évek elejére vált általánosan elfogadottá és iparági szabvánnyá a strukturált adatok kezelésére. Napjainkban a strukturált adatok feldolgozásának továbbra is rendkívül hatékony eszközei a skálázható hardvereken futó és virtualizációs technikákat alkalmazó, relációs adatbázisokon alapuló enterprise content management (ECM) rendszerek és modern adattárház megoldások. Azonban a tárolókapacitások drámai növekedésével párhuzamosan megjelentek és egyre nagyobb teret nyertek a BLOB-ok(wd) (Binary Large Objects), amelyek nagy méretű, strukturálatlan bináris adatokat (pl. képeket, videókat) tárolnak adatbázisokban. Ezek kezelésére és a komplexebb adatstruktúrák modellezésére megjelentek az objektumorientált adatbázis-kezelő rendszerek (ODBMS) is, bár ezek elterjedtsége elmaradt az RDBMS-ekétől.

Web és a Content menedzsment

1989-ben a CERN-ben Tim Berners-Lee megalkotta a világháló (World Wide Web) alapjait, amely hamarosan forradalmasította az információhoz való hozzáférést és elindította hódító útján az internetet a szélesebb közönség számára is. Az internet robbanásszerű fejlődésével szinte egy időben a vállalati és intézményi szférában is megjelentek és elterjedtek az internetprotokoll alapú belső hálózatok, az intranetek. Gondoljunk csak a multinacionális vállalatok globális magánhálózataira, egyes országok közigazgatási hálózataira, vagy akár a határellenőrzés nélküli utazást biztosító Schengeni Információs Rendszerre. Fontos megjegyezni, hogy a tartalomkezelő (content management) rendszerek már a web széles körű elterjedése előtt is léteztek, főként a dokumentumok kezelésére. A web fejlődése során azonban az enterprise content management (ECM) rendszerekben egyre növekvő igény mutatkozott a hagyományos, strukturált dokumentumok mellett a nagy mennyiségű strukturálatlan adat, mint például képek, videók, hangfájlok és más bináris adatok(wd) hatékony tárolására, kezelésére és kiértékelésére. Mivel ezeknek a bináris adatoknak a releváns információk alapján történő elérése pusztán metaadatokon keresztül egyre nehézkesebbé és kevésbé hatékonnyá vált, a századforduló környékén megjelentek és fejlődésnek indultak a különböző képfelismerő szoftverek(wd) és más, tartalom alapú elemzést végző technológiák. A web által generált hatalmas adatmennyiség és a globális elérhetőség igénye mellett szinte kikényszerítette a megosztott rendszerek (distributed systems) egyre szélesebb körű alkalmazását és elterjedését. Ezzel párhuzamosan megjelentek a virtuális rendszerek, és a virtualizáció általános gyakorlattá vált az erőforrások hatékonyabb kihasználása érdekében. A webes környezetben az adatok tárolásának és feldolgozásának új, rugalmas és skálázható eszközei jelentek meg a felhő alapú számítástechnika (cloud computing) formájában.

Virtualizáció

Az 1990-es évek végére és a 2000-es évek elejére a számítástechnikai fejlesztések, különösen a nagy sebességű optikai hálózatok elterjedése és a segítségükkel kialakított felhő alapú rendszerek megjelenése lehetővé tették a korábbi fizikai korlátok – mint a tárolókapacitás és a számítási teljesítmény helyhez kötöttsége – jelentős mértékű legyőzését. Gazdaságossá és technikailag megvalósíthatóvá vált hatalmas adatmennyiségek valós idejű vagy közel valós idejű tárolása, feldolgozása és elemzése. Maguk a legfontosabb alaptechnológiák, mint a virtualizáció, a párhuzamos feldolgozás (parallel processing), az osztott fájlrendszerek (distributed file systems), vagy az in-memory adatbázisok(wd) (az adatokat a merevlemez helyett a memóriában tartó adatbázisok a gyorsabb elérés érdekében) legalábbis elvi szinten már korábban is ismertek voltak, azonban csak a századvég és az új évezred technológiai fejlődése – különösen a hardverárak csökkenése és a hálózati sebességek növekedése – tette lehetővé széles körű és gazdaságos alkalmazásukat. A nagy teljesítményű, skálázható hardverek által kínált új lehetőségek kiaknázásához természetesen új szoftveres megoldásokra is szükség volt a meglévő adatbányászati (data mining) és content management eljárások mellett. Ilyen, kifejezetten a big data kihívásaira választ adó új technológiák például az Apache Hadoop keretrendszer és a hozzá kapcsolódó MapReduce programozási modell, amelyek lehetővé teszik nagy adatállományok párhuzamos feldolgozását számítógépfürtökön. A fejlesztések motorjai kezdetben elsősorban a nagy internetes vállalatok (pl. Google, Yahoo), a nagyvállalatok (különösen a bankok és pénzintézetek), valamint a tudományos kutatási projektek voltak, amelyek hatalmas adatmennyiségekkel dolgoztak. Hamarosan azonban megjelentek a kormányzati szervek is jelentős felhasználóként és fejlesztési ösztönzőként. A terrorizmus elleni küzdelem és a nemzetbiztonsági feladatok például a „big data” technológiák egyik korai és jelentős alkalmazási területévé váltak. Érdemes belegondolni, milyen elképesztően nagy mennyiségű és sokféle adatot (pl. online vásárlások, kommunikációs adatok, térfigyelő kamerafelvételek) kellett valós időben összegyűjteni és elemezni ahhoz, hogy például az interneten rendelt vegyi anyagok és kamerafelvételek elemzése alapján azonosítani tudják a Teréz körúti robbantás (2016) feltételezett elkövetőjét.

Remove ads

Infrastruktúra

A „Big data” koncepciójának gyakorlati megvalósítása és sikeres alkalmazása elképzelhetetlen a megfelelő fizikai és szoftveres infrastruktúrának (hardver és szoftver támogatásnak) a megléte nélkül. Ennek az infrastruktúrának számos kritikus követelménynek kell megfelelnie. Biztosítania kell a megfelelő performanciát(wd), azaz a rendszernek képesnek kell lennie a nagy adatmennyiségek gyors feldolgozására és lekérdezésére, nagyon magas szintű érzékenységgel és válaszkészséggel. Egy másik kulcsfontosságú szempont a rendelkezésre állás (availability). Mivel a big data rendszerek gyakran kritikus üzleti vagy társadalmi folyamatokat támogatnak, gyakorlatilag folyamatos, közel százszázalékos rendelkezésre állásra van szükség ahhoz, hogy egy ilyen rendszert érdemes legyen üzemeltetni. További alapvető követelmény a megfelelő skálázhatóság (scalability) mind horizontálisan (több gép hozzáadásával), mind vertikálisan (egyedi gépek erőforrásainak növelésével), mivel a Big data egyik legfőbb meghatározó tulajdonsága a folyamatosan és gyorsan bővülő adatállomány. Emellett, figyelembe véve az adatok rendkívül változatos voltát (variety), a rendszer flexibilitása, azaz a különböző adattípusok és feldolgozási igények kezelésének képessége is komoly kihívások elé állítja a tervezőket és üzemeltetőket. A magas rendelkezésre állás és a hibatűrés érdekében a rendszernek redundánsnak kell lennie (az adatok és a komponensek többszörözésével), és lehetőség szerint rugalmasnak, azaz képesnek kell lennie az automatikus hibajavításra vagy a hibák kikerülésére (öngyógyító képesség).

Tároló rendszerek

A hagyományos fájlrendszereket (mint amilyenek a legtöbb operációs rendszerben megtalálhatók) eredetileg nem a big data által támasztott, rendkívül nagy léptékű adatfeldolgozási feladatokra tervezték. A modern big data környezetekben a tendencia inkább a nagy méretű kötegelt adatcsomagok (gyakran több tíz vagy száz megabyte-nyi, sőt gigabyte-nyi adat) egyben történő, szekvenciális jellegű írása és olvasása felé mutat, optimalizálva az átviteli sebességet a véletlenszerű hozzáférési idő helyett. Az információk hatékony és felhasználóbarát megszervezésének legfontosabb szempontja a teljesítmény és a költséghatékonyság maximalizálása. Az adatok rendkívül nagy mennyisége szinte kivétel nélkül azt jelenti, hogy az adatokat fizikailag több számítógép között, disztributív (elosztott) módon kell tárolni és kezelni. Ennek megfelelően számos különböző, speciális elosztott tárolási technológia jelent meg és terjedt el, amelyek közül több igyekszik megfelelni a POSIX interfész szabványnak a kompatibilitás érdekében. Kettő a legismertebb és legfontosabb megoldások közül:

  • Az Amazon S3 (Simple Storage Service) egy rendkívül népszerű, felhő alapú objektumtároló szolgáltatás. Lehetővé teszi gyakorlatilag korlátlan mennyiségű adat tárolását és lekérését online szervizeken keresztül, szabványos HTTP web protokollokat (pl. REST API) használva. Elsősorban nagy adatcsomagok, például biztonsági mentések, multimédiás fájlok vagy naplófájlok tárolására optimalizálták.
  • Az Apache Hadoop Distributed File System (HDFS) egy elosztott fájlrendszer, amelyet kifejezetten a MapReduce és a MapReduce-hez hasonló, nagyméretű adathalmazokon végzett párhuzamos feldolgozási keretrendszerek (pl. Spark) hatékony támogatására dolgoztak ki. Ezek a rendszerek jellemzően nagy mennyiségű kötegelt adat (batch data) szekvenciális olvasására és írására lettek optimalizálva, és a hibatűrést az adatok replikációjával biztosítják a fürt csomópontjai között.

Szerverek

A „Big data” feldolgozás és analitika ma már szinte elképzelhetetlen a felhők (cloud computing platforms) nyújtotta rugalmasság és skálázhatóság nélkül. Egy modern informatikai rendszer, különösen egy big data rendszer kiépítéséhez a felhasználók (vállalatok, szervezetek) ma már egyre kevésbé vásárolnak vagy leasingelnek dedikált, nagy hardver komplexumokat a saját adatközpontjaikba. Sokkal inkább jellemző, hogy virtuális szervereket(wd), tárolókapacitást és speciális szolgáltatásokat bérelnek a nagy felhőszolgáltatóktól (pl. Amazon Web Services, Microsoft Azure, Google Cloud Platform). Ennek a megközelítésnek rengeteg előnye van: rendkívül gazdaságosan és gyorsan lehet nagy számítógépfürtöket (computational clusters) létrehozni vagy bővíteni; a virtuális gépek száma és kapacitása rugalmasan, akár automatikusan változtatható a terhelés függvényében (elasztikusság), ami kulcsfontosságú lehet sok ingadozó erőforrásigényű alkalmazásnál; valamint a szolgáltatók biztosítják az infrastruktúra karbantartását és magas rendelkezésre állását. Ennek megfelelően az informatikai piacon megjelentek és dominánssá váltak a különböző típusú felhőket biztosító megoldások és szolgáltatók.

  • Az Amazon EC2 (Amazon Elastic Compute Cloud) egy alapvető infrastruktúra-szolgáltatás (Infrastructure as a Service, IaaS). Egyszerűen fogalmazva, ez egy virtuális-számítógép kölcsönző, ahol a felhasználók igényeik szerint bérelhetnek különböző memória, CPU, tároló és hálózati konfigurációkból álló virtuális-számítógépeket (instance-eket). A bérlő egy komplett virtuális gépet kap (pl. linux vagy windows szervert), ahová gyökér-felhasználóként(wd) (root/administrator) léphet be, teljes kontrollt gyakorolva az operációs rendszer és az alkalmazások felett, és lehetősége van a saját szoftvereinek telepítésére és futtatására. A rendszer a szükségleteknek megfelelően rendkívül rugalmasan konfigurálható és skálázható. Ezek a virtuális gépek fizikailag az Amazon globális adatközpontjainak szerverein futnak.[4]
  • A Google App Engine (GAE) egy platform-szolgáltatás (Platform as a Service, PaaS) típusú felhőrendszer. Tipikus megvalósítása egy PaaS platformnak, amelynek fő feladata, hogy a Google által üzemeltetett adatközpontokban egy teljes körűen menedzselt platformot biztosítson webes alkalmazások és szolgáltatások fejlesztésére és hossztolására(wd) (hosting). Az ügyfél jellemzően Javaban, JVM alapú nyelveken, Pythonban, Go-ban, PHP-ben, Node.js-ben, .NET-ben vagy Rubyban írja meg a webszolgáltatásait. Futtatáskor az App Engine automatikusan gondoskodik az alkalmazás skálázásáról (horizontális felskálázás a terhelés növekedésével), a terheléselosztásról, a verziókezelésről és az infrastruktúra menedzseléséről. Az EC2-től eltérően itt a felhasználónak korlátozottabb a hozzáférése és kontrollja az alapul szolgáló futtató környezet felett, cserébe viszont magasabb szintű absztrakciót és automatizálást kap.
  • A Heroku(wd) szintén egy népszerű PaaS felhőplatform, amelyet eredetileg a Salesforce vásárolt fel. Több, különböző webalkalmazás fejlesztésére alkalmas programnyelvet és keretrendszert támogat. A Heroku volt az egyik legelső PaaS platform a piacon. Kezdetben kizárólag a Ruby nyelvet (és a Ruby on Rails keretrendszert) támogatta, de később ezt számos más népszerű nyelvre és technológiára is kiterjesztették (Java, Node.js, Scala, Clojure, Python, PHP, és Go). A Heroku lehetőséget biztosít a fejlesztőknek arra, hogy szabványosított munkafolyamatokkal, könnyen használható eszközökkel írhassanak, tesztelhessenek és futtathassanak skálázható alkalmazásokat a támogatott nyelvi környezetekben, jelentősen leegyszerűsítve az üzemeltetési feladatokat.[5]

Kommunikációs réteg

Minden elosztott adatfeldolgozási rendszerben, így természetesen a „big data” architektúrákban is kritikus szerepet kap a kommunikációs réteg. Az adatoknak a különböző tároló- és feldolgozórendszerekbe, például adatbázisokba való betáplálása (ingestion), valamint az eredmények és feldolgozott adatok kinyerése (retrieval) leggyakrabban hálózati protokollokon, tipikusan internet protokollon (IP) és az arra épülő magasabb szintű protokollokon (pl. HTTP, TCP) keresztül történik. Ezeknek a kommunikációs interfészeknek a hatékony és megbízható megtervezése és üzemeltetése mind a szervezeten belüli rendszerek között, mind pedig az adott szervezet és a külvilág (partnerek, ügyfelek, adatforrások) között számos technikai és architekturális kihívással jár.

Ezeket a kommunikációs és integrációs feladatokat a programozók és rendszertervezők ősidők óta API-k (Application Programming Interfaces) segítségével oldják meg. API eszközkészletek (toolkitek) és keretrendszerek sokasága áll rendelkezésre, amelyeket különböző speciális problémák megoldására, például adatszinkronizációra, távoli eljáráshívásra vagy eseményvezérelt kommunikációra hoztak létre. Ha egy fejlesztőnek egy webes vagy egy mobilalkalmazás fejlesztése során valamilyen külső vagy belső szolgáltatás eléréséhez API-ra van szüksége, ma már rengeteg lehetőség és szabvány közül válogathat. A „Big data” környezetben a hagyományos API megközelítések mellett újabb, kifejezetten az elosztott, nagyméretű rendszerek igényeire szabott eszközök és minták is megjelentek és elterjedtek.

  • A REST (Representational State Transfer) nem egy konkrét protokoll, hanem egy szoftverarchitektúra-stílus elosztott, tipikusan HTTP alapú, gyengén kapcsolt (loosely coupled) rendszerek számára. Magyarul egy olyan API tervezési elvegyüttes és konvenciórendszer, amelynek elsődleges célja, hogy egy nagy kiterjedésű hálózat (például a világháló) különböző erőforrásai (szerverek, kliensek, proxyk, átjárók(wd) stb.) között egyszerű, állapotmentes és skálázható kapcsolatot biztosítson. A RESTful API-k széles körben elterjedtek a webes szolgáltatások és mikroszolgáltatások közötti kommunikációban.
  • Egy másik fontos, bár némileg visszaszorulóban lévő kommunikációs technológia a webszolgáltatások világában a SOAP. Ez egy XML alapú protokoll specifikáció, amely a Szolgáltatásorientált architektúra (SOA) elveire épül. A REST-hez képest ez egy formálisabb, szabványosítottabb megközelítés, amely szintén lazán kapcsolt rendszerek közötti kommunikációra ad biztonságos és jól definiált kereteket, beépített támogatással például a tranzakciókezelésre vagy a biztonságra. A SOAP által definiált szolgáltatások a mögöttes üzleti folyamatok folytonos változásának és megújulásának megfelelően újrafelhasználhatók és újrakombinálhatók komplexebb munkafolyamatokká.

A kommunikációs rétegnél feltétlenül szót kell ejteni a Natural Language Processing (NLP) – magyarul természetes nyelvfeldolgozás – rohamosan fejlődő területéről is. Ez egy rendkívül perspektivikus interfész fejlesztési irányzat, amely a mesterséges intelligencia és a nyelvészet eszköztárát használja. Az NLP lehetővé teszi például az adatbázisok vagy tudásbázisok lekérdezését természetes emberi nyelven (pl. magyarul vagy angolul) megfogalmazott kérdésekkel, bonyolult formális lekérdező nyelvek ismerete nélkül. Nyilvánvalóan egy „big data” rendszer üzleti felhasználójának sokkal egyszerűbb és gyorsabb lehet feltenni egy olyan kérdést, mint: „Listázd ki az összes házas, 30 és 40 év közötti, férfi, Szeged körzetében lakó, FTC drukkert!”, mintsem megírni egy akár 20-25 soros, komplex SQL lekérdezést több tábla összekapcsolásával. Az NLP technológiák fejlődése forradalmasíthatja az adatokhoz való hozzáférést és az elemzési folyamatokat.[6]

Adatanalízis

Gondoljuk át példaként a BKK FUTÁR rendszerét![7] Ez egy olyan komplex rendszer, amely sokunk mindennapi életében jelen van, és egyértelműen egy „big data” rendszer jellemzőit mutatja. A FUTÁR rendelkezik mindhárom klasszikus meghatározó (3V) jellemzővel. A nagy mennyiségű és nagyon gyors adatforgalomról (Volume és Velocity) gondoskodik a közlekedési szolgáltatók (BKV, ArrivaBus, Volánbusz stb.) mintegy 3000 járműve. Ezek pillanatnyi helyzetének GPS koordinátáit és egyéb állapotinformációit (pl. sebesség, ajtónyitás) folyamatosan szolgáltatják a járműveken elhelyezett fedélzeti egységek. Ehhez kapcsolódnak további valós idejű adatok, mint például a Budapest forgalmát figyelő köztéri kamerák képei és az útkereszteződésekben elhelyezett forgalomszámláló érzékelőkből érkező információk, valamint a menetrendi és utastájékoztatási adatok (Variety). A rendszer komplex feladata ezen hatalmas és sokféle adatáramlat folyamatos figyelése, feldolgozása, és szükség esetén automatikus (pl. jelzőlámpa-program módosítás) vagy emberi (diszpécseri) beavatkozások lehetővé tétele a forgalomirányítás és az utastájékoztatás érdekében. Emellett a rendszer természetesen kiterjedt statisztikai adatgyűjtést és utólagos analízist is végez a szolgáltatás tervezése és optimalizálása céljából.

A „big data” koncepció legnagyobb kihívása és egyben a legfőbb célja a felhalmozott, hatalmas mennyiségű adatból történő értékteremtés: a felhasználásorientált kiértékelés, az adatokban rejlő mintázatok, összefüggések és trendek feltárása, valamint az eredmények érthető és használható formában történő bemutatása. Itt a konkrét felhasználás módjától és az adatgyűjtés eredeti céljától függően a legkülönbözőbb analitikai módszerek és technológiák kerülhetnek alkalmazásra. Fontos terület a statisztikai analízis. Nagy előny a hagyományos üzleti intelligencia (Business Intelligence, BI) rendszerekhez képest, hogy a klasszikus leíró statisztikai (descriptive statistics) módszerek mellett a rendelkezésre álló óriási adatmennyiség gyakran lehetővé teszi a matematikai statisztika (inferential statistics) robusztusabb módszereinek alkalmazását is, amelyekkel általánosítható következtetéseket vonhatunk le a teljes sokaságra vonatkozóan. Az adatbányászati és gépi tanulási (machine learning) algoritmusok szintén központi szerepet játszanak a rejtett mintázatok feltárásában, a prediktív modellezésben és a döntéstámogatásban.

Az analízisek komplex eredményeit végül emberi fogyasztásra alkalmassá, azaz könnyen érthetővé és interpretálhatóvá kell tenni. Ezt a feladatot vagy a statisztikai vagy adatbányászati szoftverekhez kapcsolódó beépített vizualizációs megoldások biztosítják (különböző típusú gráfokkal, grafikonokkal, dashboardokkal), vagy pedig ezektől független, dedikált adatvizualizációs rendszerek és eszközök segítségével valósítják meg.

  • Az R egy rendkívül népszerű, szabad, nyílt forráskódú, professzionális szintű és folyamatos fejlesztés alatt álló programozási nyelv és szoftverkörnyezet, amelyet kifejezetten statisztikai számításokra és adatvizualizációra fejlesztettek ki. Statisztikai és adatmanipulációs megoldások rendkívül széles körét tartalmazza (pl. lineáris és nemlineáris modellezés(wd), klasszikus statisztikai próbák, idősoranalízis, klaszterezés, gépi tanulási algoritmusok stb.) nagyszámú kiegészítő csomagnak köszönhetően.[8] Az R nyelv/szoftver csomag kiválóan integrálható Hadoop környezetben (pl. RHadoop, SparkR), és más streaming adatfeldolgozási nyelvekkel és platformokkal is hatékonyan használható.
  • Az IBM’s BigSheets egy korábbi, böngésző alapú felhőalkalmazás volt, amelyet az IBM kínált az InfoSphere BigInsights platform részeként. Segítségével strukturált és strukturálatlan adatállományokon lehetett ad-hoc analízéseket végezni, táblázatkezelő-szerű felületen keresztül. Célja az volt, hogy lehetőséget biztosítson mélyebb informatikai vagy programozási ismeretekkel nem rendelkező üzleti felhasználóknak (pl. elemzőknek) is a „big data” adathalmazok feltárására és kiértékelésére. Jól használható volt Apache Hadoop és MapReduce környezetben, de mára modernebb eszközök vették át a helyét az IBM portfóliójában és a piacon.[9]

Vizualizáció

Thumb
A Panama-akták komplex kapcsolati hálója Gephiben megjelenítve

A „big data” elemzések eredményeinek és az adatokban rejlő mintázatoknak a felhasználók számára érthetővé és fogyaszthatóvá tételéhez elengedhetetlenek a különböző adatvizualizációs technikák és alkalmazások. Ezek segítenek az összetett információk gyors megértésében, a trendek és kiugró értékek azonosításában, valamint az eredmények hatékony kommunikálásában. Számos kiváló eszköz létezik erre a célra, például a hálózatelemzésre specializálódott Gephi, a programozható vizualizációkat lehetővé tévő Graphviz vagy Processing, a webes interaktív vizualizációk készítésére szolgáló D3.js(wd) JavaScript könyvtár, a Google Google Looker Studio (korábban Google Data Studio)(wd) nevű felhő alapú eszköze, vagy a piacvezető üzleti intelligencia és vizualizációs platformok, mint a Tableau vagy a Microsoft Power BI.

  • A Gephi egy nyílt forráskódú, interaktív platform, amely kifejezetten komplex hálózatok (gráfok) elemzésére és vizualizációjára specializálódott. Java nyelven íródott. A strukturálatlan vagy strukturált adatokat élek (kapcsolatok) és csomópontok (entitások) formájában gráfokba rendezi, majd lehetővé teszi ezek feltárását, szűrését és vizuális megjelenítését különböző elrendezési algoritmusok és attribútum-alapú színezés, méretezés segítségével. Nagyon jól használható például szociális hálók (pl. LinkedIn, Facebook, Twitter) elemzésénél a közösségek, befolyásos szereplők és kapcsolati mintázatok feltárására és vizualizációjában. Több különböző elrendezési algoritmust (layout engine) tartalmaz, amelyek sokféle paraméterrel finomhangolhatók az optimális megjelenítés érdekében.
  • A Google Fusion Tables (megszűnt 2019-ben) a Google által korábban adatmenedzsmentre, a Google Docs részeként, biztosított ingyenes webszerviz volt. Adatgyűjtésre, adatvizualizációra és az adatok egyszerű megosztására volt használható. Támogatta a legkülönbözőbb grafikon és diagram típusokat, de egyik erőssége az adatok interaktív térképeken történő megjelenítése volt. Utódja a Google ökoszisztémájában a Google Looker Studio (korábban Data Studio).
  • A Tableau egy piacvezető üzleti intelligencia (BI) és adatvizualizációs szoftverplatform. Eredetileg a Stanford Egyetemen fejlesztették ki, és kezdetben főként asztali alkalmazásként funkcionált interaktív grafikonok és dashboardok készítésére. Később a Tableau platform jelentősen kibővült szerveroldali megoldásokkal, amelyek lehetővé teszik a nagyszámú tartalom létrehozását (content creation), megosztását és a kollaboratív elemzést, valamint online publikációt támogató funkciókkal. Rendkívül népszerűvé vált az üzleti elemzők és az adatújságírók körében, elsősorban a nagy online hírszolgáltatók is gyakran használják komplex adathalmazok vizuális bemutatására. A Looker Studiohoz hasonlóan kiválóan alkalmas az adatok térképes megjelenítésére is, szoros integrációval különböző térképszolgáltatókkal.
Remove ads

Etikai problémák

A „big data” önmagában, mint technológiai koncepció, adatállomány gyűjtemény és a hozzá kapcsolódó komplex informatikai környezet, erkölcsileg semlegesnek tekinthető. Azonban a „big data“ rendszereket fejlesztő, üzemeltető és azokat felhasználó személyekkel, vállalatokkal, kormányzati szervekkel és egyéb szervezetekkel kapcsolatosan már korántsem mondhatjuk el ugyanezt. A „big data” óriási lehetőségeket rejt magában mind gazdasági szempontból (pl. új üzleti modellek, hatékonyságnövelés, személyre szabott szolgáltatások), mind pedig az emberek életminőségének(wd) javítása szempontjából (pl. egészségügy, közlekedés, tudományos kutatás), de ezzel párhuzamosan hatalmas veszélyeket és etikai dilemmákat is felvet. Különösen aggályos lehet a technológia alkalmazása a személyiségi jogok, a magánszféra védelme, a diszkrimináció és a társadalmi igazságosság szempontjából. A lehetőségek kiaknázása és a potenciális veszélyek minimalizálása közötti kényes egyensúly megtalálása korunk egyik legnagyobb társadalmi és erkölcsi kihívása. A „big data“ technológia lényegéből fakadóan – a hatalmas adatmennyiség, a sokféle forrásból származó adatok összekapcsolása, a fejlett elemzési technikák – rendkívül nehéz megtalálni azt a határvonalat, amely még etikailag elfogadható használatot jelent. Egyik oldalon ott állnak a jogos üzleti érdekek (pl. célzott marketing az elektronikus kereskedelemben, kockázatértékelés a biztosítási szektorban), a tudományos haladás vagy a közbiztonság javításának igénye. Másik oldalon pedig ott vannak a szociális hálók (Twitter, Facebook, Wikipédia stb.) és más online platformok által gyűjtött adatok felhasználásával kapcsolatos veszélyek, a kormányzati megfigyelés lehetősége, vagy az algoritmusok által esetlegesen előidézett torzítások és diszkriminatív hatások. Az átláthatóság hiánya és az adatok feletti kontroll elvesztésének érzése tovább bonyolítja a helyzetet.

Remove ads

A személyiségi jogok kérdése

A „big data“ rendszerek, különösen a közösségi média oldalakat (mint a LinkedIn, Facebook, Twitter, Instagram) üzemeltető vállalatok adatbázisai, de a különböző gazdasági szervezetek (pl. webáruházak, bankok, telekommunikációs cégek), vagy akár kormányzati szervek által üzemeltetett „big data“ adatállományok is, elképzelhetetlenül nagy mennyiségű személyes adatot és információt tartalmaznak és dolgoznak fel rólunk. És itt fontos hangsúlyozni, hogy nem csupán a legszűkebben vett, hagyományos személyes adatokra (pl. név, cím, születési hely és idő, telefonszám stb.) kell gondolnunk. Manapság már szinte bármilyen adat személyes adattá válhat, ha az egy konkrét személyhez köthető. Akár egy a Facebookra feltöltött egyszerű fénykép is tartalmazhat védendő személyes információt a rajta szereplő személyekről, a készítés helyszínéről, idejéről vagy a képen látható tárgyakról és tevékenységekről, függően a kontextustól. Ezek az adatok önmagukban is érzékenyek lehetnek, de különösen aggályos az, hogy a modern adatbányászati és gépi tanulási eszközökkel ezekből az adatokból rendkívül részletes személyiségi profilok hozhatók létre. Ezek a profilok, amennyiben illetéktelen kezekbe kerülnek, vagy ha maguk az adatgazdák (adatkezelők) jogellenesen, etikátlanul vagy akár csak gondatlanul használják fel ezeket, súlyosan sérthetik az egyének alapvető jogait. Különösen alkalmasak lehetnek a törvényben is nevesített személyhez fűződő jogok, mint a becsület védelme, az emberi méltóság védelme, a jó hírnév védelme, a képmás és hangfelvétel oltalma, és legfőképpen a személyes adatok védelmehez és a magánszférához való jog megsértésére. Az automatizált döntéshozatal és profilalkotás reális veszélye a rejtett diszkrimináció és az egyenlőtlen bánásmód. A személyes adatok védelme világszerte egyre fontosabb és sürgetőbb kérdéssé vált a digitális korban. A fejlett (és fejlődő) államok törvényhozásai a „big data“ jelenség térhódításával és a technológiai fejlődéssel párhuzamosan rákényszerültek arra, hogy felülvizsgálják és megerősítsék adatvédelmi törvényeiket, vagy újakat alkossanak. Az Egyesült Államokban az elnök 2012 februárjában terjesztett elő egy átfogó adatvédelmi keretrendszert (Consumer Privacy Bill of Rights),[10] azonban a szövetségi szintű átfogó jogszabály máig nem született meg, bár számos ágazati és állami szintű törvény létezik (pl. a kaliforniai CCPA/CPRA). A Magyar Országgyűlés 2011-ben fogadta el az információs önrendelkezési jogról és az információszabadságról szóló CXII. törvényt (Infotv.),[11] amelyet azóta többször módosítottak, leginkább az uniós jogharmonizáció miatt. Az Európai Unió szintjén mérföldkőnek számít az Európai Bizottság által a tagországok adatvédelmi hatóságaival együttműködve kidolgozott Általános Adatvédelmi Rendelet (General Data Protection Regulation, GDPR). A rendeletet 2016. május 24-én fogadták el, és kétéves felkészülési időszak után 2018. május 25-től vált közvetlenül alkalmazandóvá minden tagállamban, jelentősen megerősítve az egyének adatvédelmi jogait és szigorú kötelezettségeket róva az adatkezelőkre.[12][13] A GDPR globális hatással bír, és világszerte mintaként szolgál más adatvédelmi szabályozásokhoz.

Remove ads

Jegyzetek

Források

További információk

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads