Grootdata

Grootdata verwys hoofsaaklik na datastelle wat te groot of kompleks is om deur tradisionele dataverwerkingsagteware hanteer te word. Data met baie inskrywings (rye) bied groter statistiese krag, terwyl data met hoër kompleksiteit (meer eienskappe of kolomme) tot 'n hoër vals ontdekkingskoers kan lei.^[1]

Uitdagings vir grootdata-analise sluit in die vaslegging van data, databerging, data-analise, soek, deel, oordrag, visualisering, navraag doen, opdatering, inligtingprivaatheid en databron. Grootdata is oorspronklik met drie sleutelkonsepte geassosieer: volume, verskeidenheid en snelheid.^[2] Die analise van grootdata bied uitdagings in steekproefneming, en het dus voorheen slegs waarnemings en steekproefneming toegelaat. Dus verwys 'n vierde konsep, waarheidsgetrouheid, na die kwaliteit of insiggewendheid van die data.^[3] Sonder voldoende belegging in kundigheid vir grootdata-waarheid, kan die volume en verskeidenheid data koste en risiko's veroorsaak wat 'n organisasie se kapasiteit om waarde uit grootdata te skep en vas te lê, oorskry.^[4]

Huidige gebruik van die term grootdata verwys gewoonlik na die gebruik van voorspellende analise, gebruikersgedragsanalise of sekere ander gevorderde data-analisemetodes wat waarde uit grootdata onttrek, en selde na 'n spesifieke grootte van die datastel. "Daar is min twyfel dat die hoeveelhede data wat nou beskikbaar is inderdaad groot is, maar dit is nie die mees relevante kenmerk van hierdie nuwe data-ekosisteem nie."^[5] Analise van datastelle kan nuwe korrelasies vind om "besigheidstendense op te spoor, siektes te voorkom, misdaad te bestry, ensovoorts".^[6] Wetenskaplikes, sakebestuurders, mediese praktisyns, advertensies en regerings ondervind gereeld probleme met grootdatastelle in gebiede soos internetsoektogte, fintech, gesondheidsorganalise, geografiese inligtingstelsels, stedelike informatika en besigheidsinformatika. Wetenskaplikes ondervind beperkings in e-wetenskapwerk, insluitend meteorologie, genomika,^[7] konnektomika, komplekse fisika-simulasies, biologie en omgewingsnavorsing.^[8]

Die grootte en aantal beskikbare datastelle het vinnig gegroei namate data ingesamel word deur toestelle soos mobiele toestelle, goedkoop en talle inligting-senserende Internet van Dinge-toestelle, lugwaarnemingstoerusting (afstandwaarneming), sagtewarelogboeke, kameras, mikrofone, radiofrekwensie-identifikasie (RFID) lesers en draadlose sensornetwerke.^[9]^[10] Die wêreld se tegnologiese per capita kapasiteit om inligting te stoor, het sedert die 1980's elke 40 maande rofweg verdubbel;^[11] vanaf 2012 word elke dag 2.5 eksagrepe (2.17×260 grepe) data gegenereer.^[12] Gebaseer op 'n IDC-verslagvoorspelling, is voorspel dat die globale datavolume eksponensieel sou groei van 4.4 zettagrepe tot 44 zettagrepe tussen 2013 en 2020. Teen 2025 voorspel IDC dat daar 163 zettagrepe data sal wees.^[13] Volgens die IDC word beraam dat wêreldwye besteding aan grootdata- en besigheidsanalise-oplossings (BDA) $215,7 miljard in 2021 sal bereik.^[14]^[15] Volgens Statista word voorspel dat die wêreldwye grootdatamark teen 2027 tot $103 miljard sal groei.^[16] In 2011 het McKinsey & Company berig dat as Amerikaanse gesondheidsorg grootdata kreatief en effektief sou gebruik om doeltreffendheid en kwaliteit te bevorder, die sektor meer as $300 miljard in waarde elke jaar kan skep.^[17] In die ontwikkelde ekonomieë van Europa kan regeringsadministrateurs meer as €100 miljard ($149 miljard) in verbeterings aan operasionele doeltreffendheid bespaar deur grootdata te gebruik.^[17] En gebruikers van dienste wat deur persoonlike liggingsdata moontlik gemaak word, kan $600 miljard in verbruikersurplus vasvang.^[17] Een vraag vir groot ondernemings is om te bepaal wie grootdata-inisiatiewe moet besit wat die hele organisasie raak.^[18]

Relasionele databasisbestuurstelsels en statistiese sagtewarepakkette vir rekenaars wat gebruik word om data te visualiseer, sukkel dikwels om grootdata te verwerk en te analiseer. Die verwerking en analise van groot data mag "massief parallelle sagteware vereis wat op tiene, honderde of selfs duisende bedieners loop".^[19] Wat as "grootdata" kwalifiseer, wissel na gelang van die vermoëns van diegene wat dit analiseer en hul gereedskap. Verder maak die uitbreiding van vermoëns grootdata 'n bewegende teiken. "Vir sommige organisasies kan die eerste keer dat hulle honderde gigagrepe data in die gesig staar, 'n behoefte veroorsaak om databestuursopsies te heroorweeg. Vir ander kan dit tiene of honderde teragrepe neem voordat datagrootte 'n beduidende oorweging word."^[20]

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

Grootdata

Definisie

Groot data teenoor besigheidsintelligensie

Eienskappe

Verwysings

Wikiwand - on