Grootdata

inligtingsbates wat gekenmerk word deur so 'n hoë volume, snelheid en verskeidenheid dat dit spesifieke tegnologie en analitiese metodes vereis vir die transformasie daarvan in waarde From Wikipedia, the free encyclopedia

Grootdata
Remove ads

Grootdata verwys hoofsaaklik na datastelle wat te groot of kompleks is om deur tradisionele dataverwerkingsagteware hanteer te word. Data met baie inskrywings (rye) bied groter statistiese krag, terwyl data met hoër kompleksiteit (meer eienskappe of kolomme) tot 'n hoër vals ontdekkingskoers kan lei.[1]

Thumb
'n Diagram van die generering en algemene toepassing van grootdata.

Uitdagings vir grootdata-analise sluit in die vaslegging van data, databerging, data-analise, soek, deel, oordrag, visualisering, navraag doen, opdatering, inligtingprivaatheid en databron. Grootdata is oorspronklik met drie sleutelkonsepte geassosieer: volume, verskeidenheid en snelheid.[2] Die analise van grootdata bied uitdagings in steekproefneming, en het dus voorheen slegs waarnemings en steekproefneming toegelaat. Dus verwys 'n vierde konsep, waarheidsgetrouheid, na die kwaliteit of insiggewendheid van die data.[3] Sonder voldoende belegging in kundigheid vir grootdata-waarheid, kan die volume en verskeidenheid data koste en risiko's veroorsaak wat 'n organisasie se kapasiteit om waarde uit grootdata te skep en vas te lê, oorskry.[4]

Huidige gebruik van die term grootdata verwys gewoonlik na die gebruik van voorspellende analise, gebruikersgedragsanalise of sekere ander gevorderde data-analisemetodes wat waarde uit grootdata onttrek, en selde na 'n spesifieke grootte van die datastel. "Daar is min twyfel dat die hoeveelhede data wat nou beskikbaar is inderdaad groot is, maar dit is nie die mees relevante kenmerk van hierdie nuwe data-ekosisteem nie."[5] Analise van datastelle kan nuwe korrelasies vind om "besigheidstendense op te spoor, siektes te voorkom, misdaad te bestry, ensovoorts".[6] Wetenskaplikes, sakebestuurders, mediese praktisyns, advertensies en regerings ondervind gereeld probleme met grootdatastelle in gebiede soos internetsoektogte, fintech, gesondheidsorganalise, geografiese inligtingstelsels, stedelike informatika en besigheidsinformatika. Wetenskaplikes ondervind beperkings in e-wetenskapwerk, insluitend meteorologie, genomika,[7] konnektomika, komplekse fisika-simulasies, biologie en omgewingsnavorsing.[8]

Die grootte en aantal beskikbare datastelle het vinnig gegroei namate data ingesamel word deur toestelle soos mobiele toestelle, goedkoop en talle inligting-senserende Internet van Dinge-toestelle, lugwaarnemingstoerusting (afstandwaarneming), sagtewarelogboeke, kameras, mikrofone, radiofrekwensie-identifikasie (RFID) lesers en draadlose sensornetwerke.[9][10] Die wêreld se tegnologiese per capita kapasiteit om inligting te stoor, het sedert die 1980's elke 40 maande rofweg verdubbel;[11] vanaf 2012 word elke dag 2.5 eksagrepe (2.17×260 grepe) data gegenereer.[12] Gebaseer op 'n IDC-verslagvoorspelling, is voorspel dat die globale datavolume eksponensieel sou groei van 4.4 zettagrepe tot 44 zettagrepe tussen 2013 en 2020. Teen 2025 voorspel IDC dat daar 163 zettagrepe data sal wees.[13] Volgens die IDC word beraam dat wêreldwye besteding aan grootdata- en besigheidsanalise-oplossings (BDA) $215,7 miljard in 2021 sal bereik.[14][15] Volgens Statista word voorspel dat die wêreldwye grootdatamark teen 2027 tot $103 miljard sal groei.[16] In 2011 het McKinsey & Company berig dat as Amerikaanse gesondheidsorg grootdata kreatief en effektief sou gebruik om doeltreffendheid en kwaliteit te bevorder, die sektor meer as $300 miljard in waarde elke jaar kan skep.[17] In die ontwikkelde ekonomieë van Europa kan regeringsadministrateurs meer as €100 miljard ($149 miljard) in verbeterings aan operasionele doeltreffendheid bespaar deur grootdata te gebruik.[17] En gebruikers van dienste wat deur persoonlike liggingsdata moontlik gemaak word, kan $600 miljard in verbruikersurplus vasvang.[17] Een vraag vir groot ondernemings is om te bepaal wie grootdata-inisiatiewe moet besit wat die hele organisasie raak.[18]

Relasionele databasisbestuurstelsels en statistiese sagtewarepakkette vir rekenaars wat gebruik word om data te visualiseer, sukkel dikwels om grootdata te verwerk en te analiseer. Die verwerking en analise van groot data mag "massief parallelle sagteware vereis wat op tiene, honderde of selfs duisende bedieners loop".[19] Wat as "grootdata" kwalifiseer, wissel na gelang van die vermoëns van diegene wat dit analiseer en hul gereedskap. Verder maak die uitbreiding van vermoëns grootdata 'n bewegende teiken. "Vir sommige organisasies kan die eerste keer dat hulle honderde gigagrepe data in die gesig staar, 'n behoefte veroorsaak om databestuursopsies te heroorweeg. Vir ander kan dit tiene of honderde teragrepe neem voordat datagrootte 'n beduidende oorweging word."[20]

Remove ads

Definisie

Die term "grootdata" word al sedert die 1990's gebruik, met sommige wat John Mashey erkenning gee vir die popularisering van die term.[21][22] Grootdata sluit gewoonlik datastelle in met groottes wat die vermoë van algemeen gebruikte sagteware-instrumente om data binne 'n aanvaarbare tyd vas te lê, te kureer, te bestuur en te verwerk, oorskry.[23] Grootdata-filosofie omvat ongestruktureerde, semi-gestruktureerde en gestruktureerde data; die hoof fokus is egter op ongestruktureerde data.[24] Groot data "grootte" is 'n voortdurend bewegende teiken; vanaf 2012 wissel dit van 'n paar dosyn teragrepe tot baie zettagrepe data.[25] Grootdata vereis 'n stel tegnieke en tegnologieë met nuwe vorme van integrasie om insigte te openbaar uit datastelle wat uiteenlopend, kompleks en van 'n massiewe skaal is. [26]

"Volume", "verskeidenheid", "snelheid" en verskeie ander "V's" (in Engels) word deur sommige organisasies bygevoeg om dit te beskryf, 'n hersiening wat deur sommige bedryfsowerhede uitgedaag word.[27] Die V's van groot data is dikwels na verwys as die "drie V's", "vier V's" en "vyf V's". Hulle het die eienskappe van groot data in volume, verskeidenheid, snelheid, waarheid en waarde verteenwoordig.[3] Variasie word dikwels ingesluit as 'n bykomende eienskap van grootdata.

'n Definisie van 2018 lui: "Grootdata is waar parallelle rekenaargereedskap nodig is om data te hanteer", en merk op: "Dit verteenwoordig 'n duidelike en duidelik gedefinieerde verandering in die rekenaarwetenskap wat gebruik word, via parallelle programmeringsteorieë, en verliese van sommige van die waarborge en vermoëns wat deur Codd se relasionele model gemaak word."[28]

In 'n vergelykende studie van groot datastelle het Kitchin en McArdle bevind dat geeneen van die algemeen beskoude eienskappe van grootdata konsekwent in al die geanaliseerde gevalle voorkom nie.[29] Om hierdie rede het ander studies die herdefiniëring van magsdinamika in kennisontdekking as die bepalende eienskap geïdentifiseer.[30] In plaas daarvan om op die intrinsieke eienskappe van groot data te fokus, bevorder hierdie alternatiewe perspektief 'n relasionele begrip van die objek wat beweer dat wat saak maak, die manier is waarop data versamel, gestoor, beskikbaar gestel en geanaliseer word.

Groot data teenoor besigheidsintelligensie

Die groeiende volwassenheid van die konsep definieer die verskil tussen "grootdata" en "sake-intelligensie" duideliker:[31]

  • Sake-intelligensie gebruik toegepaste wiskundige gereedskap en beskrywende statistieke met data met hoë inligtingsdigtheid om dinge te meet, tendense op te spoor, ens.
  • Grootdata gebruik wiskundige analise, optimalisering, induktiewe statistieke en konsepte van nie-lineêre stelselidentifikasie[32] om wette (regressies, nie-lineêre verwantskappe en oorsaaklike effekte) af te lei uit groot stelle data met lae inligtingsdigtheid[33] om verwantskappe en afhanklikhede te openbaar, of om voorspellings van uitkomste en gedrag uit te voer.[32][34]
Remove ads

Eienskappe

Thumb
Hierdie beeld toon die groei van grootdata se primêre eienskappe van volume, snelheid en verskeidenheid.

Grootdata kan beskryf word deur die volgende eienskappe:

Volume

Die hoeveelheid gegenereerde en gestoorde data. Die grootte van die data bepaal die waarde en potensiële insig, en of dit as groot data beskou kan word of nie. Die grootte van grootdata is gewoonlik groter as teragrepe en petagrepe.[35]

Verskeidenheid

Die tipe en aard van die data. Vroeëre tegnologieë soos RDBMS'e was in staat om gestruktureerde data doeltreffend en effektief te hanteer. Die verandering in tipe en aard van gestruktureerd na semi-gestruktureerd of ongestruktureerd het egter die bestaande gereedskap en tegnologieë uitgedaag. Grootdatategnologieë het ontwikkel met die primêre doel om die semi-gestruktureerde en ongestruktureerde (verskeidenheid) data wat met hoë spoed (snelheid) en groot in volume gegenereer is, vas te lê, te stoor en te verwerk. Later is hierdie gereedskap en tegnologieë ook verken en gebruik vir die hantering van gestruktureerde data, maar verkieslik vir berging. Uiteindelik is die verwerking van gestruktureerde data steeds as opsioneel gehou, óf met behulp van grootdata óf tradisionele RDBMS'e. Dit help met die ontleding van data vir die effektiewe gebruik van die verborge insigte wat blootgestel word aan die data wat via sosiale media, loglêers, sensors, ens. versamel word. Grootdata put uit teks, beelde, klank, video; plus dit voltooi ontbrekende stukke deur data-fusie.

Snelheid

Die spoed waarteen data gegenereer en verwerk word om aan die eise en uitdagings te voldoen wat in die pad van groei en ontwikkeling lê. Grootdata is dikwels intyds beskikbaar. In vergelyking met kleindata word grootdata meer voortdurend geproduseer. Twee soorte snelheid wat verband hou met grootdata is die frekwensie van generering en die frekwensie van hantering, opname en publikasie.[36]

Waarheid

Die waarheidsgetrouheid of betroubaarheid van die data, wat verwys na die datakwaliteit en die datawaarde.[37] Grootdata moet nie net groot wees nie, maar ook betroubaar wees om waarde in die analise daarvan te verkry. Die datakwaliteit van vasgelegde data kan baie wissel, wat 'n akkurate analise beïnvloed.[38]

Waarde

Die waarde van inligting wat bereik kan word deur die verwerking en analise van grootdatastelle. Waarde kan ook gemeet word deur 'n assessering van die ander eienskappe van grootdata.[39] Waarde kan ook die winsgewendheid van inligting verteenwoordig wat verkry word uit die analise van grootdata.

Veranderlikheid

Die kenmerk van die veranderende formate, struktuur of bronne van grootdata. Grootdata kan gestruktureerde, ongestruktureerde of kombinasies van gestruktureerde en ongestruktureerde data insluit. Grootdata-analise kan roudata van verskeie bronne integreer. Die verwerking van roudata kan ook transformasies van ongestruktureerde data na gestruktureerde data behels. Ander moontlike eienskappe van grootdata is:[40]

Omvattend

Of die hele stelsel (d.w.s. =alles) vasgelê of opgeneem word of nie. Grootdata mag al die beskikbare data van bronne insluit of nie.

Fynkorrelrig en uniek leksikaal

Onderskeidelik, die proporsie spesifieke data van elke element per element wat versamel word en of die element en sy eienskappe behoorlik geïndekseer of geïdentifiseer is.

Relasioneel

As die versamelde data gemeenskaplike velde bevat wat 'n samevoeging, of meta-analise, van verskillende datastelle moontlik sou maak.

Uitbreidend

As nuwe velde in elke element van die versamelde data maklik bygevoeg of verander kan word.

Skaalbaarheid

As die grootte van die grootdata-bergingstelsel vinnig kan uitbrei.

Remove ads

Verwysings

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads