Datasjø
samling av data lagret i sine råformat From Wikipedia, the free encyclopedia
Remove ads
En datasjø[1][2] (også kalt «datadump») er en samling av data lagret i sitt råformat,[3] som vanligvis innebærer filer eller binærobjekter. Datasjøen er vanligvis ett enkelt datalager som inneholder råkopier av data fra kildesystem, sensordata, og lignende,[4] samt transformerte data som brukes til oppgaver som rapportering, visualisering, avansert analyse og maskinlæring.

Datasjøen kan inneholde strukturerte data fra relasjonsdatabaser (rader og kolonner), semi-strukturerte data (CSV, logger, XML, JSON), ustrukturerte data (e-post, dokumenter, PDF-filer) og binære data (bilde, lyd, video).[5] Datasjøen kan være lagret lokalt (on-prem) eller i nettskyen, hvorav mange benytter distribuerte filsystemer basert på Apache Hadoop.[6]
Det har vært gradvis økende akademisk interesse for begrepet datasjøer, og det har blitt nevnt som en metode for å administrere stordata, men dette har også møtt en viss kontrovers, og avhenger av en moden implementasjon for å kunne lykkes.[7] Datasjøen kan gi ett enkelt sted for innsamling, organisering og deling av personopplysninger.[8] En annen kritikk av begrepet datasjø er at det har begrenset nytte fordi det brukes på så mange forskjellige måter. [9]
Remove ads
Utvidelser
Datasjøhus (engelsk: data lakehouse) er en foreslått hybrid tilnærming som ligger mellom datasjø og datavarehus,[10] og forsøker å løse noen av utfordringene med datasjøer.[11][klargjør] Det har blitt beskrevet som "å starte med en datasjø-arkitektur og forsøke å legge til datavarehus-kapabiliteter".[12] Ifølge Oracle kombinerer arkitekturen "fleksibel lagring av ustrukturerte data fra en datasjø med administrasjonsmulighetene og verktøyene fra datavarehus".[13]
Remove ads
Se også
- Datatorg (data mart)
- Datavarehus
- Landingssone
- ETL og ELT
- Selvbetjening
Referanser
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads