Timeline
Chat
Prospettiva

Data lake

sistema di memorizzazione o magazzino di dati mantenuti nel formato originario Da Wikipedia, l'enciclopedia libera

Remove ads

Un data lake è un sistema o archivio di dati memorizzato nel suo formato naturale/grezzo,[1] solitamente oggetti blob o file. Un data lake è in genere un unico deposito di dati che include copie grezze dei dati provenienti da sistemi sorgente, dati di sensori, dati sociali ecc.,[2] e dati trasformati usati per attività quali reportistica, visualizzazione, analitica avanzata e apprendimento automatico. Un data lake può includere dati strutturati provenienti da database relazionali, dati semi-strutturati (CSV, log, XML, JSON), dati non strutturati (e-mail, documenti, PDF), e dati binari (in particolare immagini, audio, video).[3] Un data lake può essere realizzato on premises (nei data center di un'organizzazione) o in the cloud (utilizzando servizi cloud).

Remove ads

Origini

L'espressione "data lake", già attestata nel 2011[4], fu coniata da James Dixon, allora chief technology officer (CTO) di Pentaho, in contrapposizione al concetto di data mart, che è un archivio più piccolo di attributi selezionati derivati dai dati grezzi.[5] Nel promuovere i data lake, egli sosteneva che i data mart presentano diversi problemi intrinseci, come la creazione di information silo, ovvero sistemi informativi non ingrado di interagire correttamente tra loro. PricewaterhouseCoopers (PwC) affermò che i data lake potrebbero «porre fine ai silos di dati».[6] Nel loro studio sui data lake notarono che le imprese stavano «cominciando ad estrarre e collocare dati per analisi in un unico repository basato su Hadoop».

Remove ads

Esempi

Molte aziende utilizzano servizi di archiviazione cloud come Google Cloud Storage e Amazon S3 oppure un file system distribuito come l'Hadoop distributed file system (HDFS).[7]

I primi data lake, come Hadoop 1.0, avevano capacità limitate perché supportavano solo l'elaborazione batch-oriented (Map Reduce). Interagire con essi richiedeva competenze in Java, MapReduce e strumenti di alto livello come Apache Pig, Apache Spark e Apache Hive (anch'essi originariamente orientati al batch).

Remove ads

Critiche

Riepilogo
Prospettiva

I data lake gestiti male sono stato sarcasticamente chiamati data swamp (lett. "paludi di dati").[8]

Nel giugno 2015, David Needle descrisse i «cosiddetti data lake» come «uno dei modi più controversi per gestire i big data».[9] Anche PwC si prese la cura di osservare nella loro ricerca che non tutte le iniziative di data lake hanno successo. Citano Sean Martin, CTO di Cambridge Semantics:

«Vediamo clienti creare grandi cimiteri di dati, scaricando tutto nello Hadoop distributed file system (HDFS) e sperando di poterci fare qualcosa in futuro. Ma poi perdono semplicemente traccia di ciò che è lì. La sfida principale non è creare un data lake, ma sfruttare le opportunità che esso presenta.»

Descrivono le aziende che costruiscono data lake di successo come quelle che maturano gradualmente il proprio lago man mano che capiscono quali dati e metadata sono importanti per l'organizzazione.

Un'altra critica è che il termine data lake viene impiegato con significati molto diversi.[10] Può essere usato per indicare, a titolo esemplificativo: qualsiasi strumento o pratica di gestione dati che non sono data warehouse; una particolare tecnologia di implementazione; un serbatoio di dati grezzi; un punto di scarico per ETL; o un hub centrale per analisi self-service.

Sebbene le critiche ai data lake siano ritenute fondate, in molti casi valgono anche per altri progetti di dati.[11] Per esempio, la definizione di data warehouse è anch'essa soggetta a variazioni, e non tutti i progetti di data warehouse hanno avuto successo. In risposta a varie critiche, McKinsey osservò[12] che il data lake dovrebbe essere visto come un modello di servizio per fornire "valore" all'interno dell'impresa, non come un risultato tecnologico.

Note

Voci correlate

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads