Comprendere Azure Data Lake Storage Gen2

Completato

Data Lake è un repository di dati archiviato in formato naturale, in genere BLOB o file. Azure Data Lake Storage è una soluzione Data Lake completa, altamente scalabile, sicura e conveniente per l'analisi con prestazioni elevate integrata in Azure.

Diagram representing files in Azure data Lake Storage Gen2 being accessed by big data technologies.

Azure Data Lake Storage combina un file system e una piattaforma di archiviazione, per consentire una rapida identificazione delle informazioni dettagliate all'interno dei dati. Data Lake Storage Gen2 è basato sulle funzionalità di Archiviazione BLOB di Azure, ottimizzando quest'ultima soluzione specificamente per i carichi di lavoro di analisi. Questa integrazione consente prestazioni elevate di analisi, funzionalità di suddivisione in livelli e gestione del ciclo di vita dei dati di Archiviazione BLOB e caratteristiche di disponibilità elevata, sicurezza e durabilità proprie di Archiviazione di Azure.

Vantaggi

Data Lake Storage è progettato per gestire tale varietà di dati, con volumi a livello di exabyte, e, nello stesso tempo, gestire in sicurezza centinaia di gigabyte di velocità effettiva. È possibile quindi usare Data Lake Storage Gen2 come base per soluzioni sia in tempo reale che batch.

Accesso compatibile con Hadoop

Un vantaggio di Data Lake Storage è la possibilità di trattare i dati come se fossero archiviati in Hadoop Distributed File System (HDFS). Questa funzionalità consente di archiviare i dati in un'unica posizione e di accedervi tramite tecnologie di calcolo, tra cui Azure Databricks, Azure HDInsight e Azure Synapse Analytics, senza spostare i dati da un ambiente a un altro. Gli ingegneri dei dati hanno anche la possibilità di usare meccanismi di archiviazione come il formato parquet, che è altamente compresso e garantisce un funzionamento ottimale in più piattaforme usando un archivio a colonne interno.

Sicurezza

Data Lake Storage supporta elenchi di controllo di accesso (ACL) e autorizzazioni POSIX (Portable Operating System Interface) che non ereditano le autorizzazioni della directory padre. È infatti possibile impostare le autorizzazioni a livello di directory o a livello di file per i dati archiviati all'interno del data lake, per un sistema di archiviazione molto più sicuro. Queste impostazioni di sicurezza sono configurabili tramite tecnologie come Hive e Spark o tramite utilità come Azure Storage Explorer, che può essere eseguito in Windows, macOS e Linux. Tutti i dati archiviati inattivi vengono crittografati tramite chiavi gestite da Microsoft o dal cliente.

Prestazioni

Azure Data Lake Storage organizza i dati archiviati in una gerarchia di directory e sottodirectory, molto simile a un file system, per una maggiore facilità di individuazione. Di conseguenza, l'elaborazione dati richiede meno risorse di calcolo, il che a sua volta riduce sia tempi che costi.

Ridondanza dei dati

Data Lake Storage sfrutta i vantaggi dei modelli di replica dei BLOB di Azure, che garantiscono la ridondanza dei dati in un data center singolo tramite l'archiviazione con ridondanza locale oppure in un'area secondaria tramite l'opzione di archiviazione con ridondanza geografica. Questa funzionalità garantisce che in caso di emergenza i dati siano sempre disponibili e protetti.

Suggerimento

Ogni volta che si pianifica un data lake, un ingegnere dei dati deve considerare attentamente la struttura, la governance dei dati e la sicurezza. Deve inoltre valutare i fattori che possono influenzare la struttura e l'organizzazione del data lake, ad esempio:

  • Tipi di dati da archiviare
  • Modalità di trasformazione dei dati
  • Utenti autorizzati ad accedere ai dati
  • Modelli di accesso tipici

Questo approccio consente di determinare come pianificare la governance del controllo di accesso nel data lake. Gli ingegneri dei dati devono essere proattivi per garantire che il data lake non diventi una proverbiale palude che diventa inaccessibile e non utile agli utenti a causa della mancanza di misure di governance dei dati e di qualità dei dati. La definizione di una baseline e le procedure consigliate seguenti per Azure Data Lake consentiranno di garantire un'implementazione appropriata e affidabile che permetterà all'organizzazione di crescere e ottenere informazioni dettagliate per raggiungere ulteriori obiettivi.