Introduzione ad Azure Data Lake Archiviazione Gen2

Azure Data Lake Archiviazione Gen2 è un set di funzionalità dedicate all'analisi dei Big Data, create su Blob di Azure Archiviazione.

Data Lake Archiviazione Gen2 converge le funzionalità di Azure Data Lake Archiviazione Gen1 con blob di Azure Archiviazione. Ad esempio, Data Lake Archiviazione Gen2 fornisce la semantica del file system, la sicurezza a livello di file e la scalabilità. Poiché queste funzionalità sono integrate nell'archiviazione BLOB, si otterrà anche uno spazio di archiviazione a livelli a basso costo, con funzionalità di disponibilità elevata/ripristino di emergenza.

Progettato per l'analisi dei Big Data aziendali

Data Lake Archiviazione Gen2 Archiviazione di Azure le fondamenta per la creazione di data lake aziendali in Azure. Progettato fin dall'inizio per gestire più petabyte di informazioni, mantenendo centinaia di gigabit di velocità effettiva, Data Lake Archiviazione Gen2 consente di gestire facilmente grandi quantità di dati.

Una parte fondamentale di Data Lake Archiviazione Gen2 è l'aggiunta di uno spazio dei nomi gerarchico all'archiviazione BLOB. Lo spazio dei nomi gerarchico organizza oggetti/file in una gerarchia di directory per un accesso efficiente ai dati. Una convenzione di denominazione comune dell'archivio oggetti usa le barre nel nome per simulare una struttura gerarchica della directory. Questa struttura diventa reale con Data Lake Archiviazione Gen2. Le operazioni come la ridenominazione o l'eliminazione di una directory diventano singole operazioni di metadati atomici nella directory. Non è necessario enumerare ed elaborare tutti gli oggetti che condividono il prefisso del nome della directory.

Data Lake Archiviazione Gen2 si basa sull'archiviazione BLOB e migliora le prestazioni, la gestione e la sicurezza nei modi seguenti:

  • Le prestazioni sono ottimizzate perché non è necessario copiare o trasformare i dati come prerequisito per l'analisi. Rispetto allo spazio dei nomi flat nell'archiviazione BLOB, lo spazio dei nomi gerarchico migliora notevolmente le prestazioni delle operazioni di gestione della directory, migliorando le prestazioni complessive dei processi.

  • La gestione è più semplice perché è possibile organizzare e modificare i file tramite directory e sottodirectory.

  • La sicurezza è applicata perché è possibile definire le autorizzazioni POSIX per le directory o i singoli file.

Inoltre, Data Lake Archiviazione Gen2 è molto conveniente perché è basato sul blob di Azure Archiviazione. Le funzionalità aggiuntive consentono di ridurre ulteriormente il costo totale di proprietà per l'esecuzione di analisi di Big Data in Azure.

Caratteristiche principali di Data Lake Archiviazione Gen2

  • Accesso compatibile hadoop: Data Lake Archiviazione Gen2 consente di gestire e accedere ai dati come si farebbe con un file system distribuito Hadoop (HDFS). Il nuovo driver ABFS (usato per accedere ai dati) è disponibile in tutti gli ambienti Apache Hadoop. Questi ambienti includono Azure HDInsight,Azure Databrickse Azure Synapse Analytics.

  • Un superset di autorizzazioni POSIX: Il modello di sicurezza per Data Lake Gen2 supporta le autorizzazioni ACL e POSIX insieme ad alcune granularità aggiuntive specifiche per Data Lake Archiviazione Gen2. Impostazioni possono essere configurati tramite Storage Explorer o tramite framework come Hive e Spark.

  • Conveniente: Data Lake Archiviazione Gen2 offre capacità di archiviazione e transazioni a basso costo. Caratteristiche come Azure BLOB Archiviazione i costi durante la transizione dei dati nel ciclo di vita.

  • Driver ottimizzato: Il driver ABFS è ottimizzato specificamente per l'analisi dei Big Data. Le API REST corrispondenti vengono evinte attraverso dfs.core.windows.net l'endpoint.

Scalabilità

Archiviazione di Azure scalabile è possibile accedervi tramite le interfacce di archiviazione Data Lake Archiviazione Gen2 o BLOB. È in grado di archiviare e gestire molti exabyte di dati. Questa quantità di spazio di archiviazione è disponibile con la velocità effettiva misurata in gigabit al secondo (Gbps) a livelli elevati di operazioni di input/output al secondo (IOPS). L'elaborazione viene eseguita a latenze quasi costanti per richiesta misurate a livello di servizio, account e file.

Efficacia dei costi

Data Lake Archiviazione Gen2 è basato su blob di Azure Archiviazione, la capacità di archiviazione e i costi delle transazioni sono inferiori. A differenza di altri servizi di archiviazione cloud, non è necessario spostare o trasformare i dati prima di poterlo analizzare. Per altre informazioni sui prezzi, vedere Archiviazione di Azure prezzi.

Inoltre, caratteristiche come lo spazio dei nomi gerarchico migliorano notevolmente le prestazioni complessive di molti processi di analisi. Questo miglioramento delle prestazioni significa che è necessaria una minore potenza di calcolo per elaborare la stessa quantità di dati, con conseguente riduzione del costo totale di proprietà (TCO) per il processo di analisi end-to-end.

Un unico servizio, più concetti

Dato che Data Lake Archiviazione Gen2 è basato su blob di Azure Archiviazione, più concetti possono descrivere gli stessi elementi condivisi.

Di seguito sono riportate le entità equivalenti, descritte da concetti diversi. Se non diversamente specificato, queste entità sono direttamente sinonimi:

Concetto Organizzazione di primo livello Organizzazione di livello inferiore Contenitore di dati
BLOB - Spazio di archiviazione oggetti di uso generale Contenitore Directory virtuale (solo SDK- non fornisce la manipolazione atomica) BLOB
Azure Data Lake Archiviazione Gen2 - Analisi Archiviazione Contenitore Directory File

Funzionalità di Archiviazione BLOB supportate

Le Archiviazione blob, ad esempio la registrazione diagnostica,i livelli di accesso e i criteri di gestione del Archiviazione del ciclo di vita dei BLOB, sono disponibili per l'account. La maggior parte Archiviazione blob sono completamente supportate, ma alcune caratteristiche sono supportate solo a livello di anteprima o non ancora supportate.

Per informazioni su come ogni caratteristica Archiviazione BLOB è supportata con Data Lake Archiviazione Gen2, vedere Supporto delle funzionalità blob Archiviazione negli account Archiviazione di Azure BLOB.

Integrazioni dei servizi di Azure supportate

Data Lake Archiviazione gen2 supporta diversi servizi di Azure. È possibile usarli per inserire dati, eseguire analisi e creare rappresentazioni visive. Per un elenco dei servizi di Azure supportati, vedere Servizi di Azure che supportano Azure Data Lake Archiviazione Gen2.

Piattaforme open source supportate

Diverse piattaforme open source supportano Data Lake Archiviazione Gen2. Per un elenco completo, vedere Piattaforme open source che supportano Azure Data Lake Archiviazione Gen2.

Vedere anche