Share via


Panoramica di Azure Data Lake Archiviazione Gen1 in HDInsight

Azure Data Lake Storage Gen1 è un repository con iperscalabilità a livello aziendale per carichi di lavoro di analisi di Big Data. Con Azure Data Lake è possibile acquisire dati di qualsiasi dimensione, tipo e velocità di inserimento. E in un'unica posizione per l'analisi operativa ed esplorativa.

Accedere a Data Lake Storage Gen1 da Hadoop (disponibile con un cluster HDInsight) mediante le API REST compatibili con WebHDFS. Data Lake Storage Gen1 è progettato per abilitare l'analisi dei dati archiviati e le prestazioni sono ottimizzate per scenari di analisi dei dati. Gen1 include le funzionalità essenziali per i casi d'uso aziendali reali. Queste funzionalità includono sicurezza, gestibilità, adattabilità, affidabilità e disponibilità.

Per altre informazioni su Azure Data Lake Storage Gen1, vedere l'articolo dettagliato Panoramica di Azure Data Lake Storage Gen1.

Di seguito sono riportate le principali funzionalità di Data Lake Storage Gen1.

Compatibilità con Hadoop

Data Lake Archiviazione Gen1 è un file system Apache Hadoop compatibile con HDFS e l'ambiente Hadoop. Le applicazioni o i servizi HDInsight che usano l'API WebHDFS possono essere facilmente integrati con Data Lake Archiviazione Gen1. Data Lake Storage Gen1 presenta anche un'interfaccia REST compatibile con WebHDFS per le applicazioni.

I dati archiviati in Data Lake Archiviazione Gen1 possono essere facilmente analizzati usando framework analitici Hadoop. Framework come MapReduce o Hive. È possibile eseguire il provisioning dei cluster Azure HDInsight e configurarli per accedere direttamente ai dati archiviati in Data Lake Storage Gen1.

Archiviazione illimitata, file dei petabyte

Data Lake Archiviazione Gen1 offre spazio di archiviazione illimitato ed è adatto per l'archiviazione di diversi tipi di dati per l'analisi. Non impone limiti alle dimensioni dell'account o alle dimensioni dei file. Oppure la quantità di dati che possono essere archiviati in un data lake. I singoli file vanno da kilobyte a petabyte, rendendo Data Lake Archiviazione Gen1 un'ottima scelta per archiviare qualsiasi tipo di dati. I dati vengono archiviati in modo permanente mediante la creazione di più copie. Non esistono limiti per quanto tempo i dati possono essere archiviati nel data lake.

Ottimizzazione delle prestazioni per l'analisi di Big Data

Data Lake Archiviazione Gen1 è progettato per i sistemi analitici. Sistemi che richiedono una velocità effettiva elevata per eseguire query e analizzare grandi quantità di dati. Il Data Lake distribuisce parti di un file su più server di archiviazione singoli. Durante l'analisi dei dati, questa configurazione migliora la velocità effettiva di lettura quando il file viene letto in parallelo.

Idoneità per le aziende: disponibilità elevata e sicurezza

Data Lake Storage Gen1 offre affidabilità e disponibilità standard del settore. Gli asset di dati vengono archiviati in modo permanente: copie ridondanti salvaguardano da errori imprevisti. Le aziende possono usare Data Lake Storage Gen1 nelle loro soluzioni come una parte importante della piattaforma di dati esistente.

Data Lake Storage Gen1 offre anche protezione a livello aziendale per i dati archiviati. Per altre informazioni, vedere Protezione dei dati in Azure Data Lake Storage Gen1.

Strutture di dati flessibili

Data Lake Storage Gen1 può archiviare i dati nel formato nativo, così come sono, senza alcuna trasformazione preliminare. Non richiede la definizione di uno schema prima che i dati vengono caricati. Il singolo framework di analisi interpreta i dati e definisce uno schema al momento dell'analisi. Data Lake Archiviazione Gen1 può gestire dati strutturati. E dati semistrutturati e non strutturati.

I contenitori Data Lake Storage Gen1 per i dati sono essenzialmente cartelle e file. È possibile agire sui dati archiviati mediante SDK, il portale di Azure e Azure PowerShell. I dati inseriti nell'archivio con queste interfacce e contenitori possono archiviare qualsiasi tipo di dati. Data Lake Archiviazione Gen1 non esegue alcuna gestione speciale dei dati in base al tipo di dati.

Sicurezza dei dati in Data Lake Storage Gen1

Data Lake Archiviazione Gen1 usa Microsoft Entra ID per l'autenticazione e usa elenchi di controllo di accesso (ACL) per gestire l'accesso ai dati.

Funzionalità Descrizione
Autenticazione Data Lake Archiviazione Gen1 si integra con Microsoft Entra ID per la gestione delle identità e degli accessi per tutti i dati archiviati in Data Lake Archiviazione Gen1. A causa dell'integrazione, Data Lake Archiviazione Gen1 trae vantaggio da tutte le funzionalità di Microsoft Entra. Queste funzionalità includono l'autenticazione a più fattori, l'accesso condizionale e il controllo degli accessi in base al ruolo di Azure. Inoltre, il monitoraggio dell'utilizzo delle applicazioni, il monitoraggio della sicurezza e gli avvisi e così via. Data Lake Storage Gen1 supporta il protocollo OAuth 2.0 per l'autenticazione nell'interfaccia REST. Vedere Autenticazione all'interno di Azure Data Lake Archiviazione Gen1 con Microsoft Entra ID
Controllo di accesso Data Lake Storage Gen1 offre il controllo di accesso mediante il supporto delle autorizzazioni di tipo POSIX esposte dal protocollo WebHDFS. Gli elenchi di controllo di accesso possono essere abilitati nella cartella radice, nelle sottocartelle e nei singoli file. Per altre informazioni sul funzionamento degli ACL nel contesto di Data Lake Storage Gen1, vedere Controllo di accesso in Data Lake Storage Gen1.
Crittografia Data Lake Storage Gen1 offre anche la crittografia per i dati archiviati nell'account. Le impostazioni della crittografia vengono specificate durante la creazione di un account Data Lake Storage Gen1. È possibile scegliere di crittografare i dati oppure di fare a meno della crittografia. Per altre informazioni, vedere Crittografia in Data Lake Storage Gen1. Per istruzioni su come specificare una configurazione relativa alla crittografia, vedere Iniziare a usare Azure Data Lake Storage Gen1 tramite il portale di Azure.

Per altre informazioni su come proteggere i dati in Data Lake Storage Gen1, vedere Protezione dei dati archiviati in Azure Data Lake Storage Gen1.

Applicazioni compatibili con Data Lake Storage Gen1

Data Lake Archiviazione Gen1 è compatibile con la maggior parte dei componenti open source nell'ambiente Hadoop. Si integra bene anche con altri servizi di Azure. Seguire i collegamenti seguenti per altre informazioni sull'uso di Data Lake Archiviazione Gen1 con componenti open source e altri servizi di Azure.

File system di Data Lake Storage Gen1 (adl://)

Negli ambienti Hadoop è possibile accedere a Data Lake Archiviazione Gen1 tramite il nuovo file system, AzureDataLakeFilesystem (adl://). Le prestazioni delle applicazioni e dei servizi che usano adl:// possono essere ottimizzate in modi non attualmente disponibili in WebHDFS. Di conseguenza, si ottiene la flessibilità necessaria per ottenere le migliori prestazioni usando il adl:// consigliato. In alternativa, mantenere il codice esistente continuando a usare direttamente l'API WebHDFS. Azure HDInsight sfrutta al massimo AzureDataLakeFilesystem per offrire le migliori prestazioni in Data Lake Storage Gen1.

Accedere ai dati in Data Lake Archiviazione Gen1 usando l'URI seguente:

adl://<data_lake_storage_gen1_name>.azuredatalakestore.net

Per altre informazioni su come accedere ai dati in Data Lake Storage Gen1, vedere Azioni disponibili sui dati archiviati.

Passaggi successivi