Usare Data Lake Store con cluster Azure HDInsightUse Data Lake Store with Azure HDInsight clusters

Per analizzare i dati in un cluster HDInsight, è possibile archiviarli in Archiviazione di Azure, in Azure Data Lake Store o in entrambe le soluzioni.To analyze data in HDInsight cluster, you can store the data either in Azure Storage, Azure Data Lake Store, or both. Entrambe le opzioni di archiviazione consentono l'eliminazione sicura dei cluster HDInsight usati per i calcoli, senza perdita di dati utente.Both storage options enable you to safely delete HDInsight clusters that are used for computation without losing user data.

Questo articolo illustra come usare Data Lake Store con i cluster HDInsight.In this article, you learn how Data Lake Store works with HDInsight clusters. Per sapere come usare Archiviazione di Azure con i cluster HDInsight, vedere Usare Archiviazione di Azure con cluster Azure HDInsight.To learn how Azure Storage works with HDInsight clusters, see Use Azure Storage with Azure HDInsight clusters. Per altre informazioni sulla creazione di un cluster HDInsight, vedere Creare cluster Hadoop in HDInsight.For more information about creating an HDInsight cluster, see Create Hadoop clusters in HDInsight.

Nota

L'accesso a Data Lake Store avviene sempre tramite un canale protetto, pertanto non è presente un nome di schema del file system adls.Data Lake Store is always accessed through a secure channel, so there is no adls filesystem scheme name. Viene usato sempre adl.You always use adl.

Disponibilità per i cluster HDInsightAvailabilities for HDInsight clusters

Hadoop supporta una nozione del file system predefinito.Hadoop supports a notion of the default file system. Il file system predefinito implica uno schema e un'autorità predefiniti eThe default file system implies a default scheme and authority. può essere usato anche per risolvere percorsi relativi.It can also be used to resolve relative paths. Durante il processo di creazione del cluster HDInsight è possibile specificare un contenitore BLOB in Archiviazione di Azure come file system predefinito. In alternativa, con HDInsight 3.5 e versioni successive è possibile selezionare Archiviazione di Azure o Azure Data Lake Store come file system predefinito, con alcune eccezioni.During the HDInsight cluster creation process, you can specify a blob container in Azure Storage as the default file system, or with HDInsight 3.5 and newer versions, you can select either Azure Storage or Azure Data Lake Store as the default files system with a few exceptions.

I cluster HDInsight possono usare Data Lake Store in due modi:HDInsight clusters can use Data Lake Store in two ways:

  • Come risorsa di archiviazione predefinitaAs the default storage
  • Come risorsa di archiviazione aggiuntiva, con BLOB del servizio di archiviazione di Azure come risorsa predefinita.As additional storage, with Azure Storage Blob as default storage.

Attualmente, solo alcuni dei tipi/versioni di cluster HDInsight supportano l'uso di Data Lake Store come account di archiviazione predefinito e di archiviazione aggiuntivo:As of now, only some of the HDInsight cluster types/versions support using Data Lake Store as default storage and additional storage accounts:

Tipo di cluster HDInsightHDInsight cluster type Data Lake Store come risorsa di archiviazione predefinitaData Lake Store as default storage Data Lake Store come risorsa di archiviazione aggiuntivaData Lake Store as additional storage NoteNotes
HDInsight versione 3.6HDInsight version 3.6 Yes Yes
HDInsight versione 3.5HDInsight version 3.5 Yes Yes Ad eccezione di HBaseWith the exception of HBase
HDInsight versione 3.4HDInsight version 3.4 No No Yes
HDInsight versione 3.3HDInsight version 3.3 No No No No
HDInsight versione 3.2HDInsight version 3.2 No No Yes
StormStorm È possibile usare Data Lake Store per scrivere dati da una topologia Storm.You can use Data Lake Store to write data from a Storm topology. È anche possibile usare Data Lake Store per archiviare dati di riferimento che possono essere letti da una topologia Storm.You can also use Data Lake Store for reference data that can then be read by a Storm topology.

L'uso di Data Lake Store come account di archiviazione aggiuntivo non ha impatto sulle prestazioni o sulla possibilità di leggere o scrivere nella risorsa di archiviazione di Azure dal cluster.Using Data Lake Store as an additional storage account does not affect performance or the ability to read or write to Azure storage from the cluster.

Usare Data Lake Store come risorsa di archiviazione predefinitaUse Data Lake Store as default storage

Quando si distribuisce HDInsight con Data Lake Store come risorsa di archiviazione predefinita, i file legati al cluster vengono archiviati in Data Lake Store nel percorso seguente:When HDInsight is deployed with Data Lake Store as default storage, the cluster-related files are stored in Data Lake Store in the following location:

adl://mydatalakestore/<cluster_root_path>/

dove <cluster_root_path> è il nome di una cartella creata in Data Lake Store.where <cluster_root_path> is the name of a folder you create in Data Lake Store. Specificando un percorso radice per ogni cluster, è possibile usare lo stesso account di Data Lake Store per più di un cluster.By specifying a root path for each cluster, you can use the same Data Lake Store account for more than one cluster. Pertanto, è possibile disporre di una configurazione in cui:So, you can have a setup where:

  • Cluster1 può usare il percorso adl://mydatalakestore/cluster1storageCluster1 can use the path adl://mydatalakestore/cluster1storage
  • Cluster2 può usare il percorso adl://mydatalakestore/cluster2storageCluster2 can use the path adl://mydatalakestore/cluster2storage

Si noti che entrambi i cluster usano lo stesso account Data Lake Store mydatalakestore.Notice that both the clusters use the same Data Lake Store account mydatalakestore. Ogni cluster ha accesso al proprio file system radice in Data Lake Store.Each cluster has access to its own root filesystem in Data Lake Store. Più nello specifico, l'esperienza di distribuzione del Portale di Azure richiede di utilizzare un nome di cartella come /clusters/<clustername> per il percorso radice.The Azure portal deployment experience in particular prompts you to use a folder name such as /clusters/<clustername> for the root path.

Per poter usare Data Lake Store come risorsa di archiviazione predefinita, è necessario concedere all'entità servizio l'accesso ai percorsi seguenti:To be able to use a Data Lake Store as default storage, you must grant the service principal access to the following paths:

  • Radice dell'account Data Lake Store,The Data Lake Store account root. ad esempio adl://mydatalakestore/.For example: adl://mydatalakestore/.
  • Cartella per tutte le cartelle del cluster,The folder for all cluster folders. ad esempio adl://mydatalakestore/clusters.For example: adl://mydatalakestore/clusters.
  • Cartella per il cluster,The folder for the cluster. ad esempio adl://mydatalakestore/clusters/cluster1storage.For example: adl://mydatalakestore/clusters/cluster1storage.

Per altre informazioni su come creare un'entità servizio e concedere l'accesso, vedere Configurare l'accesso a Data Lake Store.For more information for creating service principal and grant access, see Configure Data Lake store access.

Usare Data Lake Store come risorsa di archiviazione aggiuntivaUse Data Lake Store as additional storage

È anche possibile usare Data Lake Store come risorsa di archiviazione aggiuntiva per il cluster.You can use Data Lake Store as additional storage for the cluster as well. In questi casi la risorsa di archiviazione predefinita del cluster può essere un BLOB del servizio di archiviazione di Azure o un account Data Lake Store.In such cases, the cluster default storage can either be an Azure Storage Blob or a Data Lake Store account. Se si eseguono processi di HDInsight con i dati archiviati in Data Lake Store come risorsa di archiviazione aggiuntiva, è necessario usare il percorso completo ai file.If you are running HDInsight jobs against the data stored in Data Lake Store as additional storage, you must use the fully-qualified path to the files. Ad esempio: For example:

adl://mydatalakestore.azuredatalakestore.net/<file_path>

Si noti che al momento non esiste alcun cluster_root_path nell'URL.Note that there's no cluster_root_path in the URL now. Infatti, Data Lake Store non è una risorsa di archiviazione predefinita in questo caso. È sufficiente pertanto indicare il percorso ai file.That's because Data Lake Store is not a default storage in this case so all you need to do is provide the path to the files.

Per poter usare Data Lake Store come risorsa di archiviazione aggiuntiva, è necessario semplicemente concedere all'entità servizio l'accesso ai percorsi in cui sono archiviati i file.To be able to use a Data Lake Store as additional storage, you only need to grant the service principal access to the paths where your files are stored. Ad esempio: For example:

adl://mydatalakestore.azuredatalakestore.net/<file_path>

Per altre informazioni su come creare un'entità servizio e concedere l'accesso, vedere Configurare l'accesso a Data Lake Store.For more information for creating service principal and grant access, see Configure Data Lake store access.

Usare più di un account di Data Lake StoreUse more than one Data Lake Store accounts

Le operazioni di aggiunta di un account di Data Lake Store come risorsa di archiviazione aggiuntiva e di aggiunta di più account di Data Lake Store vengono eseguite assegnando al cluster HDInsight l'autorizzazione per i dati in uno o più account di Data Lake Store.Adding a Data Lake Store account as additional and adding more than one Data Lake Store accounts are accomplished by giving the HDInsight cluster permission on data in one ore more Data Lake Store accounts. Vedere Configurare l'accesso a Data Lake Store.See Configure Data Lake Store access.

Configurare l'accesso a Data Lake StoreConfigure Data Lake store access

Per configurare l'accesso a Data Lake Store dal cluster HDInsight, è necessario disporre di un'entità servizio di Azure Active Directory (Azure AD).To configure Data Lake store access from your HDInsight cluster, you must have an Azure Active directory (Azure AD) service principal. Solo un amministratore di Azure AD può creare un'entità servizio.Only an Azure AD administrator can create a service principal. L'entità servizio deve essere creata con un certificato.The service principal must be created with a certificate. Per altre informazioni, vedere Configurare l'accesso a Data Lake Store e Creare un'entità servizio con certificato autofirmato.For more information, see Configure Data Lake Store access, and Create service principal with self-signed-certificate.

Nota

Se si intende usare Azure Data Lake Store come risorsa di archiviazione aggiuntiva per il cluster HDInsight, è consigliabile eseguire questa operazione durante la creazione del cluster, come descritto in questo articolo.If you are going to use Azure Data Lake Store as additional storage for HDInsight cluster, we strongly recommend that you do this while you create the cluster as described in this article. L'aggiunta di Azure Data Lake Store come ulteriore risorsa di archiviazione a un cluster HDInsight esistente è un processo complesso e soggetto a errori.Adding Azure Data Lake Store as additional storage to an existing HDInsight cluster is a complicated process and prone to errors.

Accedere ai file dal clusterAccess files from the cluster

Esistono diversi modi per accedere ai file in Data Lake Store da un cluster HDInsight.There are several ways you can access the files in Data Lake Store from an HDInsight cluster.

  • Uso di nomi completi.Using the fully qualified name. Con questo approccio viene fornito il percorso completo al file a cui si desidera accedere.With this approach, you provide the full path to the file that you want to access.

      adl://mydatalakestore.azuredatalakestore.net/<cluster_root_path>/<file_path>
    
  • Uso del formato con percorso abbreviato.Using the shortened path format. Con questo approccio si sostituisce con adl:/// il percorso fino alla radice del cluster.With this approach, you replace the path up to the cluster root with adl:///. Nell'esempio precedente, pertanto, è possibile sostituire adl://mydatalakestore.azuredatalakestore.net/<cluster_root_path>/ con adl:///.So, in the example above, you can replace adl://mydatalakestore.azuredatalakestore.net/<cluster_root_path>/ with adl:///.

      adl:///<file path>
    
  • Uso del percorso relativo.Using the relative path. Con questo approccio viene fornito unicamente il percorso relativo al file a cui si desidera accedere.With this approach, you only provide the relative path to the file that you want to access. Ad esempio, se il percorso completo del file è:For example, if the complete path to the file is:

      adl://mydatalakestore.azuredatalakestore.net/<cluster_root_path>/example/data/sample.log
    

    È possibile accedere al medesimo file sample.log usando invece il percorso relativo.You can access the same sample.log file by using this relative path instead.

      /example/data/sample.log
    

Creare cluster HDInsight con accesso a Data Lake StoreCreate HDInsight clusters with access to Data Lake Store

Usare i collegamenti seguenti per informazioni dettagliate su come creare cluster HDInsight con accesso a Data Lake Store.Use the following links for detailed instructions on how to create HDInsight clusters with access to Data Lake Store.

Passaggi successiviNext steps

In questo articolo è stato descritto come usare Azure Data Lake Store compatibile con HDFS con HDInsight.In this article, you learned how to use HDFS-compatible Azure Data Lake Store with HDInsight. In questo modo sarà possibile creare soluzioni scalabili di acquisizione e archiviazione a lungo termine dei dati e usare HDInsight per sbloccare le informazioni all'interno dei dati strutturati e non strutturati archiviati.This allows you to build scalable, long-term, archiving data acquisition solutions and use HDInsight to unlock the information inside the stored structured and unstructured data.

Per altre informazioni, vedere:For more information, see: