Creare cluster HDInsight con Data Lake Store tramite il portale di AzureCreate HDInsight clusters with Data Lake Store by using the Azure portal

Informazioni su come usare il portale di Azure per creare un cluster HDInsight con un account Azure Data Lake Store come risorsa di archiviazione predefinita o risorsa di archiviazione aggiuntiva.Learn how to use the Azure portal to create a HDInsight cluster with an Azure Data Lake Store account as the default storage or an additional storage. Anche se la risorsa di archiviazione aggiuntiva è facoltativa per un cluster HDInsight, è consigliabile archiviare i dati aziendali negli account di archiviazione aggiuntivi.Even though additional storage is optional for a HDInsight cluster, it is recommended to store your business data in the additional storage accounts.

prerequisitiPrerequisites

Prima di iniziare l'esercitazione, verificare di aver soddisfatto i requisiti seguenti:Before you begin this tutorial, ensure that you've met the following requirements:

  • Una sottoscrizione di Azure.An Azure subscription. Vedere Ottenere una versione di valutazione gratuita di Azure.Go to Get Azure free trial.
  • Un account Azure Data Lake Store.An Azure Data Lake Store account. Seguire le istruzioni fornite in Introduzione all'uso di Azure Data Lake Store tramite il portale di Azure.Follow the instructions from Get started with Azure Data Lake Store by using the Azure portal. È anche necessario creare una cartella radice nell'account.You must also create a root folder on the account. In questa esercitazione viene usata una cartella radice denominata /clusters.In this tutorial, a root folder called /clusters is used.
  • Un'entità servizio di Azure Active Directory.An Azure Active Directory service principal. Questa esercitazione fornisce tutte le istruzioni utili su come creare un'entità servizio in Azure Active Directory (Azure AD).This tutorial provides instructions on how to create a service principal in Azure Active Directory (Azure AD). Tuttavia, per creare un'entità servizio è necessario essere un amministratore di Azure AD.However, to create a service principal, you must be an Azure AD administrator. Se si è un amministratore, è possibile ignorare questo prerequisito e procedere con l'esercitazione.If you are an administrator, you can skip this prerequisite and proceed with the tutorial.

    Nota

    È possibile creare un'entità servizio solo se si è un amministratore di Azure AD. Prima di poter creare un cluster HDInsight con Data Lake Store, un amministratore di Azure AD deve creare un'entità servizio. Inoltre, l'entità servizio deve essere creata usando un certificato, come descritto in Creare un'entità servizio con certificato.

Creazione di un cluster HDInsightCreate an HDInsight cluster

In questa sezione viene creato un cluster HDInsight con account Data Lake Store come risorsa di archiviazione predefinita o aggiuntiva.In this section, you create a HDInsight cluster with Data Lake Store accounts as the default or the additional storage. Questo articolo illustra solo la configurazione degli account Data Lake Store.This article only focuses the part of configuring Data Lake Store accounts. Per informazioni generali sulla creazione di cluster e le relative procedure, vedere Creare cluster Hadoop basati su Linux in HDInsight.For the general cluster creation information and procedures, see Create Hadoop clusters in HDInsight.

Creare un cluster con Data Lake Store come risorsa di archiviazione predefinitaCreate a cluster with Data Lake Store as default storage

Per creare un cluster HDInsight con Data Lake Store come account di archiviazione predefinitoTo create a HDInsight cluster with a Data Lake Store as the default storage account

  1. Accedere al portale di Azure.Sign in to the Azure portal.
  2. Seguire Creare i cluster per informazioni generali sulla creazione di cluster HDInsight.Follow Create clusters for the general information on creating HDInsight clusters.
  3. Nel pannello Archiviazione, in Tipo di archiviazione primario selezionare Data Lake Store e quindi immettere le informazioni seguenti:On the Storage blade, under Primary storage type, select Data Lake Store, and then enter the following information:

    Aggiungere l'entità servizio al cluster HDInsightAdd service principal to HDInsight cluster

    • Seleziona account Data Lake Store: selezionare un account Data Lake Store esistente.Select Data Lake Store account: Select an existing Data Lake Store account. È necessario un account Data Lake Store esistente.An existing Data Lake Store account is required. Vedere Prerequisiti.See Prerequisites.
    • Percorso radice: immettere un percorso in cui archiviare i file specifici del cluster.Root path: Enter a path where the cluster-specific files are to be stored. Nello screenshot è /clusters/myhdiadlcluster/, in cui la cartella /clusters deve esistere e il portale crea la cartella myhdicluster.On the screenshot, it is /clusters/myhdiadlcluster/, in which the /clusters folder must exist, and the Portal creates myhdicluster folder. myhdicluster è il nome del cluster.The myhdicluster is the cluster name.
    • Accesso a Data Lake Store: configurare l'accesso tra l'account Data Lake Store e il cluster HDInsight.Data Lake Store access: Configure access between the Data Lake Store account and HDInsight cluster. Per istruzioni, vedere Configurare l'accesso a Data Lake Store.For instructions, see Configure Data Lake Store access.
    • Account archiviazione aggiuntivi: aggiungere account di archiviazione di Azure come account di archiviazione aggiuntivi per il cluster.Additional storage accounts: Add Azure Storage Accounts as additional storage accounts for the cluster. Per aggiungere altre istanze di Data Lake Store, assegnare al cluster le autorizzazioni per i dati in più account Data Lake Store durante la configurazione di un account Data Lake Store come tipo di archiviazione primario.To add additional Data Lake Stores is done by giving the cluster permissions on data in more Data Lake Store accounts while configuring a Data Lake Store account as the primary storage type. Vedere Configurare l'accesso a Data Lake Store.See Configure Data Lake Store access.
  4. In Accesso a Data Lake Store fare clic su Seleziona e continuare con la creazione del cluster come descritto in Creare cluster Hadoop in HDInsight.On the Data Lake Store access, click Select, and then continue with cluster creation as described in Create Hadoop clusters in HDInsight.

Creare un cluster con Data Lake Store come risorsa di archiviazione aggiuntivaCreate a cluster with Data Lake Store as additional storage

Le istruzioni seguenti illustrano come creare un cluster HDInsight con un account di archiviazione di Azure come risorsa di archiviazione predefinita e un account Data Lake Store come risorsa di archiviazione aggiuntiva.The following instructions create a HDInsight cluster with an Azure Storage account as the default storage, and a Data Lake Store account as an additional storage. Per creare un cluster HDInsight con Data Lake Store come account di archiviazione predefinitoTo create a HDInsight cluster with a Data Lake Store as the default storage account

  1. Accedere al portale di Azure.Sign in to the Azure portal.
  2. Seguire Creare i cluster per informazioni generali sulla creazione di cluster HDInsight.Follow Create clusters for the general information on creating HDInsight clusters.
  3. Nel pannello Archiviazione, in Tipo di archiviazione primario selezionare Archiviazione di Azure e quindi immettere le informazioni seguenti:On the Storage blade, under Primary storage type, select Azure Storage, and then enter the following information:

    Aggiungere l'entità servizio al cluster HDInsightAdd service principal to HDInsight cluster

    • Metodo di selezione: usare una delle opzioni seguenti:Selection method: use one of the following options:

      • Per specificare un account di archiviazione che fa parte della sottoscrizione di Azure, selezionare Sottoscrizioni personali, quindi selezionare l'account di archiviazione.To specify a storage account that is part of your Azure subscription, select My subscriptions, and then select the storage account.
      • Per specificare un account di archiviazione esterno alla sottoscrizione di Azure, selezionare Chiave di accesso, quindi immettere le informazioni per l'account di archiviazione esterno.To specify a storage account that is outside your Azure subscription, select Access key, and then provide the information for the outside storage account.
    • Contenitore predefinito: usare il valore predefinito o specificare un altro nome.Default container: use either the default value or specify your own name.

    • Account archiviazione aggiuntivi: aggiungere altri account di archiviazione di Azure come risorsa di archiviazione aggiuntiva.Additional Storage accounts: add more Azure Storage accounts as the additional storage.

    • Accesso a Data Lake Store: configurare l'accesso tra l'account Data Lake Store e il cluster HDInsight.Data Lake Store access: configure access between the Data Lake Store account and HDInsight cluster. Per istruzioni, vedere Configurare l'accesso a Data Lake Store.For instructions see Configure Data Lake Store access.

Configurare l'accesso a Data Lake StoreConfigure Data Lake Store access

In questa sezione è possibile configurare l'accesso a Data Lake Store dai cluster HDInsight usando un'entità servizio di Azure Active Directory.In this section, you configure Data Lake Store access from HDInsight clusters using an Azure Active Directory service principal.

Specificare un'entità servizioSpecify a service principal

Dal portale di Azure è possibile usare un'entità servizio esistente o crearne una nuova.From the Azure portal, you can either use an existing service principal or create a new one.

Per creare un'entità servizio dal portale di AzureTo create a service principal from the Azure portal

  1. Fare clic su Accesso a Data Lake Store nel pannello Archiviazione.Click Data Lake Store access from the Store blade.
  2. Nel pannello Accesso a Data Lake Store fare clic su Crea nuovo.On the Data Lake Store access blade, click Create new.
  3. Fare clic su Entità servizio e quindi seguire le istruzioni per creare un'entità servizio.Click Service Principal, and then follow the instructions to create a service principal.
  4. Scaricare il certificato se si decide di usarlo ancora in futuro.Download the certificate if you decide to use it again in the future. Il download del certificato è un'operazione utile se in futuro si vorrà usare la stessa entità servizio per creare altri cluster HDInsight.Downloading the certificate is useful if you want to use the same service principal when you create additional HDInsight clusters.

    Aggiungere l'entità servizio al cluster HDInsightAdd service principal to HDInsight cluster

  5. Fare clic su Accesso per configurare l'accesso alla cartella.Click Access to configure the folder access. Vedere Configurare le autorizzazioni file.See Configure file permissions.

Per usare un'entità servizio esistente dal portale di AzureTo use an existing service principal from the Azure portal

  1. Fare clic su Accesso a Data Lake Store.Click Data Lake Store access.
  2. Nel pannello Accesso a Data Lake Store fare clic su Usa esistente.On the Data Lake Store access blade, click Use existing.
  3. Fare clic su Entità servizio e quindi selezionare un'entità servizio.Click Service Principal, and then select a service principal.
  4. Caricare il certificato (file PFX) associato all'entità servizio selezionata e quindi immettere la password del certificato.Upload the certificate (.pfx file) that's associated with your selected service principal, and then enter the certificate password.

    Aggiungere l'entità servizio al cluster HDInsightAdd service principal to HDInsight cluster

  5. Fare clic su Accesso per configurare l'accesso alla cartella.Click Access to configure the folder access. Vedere Configurare le autorizzazioni file.See Configure file permissions.

Configurare le autorizzazioni fileConfigure file permissions

Le configurazioni sono diverse a seconda che l'account venga usato come risorsa di archiviazione predefinita o come account di archiviazione aggiuntivo:The configures are different depending on whether the account is used as the default storage or an additional storage account:

  • Uso come risorsa di archiviazione predefinitaUsed as default storage

    • Autorizzazione a livello di radice dell'account Data Lake Store.permission at the root level of the Data Lake Store account
    • Autorizzazione a livello di radice dell'archiviazione cluster HDInsight.permission at the root level of the HDInsight cluster storage. Ad esempio, la cartella /clusters usata prima nell'esercitazione.For example, the /clusters folder used earlier in the tutorial.
  • Uso come risorsa di archiviazione aggiuntivaUse as an additional storage

    • Autorizzazione a livello delle cartelle in cui è necessario l'accesso ai file.Permission at the folders where you need file access.

Per assegnare l'autorizzazione a livello di radice dell'account Data Lake StoreTo assign permission at the Data Lake Store account root level

  1. Nel pannello Accesso a Data Lake Store fare clic su Accesso.On the Data Lake Store access blade, click Access. Viene aperto il pannello per la Selezionare le autorizzazioni file.The Select file permissions blade is opened. Questo pannello elenca tutti gli account Data Lake Store nella sottoscrizione.It lists all the Data Lake Store accounts in your subscription.
  2. Passare il mouse (non fare clic) sul nome dell'account Data Lake Store per rendere visibile la casella di controllo e selezionarla.Hover (do not click) the mouse over the name of the Data Lake Store account to make the check box visible, then select the check box.

    Aggiungere l'entità servizio al cluster HDInsightAdd service principal to HDInsight cluster

    Per impostazione predefinita, LETTURA, SCRITTURA ed ESECUZIONE sono selezionati.By default, READ, WRITE, AND EXECUTE are all selected.

  3. Fare clic su Seleziona nella parte inferiore della pagina.Click Select on the bottom of the page.

  4. Fare clic su Esegui per assegnare l'autorizzazione.Click Run to assign permission.
  5. Fare clic su Done.Click Done.

Per assegnare l'autorizzazione a livello di radice del cluster HDInsightTo assign permission at the HDInsight cluster root level

  1. Nel pannello Accesso a Data Lake Store fare clic su Accesso.On the Data Lake Store access blade, click Access. Viene aperto il pannello per la Selezionare le autorizzazioni file.The Select file permissions blade is opened. Questo pannello elenca tutti gli account Data Lake Store nella sottoscrizione.It lists all the Data Lake Store accounts in your subscription.
  2. Nel pannello Selezionare le autorizzazioni file fare clic sul nome Data Lake Store per visualizzarne il contenuto.From the Select file permissions blade, click the Data Lake Store name to show its content.
  3. Selezionare la radice di archiviazione cluster HDInsight selezionando la casella di controllo a sinistra della cartella.Select the HDInsight cluster storage root by selecting the checkbox on the left of the folder. In base allo screenshot precedente, la radice di archiviazione del cluster è la cartella /clusters specificata durante la selezione di Data Lake Store come risorsa di archiviazione predefinita.According to the screenshot earlier, the cluster storage root is /clusters folder that you specified while selecting the Data Lake Store as default storage.
  4. Impostare le autorizzazioni per la cartella.Set the permissions on the folder. Per impostazione predefinita, sono selezionate lettura, scrittura ed esecuzione.By default, read, write, and execute are all selected.
  5. Fare clic su Seleziona nella parte inferiore della pagina.Click Select on the bottom of the page.
  6. Fare clic su Run.Click Run.
  7. Fare clic su Done.Click Done.

Se si usa Data Lake Store come risorsa di archiviazione aggiuntiva, è necessario assegnare autorizzazioni solo per le cartella a cui si vuole accedere dal cluster HDInsight.If you are using Data Lake Store as additional storage, you must assign permission only for the folders that you want to access from the HDInsight cluster. Ad esempio, nella schermata seguente, garantire l'accesso solo alla cartella hdiaddonstorage in un account Data Lake Store.For example, in the screenshot below, you provide access only to hdiaddonstorage folder in a Data Lake Store account.

Assegnare le autorizzazioni dell'entità servizio al cluster HDInsight clusterAssign service principal permissions to the HDInsight cluster

Verificare la configurazione del clusterVerify cluster set up

Al termine della configurazione del cluster, nel pannello del cluster verificare i risultati eseguendo uno o entrambi i passaggi seguenti:After the cluster setup is complete, on the cluster blade, verify your results by doing either or both of the following steps:

  • Per verificare che la risorsa di archiviazione associata per il cluster sia l'account Data Lake Store specificato, fare clic su Account di archiviazione nel riquadro sinistro.To verify that the associated storage for the cluster is the Data Lake Store account that you specified, click Storage accounts in the left pane.

    Aggiungere l'entità servizio al cluster HDInsightAdd service principal to HDInsight cluster

  • Per verificare che l'entità servizio sia correttamente associata al cluster HDInsight, fare clic su Accesso a Data Lake Store nel riquadro sinistro.To verify that the service principal is correctly associated with the HDInsight cluster, click Data Lake Store access in the left pane.

    Aggiungere l'entità servizio al cluster HDInsightAdd service principal to HDInsight cluster

EsempiExamples

Dopo aver configurato il cluster con Data Lake Store come risorsa di archiviazione, fare riferimento a questi esempi su come usare il cluster HDInsight per analizzare i dati archiviati in Data Lake Store.After you have set up the cluster with Data Lake Store as your storage, refer to these examples of how to use HDInsight cluster to analyze the data that's stored in Data Lake Store.

Eseguire una query Hive sui dati archiviati in Data Lake Store (come risorsa di archiviazione primaria)Run a Hive query against data in a Data Lake Store (as primary storage)

Per eseguire una query Hive, usare l'interfaccia delle visualizzazioni Hive disponibile nel portale di Ambari.To run a Hive query, use the Hive views interface in the Ambari portal. Per istruzioni su come usare le visualizzazioni Hive di Ambari, vedere Usare la visualizzazione Hive con Hadoop in HDInsight.For instructions on how to use Ambari Hive views, see Use the Hive View with Hadoop in HDInsight.

Quando si usano dati in Data Lake Store, è necessario modificare alcune stringhe.When you work with data in a Data Lake Store, there are a few strings to change.

Ad esempio, se si usa il cluster creato con Data Lake Store come risorsa di archiviazione primaria, il percorso dei dati è: adl://<nome_account_data_lake_store>/azuredatalakestore.net/path/to/file.If you use, for example, the cluster that you created with Data Lake Store as primary storage, the path to the data is: adl://<data_lake_store_account_name>/azuredatalakestore.net/path/to/file. Una query Hive per creare una tabella dai dati di esempio archiviati nell'account Data Lake Store avrà un aspetto simile all'istruzione seguente:A Hive query to create a table from sample data that's stored in the Data Lake Store account looks like the following statement:

CREATE EXTERNAL TABLE websitelog (str string) LOCATION 'adl://hdiadlsstorage.azuredatalakestore.net/clusters/myhdiadlcluster/HdiSamples/HdiSamples/WebsiteLogSampleData/SampleLog/'

Descrizioni:Descriptions:

  • adl://hdiadlstorage.azuredatalakestore.net/ è la radice dell'account di Data Lake Store.adl://hdiadlstorage.azuredatalakestore.net/ is the root of the Data Lake Store account.
  • /clusters/myhdiadlcluster è la radice dei dati del cluster specificata durante la creazione del cluster./clusters/myhdiadlcluster is the root of the cluster data that you specified while creating the cluster.
  • /HdiSamples/HdiSamples/WebsiteLogSampleData/SampleLog/ è il percorso del file di esempio usato nella query./HdiSamples/HdiSamples/WebsiteLogSampleData/SampleLog/ is the location of the sample file that you used in the query.

Eseguire una query Hive sui dati archiviati in Data Lake Store (come risorsa di archiviazione aggiuntiva)Run a Hive query against data in a Data Lake Store (as additional storage)

Se il cluster creato usa l'archiviazione BLOB come risorsa di archiviazione predefinita, i dati di esempio non si troveranno nell'account Azure Data Lake Store usato come risorsa di archiviazione aggiuntiva.If the cluster that you created uses Blob storage as default storage, the sample data is not contained in the Azure Data Lake Store account that's used as additional storage. In questi casi, trasferire innanzitutto i dati dall'archiviazione BLOB a Data Lake Store e quindi eseguire le query come mostrato nell'esempio precedente.In such a case, first transfer the data from Blob storage to the Data Lake Store, and then run the queries as shown in the preceding example.

Per informazioni su come copiare dati dall'archiviazione BLOB a Data Lake Store, vedere gli articoli seguenti:For information on how to copy data from Blob storage to a Data Lake Store, see the following articles:

Usare Data Lake Store con un cluster SparkUse Data Lake Store with a Spark cluster

È possibile usare un cluster Spark per eseguire processi Spark sui dati archiviati in Data Lake Store.You can use a Spark cluster to run Spark jobs on data that is stored in a Data Lake Store. Per altre informazioni, vedere Usare il cluster HDInsight Spark per analizzare i dati in Data Lake Store.For more information, see Use HDInsight Spark cluster to analyze data in Data Lake Store.

Usare Data Lake Store in una topologia StormUse Data Lake Store in a Storm topology

È possibile usare Data Lake Store per scrivere dati da una topologia Storm.You can use the Data Lake Store to write data from a Storm topology. Per istruzioni su come ottenere questo scenario, vedere Usare Azure Data Lake Store con Apache Storm in HDInsight.For instructions on how to achieve this scenario, see Use Azure Data Lake Store with Apache Storm with HDInsight.

Vedere anche See also