Creare cluster HDInsight con Data Lake Store tramite il portale di Azure

Informazioni su come usare il portale di Azure per creare un cluster HDInsight con un account Azure Data Lake Store come risorsa di archiviazione predefinita o risorsa di archiviazione aggiuntiva. Anche se la risorsa di archiviazione aggiuntiva è facoltativa per un cluster HDInsight, è consigliabile archiviare i dati aziendali negli account di archiviazione aggiuntivi.

Prerequisiti

Prima di iniziare l'esercitazione, verificare di aver soddisfatto i requisiti seguenti:

  • Una sottoscrizione di Azure. Vedere Ottenere una versione di valutazione gratuita di Azure.
  • Un account di Archivio Data Lake di Azure. Seguire le istruzioni fornite in Introduzione all'uso di Azure Data Lake Store tramite il portale di Azure. È anche necessario creare una cartella radice nell'account. In questa esercitazione viene usata una cartella radice denominata /clusters.
  • Un'entità servizio di Azure Active Directory. Questa esercitazione fornisce tutte le istruzioni utili su come creare un'entità servizio in Azure Active Directory (Azure AD). Tuttavia, per creare un'entità servizio è necessario essere un amministratore di Azure AD. Se si è un amministratore, è possibile ignorare questo prerequisito e procedere con l'esercitazione.

    Nota

    È possibile creare un'entità servizio solo se si è un amministratore di Azure AD. Prima di poter creare un cluster HDInsight con Data Lake Store, un amministratore di Azure AD deve creare un'entità servizio. Inoltre, l'entità servizio deve essere creata usando un certificato, come descritto in Creare un'entità servizio con certificato.

Creazione di un cluster HDInsight

In questa sezione viene creato un cluster HDInsight con account Data Lake Store come risorsa di archiviazione predefinita o aggiuntiva. Questo articolo illustra solo la configurazione degli account Data Lake Store. Per informazioni generali sulla creazione di cluster e le relative procedure, vedere Creare cluster Hadoop basati su Linux in HDInsight.

Creare un cluster con Data Lake Store come risorsa di archiviazione predefinita

Per creare un cluster HDInsight con Data Lake Store come account di archiviazione predefinito

  1. Accedere al portale di Azure.
  2. Seguire Creare i cluster per informazioni generali sulla creazione di cluster HDInsight.
  3. Nel pannello Archiviazione, in Tipo di archiviazione primario selezionare Data Lake Store e quindi immettere le informazioni seguenti:

    Aggiungere l'entità servizio al cluster HDInsight

    • Seleziona account Data Lake Store: selezionare un account Data Lake Store esistente. È necessario un account Data Lake Store esistente. Vedere Prerequisiti.
    • Percorso radice: immettere un percorso in cui archiviare i file specifici del cluster. Nello screenshot è /clusters/myhdiadlcluster/, in cui la cartella /clusters deve esistere e il portale crea la cartella myhdicluster. myhdicluster è il nome del cluster.
    • Accesso a Data Lake Store: configurare l'accesso tra l'account Data Lake Store e il cluster HDInsight. Per istruzioni, vedere Configurare l'accesso a Data Lake Store.
    • Account archiviazione aggiuntivi: aggiungere account di archiviazione di Azure come account di archiviazione aggiuntivi per il cluster. Per aggiungere altre istanze di Data Lake Store, assegnare al cluster le autorizzazioni per i dati in più account Data Lake Store durante la configurazione di un account Data Lake Store come tipo di archiviazione primario. Vedere Configurare l'accesso a Data Lake Store.
  4. In Accesso a Data Lake Store fare clic su Seleziona e continuare con la creazione del cluster come descritto in Creare cluster Hadoop in HDInsight.

Creare un cluster con Data Lake Store come risorsa di archiviazione aggiuntiva

Le istruzioni seguenti illustrano come creare un cluster HDInsight con un account di archiviazione di Azure come risorsa di archiviazione predefinita e un account Data Lake Store come risorsa di archiviazione aggiuntiva. Per creare un cluster HDInsight con Data Lake Store come account di archiviazione predefinito

  1. Accedere al portale di Azure.
  2. Seguire Creare i cluster per informazioni generali sulla creazione di cluster HDInsight.
  3. Nel pannello Archiviazione, in Tipo di archiviazione primario selezionare Archiviazione di Azure e quindi immettere le informazioni seguenti:

    Aggiungere l'entità servizio al cluster HDInsight

    • Metodo di selezione: usare una delle opzioni seguenti:

      • Per specificare un account di archiviazione che fa parte della sottoscrizione di Azure, selezionare Sottoscrizioni personali, quindi selezionare l'account di archiviazione.
      • Per specificare un account di archiviazione esterno alla sottoscrizione di Azure, selezionare Chiave di accesso, quindi immettere le informazioni per l'account di archiviazione esterno.
    • Contenitore predefinito: usare il valore predefinito o specificare un altro nome.

    • Account archiviazione aggiuntivi: aggiungere altri account di archiviazione di Azure come risorsa di archiviazione aggiuntiva.

    • Accesso a Data Lake Store: configurare l'accesso tra l'account Data Lake Store e il cluster HDInsight. Per istruzioni, vedere Configurare l'accesso a Data Lake Store.

Configurare l'accesso a Data Lake Store

In questa sezione è possibile configurare l'accesso a Data Lake Store dai cluster HDInsight usando un'entità servizio di Azure Active Directory.

Specificare un'entità servizio

Dal portale di Azure è possibile usare un'entità servizio esistente o crearne una nuova.

Per creare un'entità servizio dal portale di Azure

  1. Fare clic su Accesso a Data Lake Store nel pannello Archiviazione.
  2. Nel pannello Accesso a Data Lake Store fare clic su Crea nuovo.
  3. Fare clic su Entità servizio e quindi seguire le istruzioni per creare un'entità servizio.
  4. Scaricare il certificato se si decide di usarlo ancora in futuro. Il download del certificato è un'operazione utile se in futuro si vorrà usare la stessa entità servizio per creare altri cluster HDInsight.

    Aggiungere l'entità servizio al cluster HDInsight

  5. Fare clic su Accesso per configurare l'accesso alla cartella. Vedere Configurare le autorizzazioni file.

Per usare un'entità servizio esistente dal portale di Azure

  1. Fare clic su Accesso a Data Lake Store.
  2. Nel pannello Accesso a Data Lake Store fare clic su Usa esistente.
  3. Fare clic su Entità servizio e quindi selezionare un'entità servizio.
  4. Caricare il certificato (file PFX) associato all'entità servizio selezionata e quindi immettere la password del certificato.

    Aggiungere l'entità servizio al cluster HDInsight

  5. Fare clic su Accesso per configurare l'accesso alla cartella. Vedere Configurare le autorizzazioni file.

Configurare le autorizzazioni file

Le configurazioni sono diverse a seconda che l'account venga usato come risorsa di archiviazione predefinita o come account di archiviazione aggiuntivo:

  • Uso come risorsa di archiviazione predefinita

    • Autorizzazione a livello di radice dell'account Data Lake Store.
    • Autorizzazione a livello di radice dell'archiviazione cluster HDInsight. Ad esempio, la cartella /clusters usata prima nell'esercitazione.
  • Uso come risorsa di archiviazione aggiuntiva

    • Autorizzazione a livello delle cartelle in cui è necessario l'accesso ai file.

Per assegnare l'autorizzazione a livello di radice dell'account Data Lake Store

  1. Nel pannello Accesso a Data Lake Store fare clic su Accesso. Viene aperto il pannello per la Selezionare le autorizzazioni file. Questo pannello elenca tutti gli account Data Lake Store nella sottoscrizione.
  2. Passare il mouse (non fare clic) sul nome dell'account Data Lake Store per rendere visibile la casella di controllo e selezionarla.

    Aggiungere l'entità servizio al cluster HDInsight

    Per impostazione predefinita, LETTURA, SCRITTURA ed ESECUZIONE sono selezionati.

  3. Fare clic su Seleziona nella parte inferiore della pagina.

  4. Fare clic su Esegui per assegnare l'autorizzazione.
  5. Fare clic su Done.

Per assegnare l'autorizzazione a livello di radice del cluster HDInsight

  1. Nel pannello Accesso a Data Lake Store fare clic su Accesso. Viene aperto il pannello per la Selezionare le autorizzazioni file. Questo pannello elenca tutti gli account Data Lake Store nella sottoscrizione.
  2. Nel pannello Selezionare le autorizzazioni file fare clic sul nome Data Lake Store per visualizzarne il contenuto.
  3. Selezionare la radice di archiviazione cluster HDInsight selezionando la casella di controllo a sinistra della cartella. In base allo screenshot precedente, la radice di archiviazione del cluster è la cartella /clusters specificata durante la selezione di Data Lake Store come risorsa di archiviazione predefinita.
  4. Impostare le autorizzazioni per la cartella. Per impostazione predefinita, sono selezionate lettura, scrittura ed esecuzione.
  5. Fare clic su Seleziona nella parte inferiore della pagina.
  6. Fare clic su Run.
  7. Fare clic su Done.

Se si usa Data Lake Store come risorsa di archiviazione aggiuntiva, è necessario assegnare autorizzazioni solo per le cartella a cui si vuole accedere dal cluster HDInsight. Ad esempio, nella schermata seguente, garantire l'accesso solo alla cartella hdiaddonstorage in un account Data Lake Store.

Assegnare le autorizzazioni dell'entità servizio al cluster HDInsight cluster

Verificare la configurazione del cluster

Al termine della configurazione del cluster, nel pannello del cluster verificare i risultati eseguendo uno o entrambi i passaggi seguenti:

  • Per verificare che la risorsa di archiviazione associata per il cluster sia l'account Data Lake Store specificato, fare clic su Account di archiviazione nel riquadro sinistro.

    Aggiungere l'entità servizio al cluster HDInsight

  • Per verificare che l'entità servizio sia correttamente associata al cluster HDInsight, fare clic su Accesso a Data Lake Store nel riquadro sinistro.

    Aggiungere l'entità servizio al cluster HDInsight

esempi

Dopo aver configurato il cluster con Data Lake Store come risorsa di archiviazione, fare riferimento a questi esempi su come usare il cluster HDInsight per analizzare i dati archiviati in Data Lake Store.

Eseguire una query Hive sui dati archiviati in Data Lake Store (come risorsa di archiviazione primaria)

Per eseguire una query Hive, usare l'interfaccia delle visualizzazioni Hive disponibile nel portale di Ambari. Per istruzioni su come usare le visualizzazioni Hive di Ambari, vedere Usare la visualizzazione Hive con Hadoop in HDInsight.

Quando si usano dati in Data Lake Store, è necessario modificare alcune stringhe.

Ad esempio, se si usa il cluster creato con Data Lake Store come risorsa di archiviazione primaria, il percorso dei dati è: adl:///azuredatalakestore.net/path/to/file. Una query Hive per creare una tabella dai dati di esempio archiviati nell'account Data Lake Store avrà un aspetto simile all'istruzione seguente:

CREATE EXTERNAL TABLE websitelog (str string) LOCATION 'adl://hdiadlsstorage.azuredatalakestore.net/clusters/myhdiadlcluster/HdiSamples/HdiSamples/WebsiteLogSampleData/SampleLog/'

Descrizioni:

  • adl://hdiadlstorage.azuredatalakestore.net/ è la radice dell'account di Data Lake Store.
  • /clusters/myhdiadlcluster è la radice dei dati del cluster specificata durante la creazione del cluster.
  • /HdiSamples/HdiSamples/WebsiteLogSampleData/SampleLog/ è il percorso del file di esempio usato nella query.

Eseguire una query Hive sui dati archiviati in Data Lake Store (come risorsa di archiviazione aggiuntiva)

Se il cluster creato usa l'archiviazione BLOB come risorsa di archiviazione predefinita, i dati di esempio non si troveranno nell'account Azure Data Lake Store usato come risorsa di archiviazione aggiuntiva. In questi casi, trasferire innanzitutto i dati dall'archiviazione BLOB a Data Lake Store e quindi eseguire le query come mostrato nell'esempio precedente.

Per informazioni su come copiare dati dall'archiviazione BLOB a Data Lake Store, vedere gli articoli seguenti:

Usare Data Lake Store con un cluster Spark

È possibile usare un cluster Spark per eseguire processi Spark sui dati archiviati in Data Lake Store. Per altre informazioni, vedere Usare il cluster HDInsight Spark per analizzare i dati in Data Lake Store.

Usare Data Lake Store in una topologia Storm

È possibile usare Data Lake Store per scrivere dati da una topologia Storm. Per istruzioni su come ottenere questo scenario, vedere Usare Azure Data Lake Store con Apache Storm in HDInsight.

Vedere anche