Personalizzare i cluster Hadoop di Azure HDInsight per l'analisi scientifica dei dati per i team

Questo articolo descrive come personalizzare un cluster Hadoop di HDInsight mediante l'installazione di Anaconda a 64 bit (Python 2.7) in ogni nodo quando viene eseguito il provisioning del cluster come servizio HDInsight. L'articolo illustra inoltre come accedere al nodo head per inviare i processi personalizzati al cluster. Questa personalizzazione rende molti moduli Python comuni, che sono inclusi in Anaconda, facilmente disponibili per l'uso nelle funzioni definite dall'utente (UDF) progettate per elaborare i record di Hive nel cluster. Per le istruzioni sulle procedure impiegate in questo scenario, vedere Come inviare query Hive.

Il menu seguente include collegamenti ad argomenti che descrivono come configurare i diversi ambienti di analisi scientifica dei dati usati dal processo di analisi scientifica dei dati per i team.

Personalizzare i cluster Hadoop di Azure HDInsight

Per creare un cluster Hadoop di HDInsight personalizzato, accedere innanzitutto al portale di Azure classico, fare clic su Nuovo nell'angolo inferiore sinistro e quindi selezionare SERVIZI DATI -> HDINSIGHT -> CREAZIONE PERSONALIZZATA per visualizzare la finestra Dettagli cluster.

Creare un'area di lavoro

Immettere il nome del cluster da creare nella pagina 1 della configurazione e accettare i valori predefiniti per gli altri campi. Fare clic sulla freccia per passare alla pagina di configurazione successiva.

Creare un'area di lavoro

Nella pagina 2 della configurazione, immettere il numero di NODI DEI DATI, selezionare RETE LOCALE/VIRTUALE, quindi selezionare le dimensioni del NODO HEAD e del NODO DATI. Fare clic sulla freccia per passare alla pagina di configurazione successiva.

Nota

La RETE LOCALE/VIRTUALE deve corrispondere all'area dell'account di archiviazione che verrà usato per il cluster Hadoop di HDInsight. In caso contrario, nella quarta pagina della configurazione, l'account di archiviazione non verrà visualizzato nell'elenco a discesa NOME ACCOUNT.

Creare un'area di lavoro

Nella pagina di configurazione 3, fornire un nome utente e una password per il cluster Hadoop di HDInsight. Non selezionare Immettere metastore Hive/Oozie. Quindi, fare clic sulla freccia per passare alla pagina di configurazione successiva.

Creare un'area di lavoro

Nella pagina di configurazione 4, specificare il nome dell'account di archiviazione, il contenitore predefinito del cluster Hadoop di HDInsight. Se si seleziona Crea contenitore predefinito dall'elenco a discesa CONTENITORE PREDEFINITO, verrà creato un contenitore con lo stesso nome del cluster. Fare clic sulla freccia per passare all'ultima pagina di configurazione.

Creare un'area di lavoro

Nell'ultima pagina di configurazione Azioni script, fare clic sul pulsante aggiungi script azione e compilare i campi di testo con i valori seguenti.

Infine, selezionare il segno di spunta per avviare la creazione del cluster Hadoop di HDInsight personalizzato.

Creare un'area di lavoro

Accedere al nodo head del cluster Hadoop

È necessario abilitare l'accesso remoto al cluster Hadoop in Azure prima di poter accedere al nodo head del cluster Hadoop tramite RDP.

  1. Accedere al portale di Azure classico, selezionare HDInsight a sinistra, selezionare il cluster Hadoop nell'elenco dei cluster, fare clic sulla scheda CONFIGURAZIONE e quindi fare clic sull'icona ABILITA MODALITÀ REMOTA nella parte inferiore della pagina.

    Creare un'area di lavoro

  2. Nella finestra Configura desktop remoto compilare i campi NOME UTENTE e PASSWORD e quindi selezionare la data di scadenza dell'accesso remoto. Quindi fare clic sul segno di spunta per abilitare l'accesso remoto al nodo head del cluster Hadoop.

    Creare un'area di lavoro

Nota

Il nome utente e la password per l'accesso remoto non sono il nome utente e la password usati per la creazione del cluster Hadoop. Si tratta di un set separato di credenziali. Inoltre, la data di scadenza dell'accesso remoto non deve superare i 7 giorni dalla data corrente.

Dopo aver abilitato l'accesso remoto, fare clic su CONNETTI nella parte inferiore della pagina per accedere in remoto al nodo head. Si accede al nodo head del cluster Hadoop immettendo le credenziali per l'utente di accesso remoto specificato in precedenza.

Creare un'area di lavoro

I passaggi successivi del processo di analisi avanzata dei dati sono illustrati in Processo di analisi scientifica dei dati per i team e possono includere lo spostamento dei dati in HDInsight e le successive procedure di elaborazione e campionamento in preparazione dell'apprendimento dei dati con Azure Machine Learning.

Vedere Come inviare query Hive per istruzioni sull'accesso ai moduli di Python inclusi in Anaconda dal nodo head del cluster nelle funzioni definite dall'utente che consentono di elaborare i record di Hive archiviati nel cluster.