Configurare i cluster di HDInsight con Hadoop, Spark, Kafka e altro ancora

Informazioni su come impostare e configurare i cluster di HDInsight con Hadoop, Spark, Kafka, Interactive Query, HBase, R Server o Storm. Informazioni su come personalizzare i cluster e proteggerli aggiungendoli a un dominio.

Un cluster Hadoop è costituito da alcune macchine virtuali (nodi) che vengono usate per l'elaborazione distribuita di attività. Azure HDInsight gestisce i dettagli di implementazione dell'installazione e della configurazione dei singoli nodi. È quindi necessario specificare solo le informazioni di configurazione generali.

Importante

La fatturazione del cluster HDInsight inizia dopo la creazione del cluster e si interrompe solo quando questo viene eliminato. La fatturazione avviene con tariffa oraria, perciò si deve sempre eliminare il cluster in uso quando non lo si usa più. Informazioni su come eliminare un cluster

Metodi di installazione del cluster

La tabella seguente illustra i diversi metodi che è possibile usare per configurare un cluster HDInsight.

Cluster creati con Web browser Riga di comando API REST SDK
Portale di Azure      
Data factory di Azure
Interfaccia della riga di comando di Azure      
Azure PowerShell      
cURL    
.NET SDK      
Modelli di Gestione risorse di Azure      

Creazione rapida: configurazione base del cluster

In questo articolo viene illustrata la configurazione nel portale di Azure, in cui è possibile creare un cluster HDInsight con le opzioni Creazione rapida o Personalizzato.

Seguire le istruzioni sullo schermo per eseguire una configurazione base del cluster. Di seguito sono riportati dettagli relativi a:

Importante

Linux è l'unico sistema operativo usato in HDInsight versione 3.4 o successiva. Per altre informazioni, vedere Ritiro di HDInsight 3.3.

Nome del gruppo di risorse

Azure Resource Manager consente di usare le risorse dell'applicazione come gruppo, denominato gruppo di risorse di Azure. È quindi possibile distribuire, aggiornare, monitorare o eliminare tutte le risorse per l'applicazione in un'unica operazione coordinata.

Tipi di cluster e configurazione

In Azure HDInsight sono attualmente disponibili i tipi di cluster seguenti, ognuno con un set di componenti per offrire determinate funzionalità.

Importante

I cluster HDInsight sono disponibili i vari tipi, ognuno per un carico di lavoro o una tecnologia specifici. Non è disponibile alcun metodo supportato per creare un cluster che combini più tipi, ad esempio Storm e HBase in un cluster. Se la soluzione richiede tecnologie che vengono distribuite tra più tipi di cluster HDInsight, una rete virtuale di Azure è in grado di connettere i tipi di cluster necessari.

Tipo di cluster Funzionalità
Hadoop Query batch e analisi dei dati archiviati
HBase Elaborazione di grandi quantità di dati NoSQL senza schema
Storm Elaborazione di eventi in tempo reale
Spark Elaborazione in memoria, query interattive, elaborazione di flussi di micro batch
Kafka (anteprima) Piattaforma di streaming open source distribuita che può essere usata per compilare applicazioni e pipeline di dati in streaming in tempo reale.
R Server Ampia gamma di statistiche di Big Data, modellazione predittiva e funzionalità di Machine Learning
Interactive Query Caching in memoria per query Hive interattive e più rapide

Numero di nodi per ogni tipo di cluster

Ogni tipo di cluster ha il proprio numero di nodi, una terminologia specifica per i nodi e dimensioni predefinite delle macchine virtuali. Nella tabella seguente, il numero di nodi per ogni tipo di nodo è indicato tra parentesi.

Tipo Nodi Diagramma
Hadoop Nodo head (2), nodo dati (1+) Nodi del cluster HDInsight Hadoop
HBase Server head (2), server di area (1+), nodo master/ZooKeeper (3) Nodi del cluster HDInsight HBase
Storm Nodo Nimbus (2), server supervisore (1+), nodo ZooKeeper (3) Nodi del cluster HDInsight Storm
Spark Nodo head (2), nodo Worker (1+), nodo ZooKeeper (3), gratuito per le macchine virtuali ZooKeeper con dimensioni A1 Nodi del cluster HDInsight Spark

Per altre informazioni, vedere Configurazione del nodo predefinito e dimensioni della macchina virtuale per i cluster in "Componenti e versioni di Hadoop in HDInsight"

Versione HDInsight

Scegliere la versione di HDInsight per questo cluster. Per altre informazioni, vedere Versioni supportate di HDInsight.

Livello cluster: livelli di servizio HDInsight

Azure HDInsight presenta le offerte cloud per i Big Data in due livelli di servizio: Standard e Premium. Per altre informazioni, vedere HDInsight Standard e HDInsight Premium.

La schermata seguente mostra le informazioni sul portale di Azure per la scelta dei tipi di cluster.

Configurazione di HDInsight Premium

Account di accesso del cluster e nome utente SSH

Con i cluster HDInsight è possibile configurare due account utente durante la creazione del cluster:

  • Utente HTTP: il nome utente predefinito è admin. e usa la configurazione di base nel portale di Azure. In alcuni casi, viene chiamato "utente cluster".
  • Utente SSH (cluster Linux): usato per la connessione ai cluster tramite SSH. Per altre informazioni, vedere Usare SSH con HDInsight.

Posizione (regioni) per cluster e risorse di archiviazione

Non è necessario specificare il percorso del cluster in modo esplicito: il cluster si trova nella stessa posizione delle risorse di archiviazione predefinite. Per un elenco di aree supportate, fare clic sull'elenco a discesa Area in Prezzi di HDInsight.

Endpoint di archiviazione per i cluster

Sebbene l'installazione locale di Hadoop usi Hadoop Distributed File System (HDFS) per l'archiviazione nel cluster, nel cloud vengono usati degli endpoint di archiviazione connessi al cluster. I cluster HDInsight usano Azure Data Lake Store o i BLOB in Archiviazione di Azure. L'uso di Archiviazione di Azure o Data Lake Store consente di eliminare in modo sicuro i cluster HDInsight usati per il calcolo, pur mantenendo i dati.

Avviso

L'uso di un account di archiviazione aggiuntivo in una località diversa rispetto al cluster HDInsight non è supportato.

Durante la configurazione, per l'endpoint di archiviazione predefinito si specifica un contenitore blob di un account di archiviazione di Azure o un Data Lake Store. L'archiviazione predefinita include registri di sistema e applicazioni. Facoltativamente, è possibile specificare degli account di Archiviazione di Azure aggiuntivi e degli account di Data Lake Store a cui il cluster può accedere. Il cluster HDInsight e l'account di archiviazione da esso dipendente devono trovarsi nella stessa posizione di Azure.

Impostazioni di archiviazione del cluster: endpoint di archiviazione compatibili con HDFS

Nota

La funzionalità Trasferimento sicuro obbligatorio richiede la connessione sicura per tutte le richieste all'account. Questa funzionalità è supportata solo dal cluster HDInsight versione 3.6 o successiva. Per altre informazioni, vedere Creare un cluster Hadoop con account di archiviazione con trasferimento sicuro in Azure HDInsight.

Metastore facoltativi

È possibile creare dei metastore Hive o Oozie facoltativi. Tuttavia, non tutti i tipi di cluster supportano i metastore e Azure SQL Data Warehouse non è compatibile con i metastore.

Importante

Quando si crea un metastore personalizzato, non usare un nome di database contenente trattini, segni meno o spazi. perché in quel caso il processo di creazione del cluster non andrebbe a buon fine.

Metastore Hive

Per conservare le tabelle Hive dopo aver eliminato il cluster HDInsight, usare un metastore personalizzato. Sarà quindi possibile associare il metastore a un altro cluster HDInsight.

Un metastore HDInsight creato per una versione del cluster HDInsight non può essere condiviso in versioni diverse del cluster HDInsight. Per un elenco di versioni di HDInsight, vedere Versioni supportate di HDInsight.

Metastore Oozie

Per ottenere un miglioramento delle prestazioni quando si usa Oozie, usare un metastore personalizzato. Un metastore può anche fornire l'accesso ai dati di processo Oozie dopo l'eliminazione del cluster.

Importante

Non è possibile riutilizzare un metastore Oozie personalizzato. Per usare un metastore Oozie personalizzato, è necessario specificare un database SQL di Azure vuoto al momento della creazione del cluster HDInsight.

Configurare le dimensioni del cluster

Verrà addebitato l'uso del nodo, purché il cluster esista. La fatturazione inizia con la creazione del cluster e si interrompe quando il cluster viene eliminato. I cluster non possono essere deallocati o messi in attesa.

Il costo del cluster HDInsight è determinato dal numero di nodi e dalle dimensioni delle macchine virtuali per i nodi.

Diversi tipi di cluster hanno diversi tipi, numeri e dimensioni di nodi:

  • Tipo predefinito di cluster Hadoop:
    • Due nodi head
    • Quattro nodi dati
  • Tipo predefinito di cluster Storm:
    • Due nodi Nimbus
    • Tre nodi ZooKeeper
    • Quattro nodi Supervisor

Se si sta solo provando HDInsight, è consigliabile usare un nodo di dati. Per altre informazioni sui prezzi di HDInsight, vedere Prezzi di HDInsight.

Nota

Il limite relativo alle dimensioni del cluster dipende dalla sottoscrizione di Azure. Per aumentare il limite, contattare il team del supporto fatturazione di Azure.

Quando si usa il portale di Azure per configurare il cluster, le dimensioni del nodo vengono esposte tramite il pannello Piani tariffari per il nodo. Nel portale è anche possibile visualizzare il costo associato alle diverse dimensioni dei nodi.

Dimensioni dei nodi delle VM di HDInsight

Dimensioni delle macchine virtuali

Quando si distribuiscono i cluster, scegliere le risorse di calcolo in base alla soluzione da distribuire. Per i cluster HDInsight vengono usate le macchine virtuali seguenti:

Per scoprire quale valore usare per specificare le dimensioni di macchina virtuale durante la creazione di un cluster tramite SDK diversi o quando si usa Azure PowerShell, vedere VM sizes to use for HDInsight clusters (Dimensioni delle macchine virtuali da usare per i cluster HDInsight). In questo articolo collegato, usare il valore della casella Dimensioni delle tabelle.

Importante

Se si prevedono più di 32 nodi di lavoro, è necessario selezionare una dimensione del nodo head con almeno 8 core e 14 GB di RAM.

Per altre informazioni, vedere Dimensioni delle macchine virtuali in Azure. Per informazioni sui prezzi delle varie dimensioni, vedere Prezzi di HDInsight.

Personalizzare la configurazione del cluster

La configurazione di un cluster personalizzato si basa sulle impostazioni di Creazione rapida e aggiunge le opzioni seguenti:

Installare applicazioni HDInsight in cluster

Un'applicazione HDInsight è un'applicazione che gli utenti possono installare in un cluster HDInsight basato su Linux. È possibile usare applicazioni fornite da Microsoft o terze parti o sviluppate in modo indipendente. Per altre informazioni, vedere Installare applicazioni Hadoop di terze parti in Azure HDInsight.

La maggior parte delle applicazioni HDInsight viene installata in un nodo perimetrale vuoto. Un nodo perimetrale vuoto è una macchina virtuale Linux in cui sono installati e configurati gli stessi strumenti client del nodo head. Il nodo perimetrale può essere usato per accedere al cluster e per testare e ospitare le applicazioni client. Per altre informazioni, vedere Use empty edge nodes in HDInsight(Usare nodi perimetrali vuoti in HDInsight).

Impostazioni avanzate: azioni Script

L'uso di script durante la creazione consente di installare componenti aggiuntivi o personalizzare la configurazione di un cluster. Gli script vengono chiamati tramite un' azione script, ovvero un'opzione di configurazione che può essere usata da portale di Azure, dai cmdlet di Windows PowerShell per HDInsight o da .NET SDK per HDInsight. Per altre informazioni, vedere Personalizzare cluster HDInsight mediante le azioni script.

Nel cluster è possibile eseguire alcuni componenti Java nativi, come Mahout e Cascading, sotto forma di file JAR (Java Archive). Questi file JAR possono essere distribuiti in Archiviazione di Azure e inviati ai cluster HDInsight usando i meccanismi di invio dei processi Hadoop. Per altre informazioni, vedere Inviare processi Hadoop a livello di codice.

Nota

In caso di problemi durante la distribuzione di file JAR in cluster HDInsight o nella chiamata di file JAR in cluster HDInsight, contattare il Supporto Microsoft.

Cascading non è supportato da HDInsight, quindi in caso di problemi non è possibile rivolgersi al Supporto Microsoft. Per gli elenchi dei componenti supportati, vedere Novità delle versioni cluster incluse con HDInsight.

In alcuni casi è opportuno configurare i file di configurazione seguenti durante il processo di creazione:

  • clusterIdentity.xml
  • core-site.xml
  • gateway.xml
  • hbase-env.xml
  • hbase-site.xml
  • hdfs-site.xml
  • hive-env.xml
  • hive-site.xml
  • mapred-site
  • oozie-site.xml
  • oozie-env.xml
  • storm-site.xml
  • tez-site.xml
  • webhcat-site.xml
  • yarn-site.xml

Per altre informazioni, vedere Personalizzare cluster HDInsight tramite Bootstrap.

Impostazioni avanzate: estendere i cluster con una rete virtuale

Se la soluzione richiede tecnologie che vengono distribuite tra più tipi di cluster HDInsight, una rete virtuale di Azure è in grado di connettere i tipi di cluster necessari. Questa configurazione consente ai cluster e al codice in essi distribuito di comunicare direttamente tra loro.

Per altre informazioni sull'uso di una rete virtuale di Azure con HDInsight, vedere Estendere HDInsight con le reti virtuali di Azure.

Per un esempio dell'uso di due tipi di cluster in una rete virtuale di Azure, vedere Analizzare i dati del sensore con Storm e HBase. Per altre informazioni sull'uso di HDInsight con una rete virtuale, inclusi i requisiti di configurazione specifici per la rete virtuale, vedere Estendere le funzionalità di HDInsight usando Rete virtuale di Azure.

Risolvere i problemi relativi al controllo di accesso

Se si verificano problemi di creazione dei cluster HDInsight, vedere i requisiti dei controlli di accesso.

Passaggi successivi