Configurare i cluster di HDInsight con Hadoop, Spark, Kafka e altro ancoraSet up clusters in HDInsight with Hadoop, Spark, Kafka, and more

Informazioni su come impostare e configurare i cluster di HDInsight con Hadoop, Spark, Kafka, Interactive Query, HBase, R Server o Storm.Learn how to set up and configure clusters in HDInsight with Hadoop, Spark, Kafka, Interactive Query, HBase, R Server, or Storm. Informazioni su come personalizzare i cluster e proteggerli aggiungendoli a un dominio.Also, learn how to customize clusters and add security by joining them to a domain.

Un cluster Hadoop è costituito da alcune macchine virtuali (nodi) che vengono usate per l'elaborazione distribuita di attività.A Hadoop cluster consists of several virtual machines (nodes) that are used for distributed processing of tasks. Azure HDInsight gestisce i dettagli di implementazione dell'installazione e della configurazione dei singoli nodi. È quindi necessario specificare solo le informazioni di configurazione generali.Azure HDInsight handles implementation details of installation and configuration of individual nodes, so you only have to provide general configuration information.

Importante

La fatturazione del cluster HDInsight inizia dopo la creazione del cluster e si interrompe solo quando questo viene eliminato.HDInsight cluster billing starts once a cluster is created and stops when the cluster is deleted. La fatturazione avviene con tariffa oraria, perciò si deve sempre eliminare il cluster in uso quando non lo si usa più.Billing is pro-rated per minute, so you should always delete your cluster when it is no longer in use. Informazioni su come eliminare un clusterLearn how to delete a cluster.

Metodi di installazione del clusterCluster setup methods

La tabella seguente illustra i diversi metodi che è possibile usare per configurare un cluster HDInsight.The following table shows the different methods you can use to set up an HDInsight cluster.

Cluster creati conClusters created with Web browserWeb browser Riga di comandoCommand line API RESTREST API SDKSDK
Portale di AzureAzure portal      
Data factory di AzureAzure Data Factory
Interfaccia della riga di comando di AzureAzure CLI      
Azure PowerShellAzure PowerShell      
cURLcURL    
.NET SDK.NET SDK      
Modelli di Gestione risorse di AzureAzure Resource Manager templates      

Creazione rapida: configurazione base del clusterQuick create: Basic cluster setup

In questo articolo viene illustrata la configurazione nel portale di Azure, in cui è possibile creare un cluster HDInsight con le opzioni Creazione rapida o Personalizzato.This article walks you through setup in the Azure portal, where you can create an HDInsight cluster using Quick create or Custom.

Seguire le istruzioni sullo schermo per eseguire una configurazione base del cluster.Follow instructions on the screen to do a basic cluster setup. Di seguito sono riportati dettagli relativi a:Details are provided below for:

Importante

Linux è l'unico sistema operativo usato in HDInsight versione 3.4 o successiva.Linux is the only operating system used on HDInsight version 3.4 or greater. Per altre informazioni, vedere Ritiro di HDInsight 3.3.For more information, see HDInsight 3.3 retirement.

Nome del gruppo di risorseResource group name

Azure Resource Manager consente di usare le risorse dell'applicazione come gruppo, denominato gruppo di risorse di Azure.Azure Resource Manager helps you work with the resources in your application as a group, referred to as an Azure resource group. È quindi possibile distribuire, aggiornare, monitorare o eliminare tutte le risorse per l'applicazione in un'unica operazione coordinata.You can deploy, update, monitor, or delete all the resources for your application in a single coordinated operation.

Tipi di cluster e configurazione Cluster types and configuration

In Azure HDInsight sono attualmente disponibili i tipi di cluster seguenti, ognuno con un set di componenti per offrire determinate funzionalità.Azure HDInsight currently provides the following cluster types, each with a set of components to provide certain functionalities.

Importante

I cluster HDInsight sono disponibili i vari tipi, ognuno per un carico di lavoro o una tecnologia specifici.HDInsight clusters are available in various types, each for a single workload or technology. Non è disponibile alcun metodo supportato per creare un cluster che combini più tipi, ad esempio Storm e HBase in un cluster.There is no supported method to create a cluster that combines multiple types, such as Storm and HBase on one cluster. Se la soluzione richiede tecnologie che vengono distribuite tra più tipi di cluster HDInsight, una rete virtuale di Azure è in grado di connettere i tipi di cluster necessari.If your solution requires technologies that are spread across multiple HDInsight cluster types, an Azure virtual network can connect the required cluster types.

Tipo di clusterCluster type FunzionalitàFunctionality
HadoopHadoop Query batch e analisi dei dati archiviatiBatch query and analysis of stored data
HBaseHBase Elaborazione di grandi quantità di dati NoSQL senza schemaProcessing for large amounts of schemaless, NoSQL data
StormStorm Elaborazione di eventi in tempo realeReal-time event processing
SparkSpark Elaborazione in memoria, query interattive, elaborazione di flussi di micro batchIn-memory processing, interactive queries, micro-batch stream processing
Kafka (anteprima)Kafka (Preview) Piattaforma di streaming open source distribuita che può essere usata per compilare applicazioni e pipeline di dati in streaming in tempo reale.A distributed streaming platform that can be used to build real-time streaming data pipelines and applications
R ServerR Server Ampia gamma di statistiche di Big Data, modellazione predittiva e funzionalità di Machine LearningVarious big data statistics, predictive modeling, and machine learning capabilities
Interactive QueryInteractive Query Caching in memoria per query Hive interattive e più rapideIn-memory caching for interactive and faster Hive queries

Numero di nodi per ogni tipo di clusterNumber of nodes for each cluster type

Ogni tipo di cluster ha il proprio numero di nodi, una terminologia specifica per i nodi e dimensioni predefinite delle macchine virtuali.Each cluster type has its own number of nodes, terminology for nodes, and default VM size. Nella tabella seguente, il numero di nodi per ogni tipo di nodo è indicato tra parentesi.In the following table, the number of nodes for each node type is in parentheses.

TipoType NodiNodes DiagrammaDiagram
HadoopHadoop Nodo head (2), nodo dati (1+)Head node (2), data node (1+) Nodi del cluster HDInsight Hadoop
HBaseHBase Server head (2), server di area (1+), nodo master/ZooKeeper (3)Head server (2), region server (1+), master/ZooKeeper node (3) Nodi del cluster HDInsight HBase
StormStorm Nodo Nimbus (2), server supervisore (1+), nodo ZooKeeper (3)Nimbus node (2), supervisor server (1+), ZooKeeper node (3) Nodi del cluster HDInsight Storm
SparkSpark Nodo head (2), nodo Worker (1+), nodo ZooKeeper (3), gratuito per le macchine virtuali ZooKeeper con dimensioni A1Head node (2), worker node (1+), ZooKeeper node (3) (free for A1 ZooKeeper VM size) Nodi del cluster HDInsight Spark

Per altre informazioni, vedere Configurazione del nodo predefinito e dimensioni della macchina virtuale per i cluster in "Componenti e versioni di Hadoop in HDInsight"For more information, see Default node configuration and virtual machine sizes for clusters in "What are the Hadoop components and versions in HDInsight?"

Versione HDInsightHDInsight version

Scegliere la versione di HDInsight per questo cluster.Choose the version of HDInsight for this cluster. Per altre informazioni, vedere Versioni supportate di HDInsight.For more information, see Supported HDInsight versions.

Livello cluster: livelli di servizio HDInsightCluster tier: HDInsight service tiers

Azure HDInsight presenta le offerte cloud per i Big Data in due livelli di servizio: Standard e Premium.Azure HDInsight provides the big data cloud offerings in two service tiers: Standard and Premium. Per altre informazioni, vedere HDInsight Standard e HDInsight Premium.For more information, see HDInsight Standard and HDInsight Premium.

La schermata seguente mostra le informazioni sul portale di Azure per la scelta dei tipi di cluster.The following screenshot shows the Azure portal information for choosing cluster types.

Configurazione di HDInsight Premium

Account di accesso del cluster e nome utente SSHCluster login and SSH user name

Con i cluster HDInsight è possibile configurare due account utente durante la creazione del cluster:With HDInsight clusters, you can configure two user accounts during cluster creation:

  • Utente HTTP: il nome utente predefinito è admin. e usa la configurazione di base nel portale di Azure.HTTP user: The default user name is admin. It uses the basic configuration on the Azure portal. In alcuni casi, viene chiamato "utente cluster".Sometimes it is called "Cluster user."
  • Utente SSH (cluster Linux): usato per la connessione ai cluster tramite SSH.SSH user (Linux clusters): Used to connect to the cluster through SSH. Per altre informazioni, vedere Usare SSH con HDInsight.For more information, see Use SSH with HDInsight.

Posizione (regioni) per cluster e risorse di archiviazioneLocation (regions) for clusters and storage

Non è necessario specificare il percorso del cluster in modo esplicito: il cluster si trova nella stessa posizione delle risorse di archiviazione predefinite.You don't need to specify the cluster location explicitly: The cluster is in the same location as the default storage. Per un elenco di aree supportate, fare clic sull'elenco a discesa Area in Prezzi di HDInsight.For a list of supported regions, click the Region drop-down list on HDInsight pricing.

Endpoint di archiviazione per i clusterStorage endpoints for clusters

Sebbene l'installazione locale di Hadoop usi Hadoop Distributed File System (HDFS) per l'archiviazione nel cluster, nel cloud vengono usati degli endpoint di archiviazione connessi al cluster.Although an on-premises installation of Hadoop uses the Hadoop Distributed File System (HDFS) for storage on the cluster, in the cloud you use storage endpoints connected to cluster. I cluster HDInsight usano Azure Data Lake Store o i BLOB in Archiviazione di Azure.HDInsight clusters use either Azure Data Lake Store or blobs in Azure Storage. L'uso di Archiviazione di Azure o Data Lake Store consente di eliminare in modo sicuro i cluster HDInsight usati per il calcolo, pur mantenendo i dati.Using Azure Storage or Data Lake Store means you can safely delete the HDInsight clusters used for computation while still retaining your data.

Avviso

L'uso di un account di archiviazione aggiuntivo in una località diversa rispetto al cluster HDInsight non è supportato.Using an additional storage account in a different location from the HDInsight cluster is not supported.

Durante la configurazione, per l'endpoint di archiviazione predefinito si specifica un contenitore blob di un account di archiviazione di Azure o un Data Lake Store.During configuration, for the default storage endpoint you specify a blob container of an Azure Storage account or a Data Lake Store. L'archiviazione predefinita include registri di sistema e applicazioni.The default storage contains application and system logs. Facoltativamente, è possibile specificare degli account di Archiviazione di Azure aggiuntivi e degli account di Data Lake Store a cui il cluster può accedere.Optionally, you can specify additional linked Azure Storage accounts and Data Lake Store accounts that the cluster can access. Il cluster HDInsight e l'account di archiviazione da esso dipendente devono trovarsi nella stessa posizione di Azure.The HDInsight cluster and the dependent storage accounts must be in the same Azure location.

Impostazioni di archiviazione del cluster: endpoint di archiviazione compatibili con HDFS

Nota

La funzionalità Trasferimento sicuro obbligatorio richiede la connessione sicura per tutte le richieste all'account.The Secure transfer required feature enforces all requests to your account through a secure connection. Questa funzionalità è supportata solo dal cluster HDInsight versione 3.6 o successiva.This feature is only supported by HDInsight cluster version 3.6 or newer. Per altre informazioni, vedere Creare un cluster Hadoop con account di archiviazione con trasferimento sicuro in Azure HDInsight.For more information, see Create Hadoop cluster with secure transfer storage accounts in Azure HDInsight.

Metastore facoltativiOptional metastores

È possibile creare dei metastore Hive o Oozie facoltativi.You can create optional Hive or Oozie metastores. Tuttavia, non tutti i tipi di cluster supportano i metastore e Azure SQL Data Warehouse non è compatibile con i metastore.However, not all cluster types support metastores, and Azure SQL Data Warehouse isn't compatible with metastores.

Importante

Quando si crea un metastore personalizzato, non usare un nome di database contenente trattini, segni meno o spazi.When you create a custom metastore, don't use dashes, hyphens, or spaces in the database name. perché in quel caso il processo di creazione del cluster non andrebbe a buon fine.This can cause the cluster creation process to fail.

Metastore HiveHive metastore

Per conservare le tabelle Hive dopo aver eliminato il cluster HDInsight, usare un metastore personalizzato.If you want to retain your Hive tables after you delete an HDInsight cluster, use a custom metastore. Sarà quindi possibile associare il metastore a un altro cluster HDInsight.You can then attach the metastore to another HDInsight cluster.

Un metastore HDInsight creato per una versione del cluster HDInsight non può essere condiviso in versioni diverse del cluster HDInsight.An HDInsight metastore that is created for one HDInsight cluster version cannot be shared across different HDInsight cluster versions. Per un elenco di versioni di HDInsight, vedere Versioni supportate di HDInsight.For a list of HDInsight versions, see Supported HDInsight versions.

Metastore OozieOozie metastore

Per ottenere un miglioramento delle prestazioni quando si usa Oozie, usare un metastore personalizzato.To increase performance when using Oozie, use a custom metastore. Un metastore può anche fornire l'accesso ai dati di processo Oozie dopo l'eliminazione del cluster.A metastore can also provide access to Oozie job data after you delete your cluster.

Importante

Non è possibile riutilizzare un metastore Oozie personalizzato.You cannot reuse a custom Oozie metastore. Per usare un metastore Oozie personalizzato, è necessario specificare un database SQL di Azure vuoto al momento della creazione del cluster HDInsight.To use a custom Oozie metastore, you must provide an empty Azure SQL Database when creating the HDInsight cluster.

Configurare le dimensioni del clusterConfigure cluster size

Verrà addebitato l'uso del nodo, purché il cluster esista.You are billed for node usage for as long as the cluster exists. La fatturazione inizia con la creazione del cluster e si interrompe quando il cluster viene eliminato.Billing starts when a cluster is created and stops when the cluster is deleted. I cluster non possono essere deallocati o messi in attesa.Clusters can’t be de-allocated or put on hold.

Il costo del cluster HDInsight è determinato dal numero di nodi e dalle dimensioni delle macchine virtuali per i nodi.The cost of HDInsight clusters is determined by the number of nodes and the virtual machines sizes for the nodes.

Diversi tipi di cluster hanno diversi tipi, numeri e dimensioni di nodi:Different cluster types have different node types, numbers of nodes, and node sizes:

  • Tipo predefinito di cluster Hadoop:Hadoop cluster type default:
    • Due nodi headTwo head nodes
    • Quattro nodi datiFour data nodes
  • Tipo predefinito di cluster Storm:Storm cluster type default:
    • Due nodi NimbusTwo Nimbus nodes
    • Tre nodi ZooKeeperThree ZooKeeper nodes
    • Quattro nodi SupervisorFour supervisor nodes

Se si sta solo provando HDInsight, è consigliabile usare un nodo di dati.If you are just trying out HDInsight, we recommend you use one data node. Per altre informazioni sui prezzi di HDInsight, vedere Prezzi di HDInsight.For more information about HDInsight pricing, see HDInsight pricing.

Nota

Il limite relativo alle dimensioni del cluster dipende dalla sottoscrizione di Azure.The cluster size limit varies among Azure subscriptions. Per aumentare il limite, contattare il team del supporto fatturazione di Azure.Contact Azure billing support to increase the limit.

Quando si usa il portale di Azure per configurare il cluster, le dimensioni del nodo vengono esposte tramite il pannello Piani tariffari per il nodo.When you use the Azure portal to configure the cluster, the node size is available through the Node Pricing Tiers blade. Nel portale è anche possibile visualizzare il costo associato alle diverse dimensioni dei nodi.In the portal, you can also see the cost associated with the different node sizes.

Dimensioni dei nodi delle VM di HDInsight

Dimensioni delle macchine virtualiVirtual machine sizes

Quando si distribuiscono i cluster, scegliere le risorse di calcolo in base alla soluzione da distribuire.When you deploy clusters, choose compute resources based on the solution you plan to deploy. Per i cluster HDInsight vengono usate le macchine virtuali seguenti:The following VMs are used for HDInsight clusters:

Per scoprire quale valore usare per specificare le dimensioni di macchina virtuale durante la creazione di un cluster tramite SDK diversi o quando si usa Azure PowerShell, vedere VM sizes to use for HDInsight clusters (Dimensioni delle macchine virtuali da usare per i cluster HDInsight).To find out what value you should use to specify a VM size while creating a cluster using the different SDKs or while using Azure PowerShell, see VM sizes to use for HDInsight clusters. In questo articolo collegato, usare il valore della casella Dimensioni delle tabelle.From this linked article, use the value in the Size column of the tables.

Importante

Se si prevedono più di 32 nodi di lavoro, è necessario selezionare una dimensione del nodo head con almeno 8 core e 14 GB di RAM.If you need more than 32 worker nodes in a cluster, you must select a head node size with at least 8 cores and 14 GB of RAM.

Per altre informazioni, vedere Dimensioni delle macchine virtuali in Azure.For more information, see Sizes for virtual machines. Per informazioni sui prezzi delle varie dimensioni, vedere Prezzi di HDInsight.For information about pricing of the various sizes, see HDInsight pricing.

Personalizzare la configurazione del clusterCustom cluster setup

La configurazione di un cluster personalizzato si basa sulle impostazioni di Creazione rapida e aggiunge le opzioni seguenti:Custom cluster setup builds on the Quick create settings, and adds the following options:

Installare applicazioni HDInsight in clusterInstall HDInsight applications on clusters

Un'applicazione HDInsight è un'applicazione che gli utenti possono installare in un cluster HDInsight basato su Linux.An HDInsight application is an application that users can install on a Linux-based HDInsight cluster. È possibile usare applicazioni fornite da Microsoft o terze parti o sviluppate in modo indipendente.You can use applications provided by Microsoft, third parties, or that you develop yourself. Per altre informazioni, vedere Installare applicazioni Hadoop di terze parti in Azure HDInsight.For more information, see Install third-party Hadoop applications on Azure HDInsight.

La maggior parte delle applicazioni HDInsight viene installata in un nodo perimetrale vuoto.Most of the HDInsight applications are installed on an empty edge node. Un nodo perimetrale vuoto è una macchina virtuale Linux in cui sono installati e configurati gli stessi strumenti client del nodo head.An empty edge node is a Linux virtual machine with the same client tools installed and configured as in the head node. Il nodo perimetrale può essere usato per accedere al cluster e per testare e ospitare le applicazioni client.You can use the edge node for accessing the cluster, testing your client applications, and hosting your client applications. Per altre informazioni, vedere Use empty edge nodes in HDInsight(Usare nodi perimetrali vuoti in HDInsight).For more information, see Use empty edge nodes in HDInsight.

Impostazioni avanzate: azioni ScriptAdvanced settings: Script actions

L'uso di script durante la creazione consente di installare componenti aggiuntivi o personalizzare la configurazione di un cluster.You can install additional components or customize cluster configuration by using scripts during creation. Gli script vengono chiamati tramite un' azione script, ovvero un'opzione di configurazione che può essere usata da portale di Azure, dai cmdlet di Windows PowerShell per HDInsight o da .NET SDK per HDInsight.Such scripts are invoked via Script Action, which is a configuration option that can be used from the Azure portal, HDInsight Windows PowerShell cmdlets, or the HDInsight .NET SDK. Per altre informazioni, vedere Personalizzare cluster HDInsight mediante le azioni script.For more information, see Customize HDInsight cluster using Script Action.

Nel cluster è possibile eseguire alcuni componenti Java nativi, come Mahout e Cascading, sotto forma di file JAR (Java Archive).Some native Java components, like Mahout and Cascading, can be run on the cluster as Java Archive (JAR) files. Questi file JAR possono essere distribuiti in Archiviazione di Azure e inviati ai cluster HDInsight usando i meccanismi di invio dei processi Hadoop.These JAR files can be distributed to Azure Storage and submitted to HDInsight clusters with Hadoop job submission mechanisms. Per altre informazioni, vedere Inviare processi Hadoop a livello di codice.For more information, see Submit Hadoop jobs programmatically.

Nota

In caso di problemi durante la distribuzione di file JAR in cluster HDInsight o nella chiamata di file JAR in cluster HDInsight, contattare il Supporto Microsoft.If you have issues deploying JAR files to HDInsight clusters, or calling JAR files on HDInsight clusters, contact Microsoft Support.

Cascading non è supportato da HDInsight, quindi in caso di problemi non è possibile rivolgersi al Supporto Microsoft.Cascading is not supported by HDInsight and is not eligible for Microsoft Support. Per gli elenchi dei componenti supportati, vedere Novità delle versioni cluster incluse con HDInsight.For lists of supported components, see What's new in the cluster versions provided by HDInsight.

In alcuni casi è opportuno configurare i file di configurazione seguenti durante il processo di creazione:Sometimes, you want to configure the following configuration files during the creation process:

  • clusterIdentity.xmlclusterIdentity.xml
  • core-site.xmlcore-site.xml
  • gateway.xmlgateway.xml
  • hbase-env.xmlhbase-env.xml
  • hbase-site.xmlhbase-site.xml
  • hdfs-site.xmlhdfs-site.xml
  • hive-env.xmlhive-env.xml
  • hive-site.xmlhive-site.xml
  • mapred-sitemapred-site
  • oozie-site.xmloozie-site.xml
  • oozie-env.xmloozie-env.xml
  • storm-site.xmlstorm-site.xml
  • tez-site.xmltez-site.xml
  • webhcat-site.xmlwebhcat-site.xml
  • yarn-site.xmlyarn-site.xml

Per altre informazioni, vedere Personalizzare cluster HDInsight tramite Bootstrap.For more information, see Customize HDInsight clusters using Bootstrap.

Impostazioni avanzate: estendere i cluster con una rete virtualeAdvanced settings: Extend clusters with a virtual network

Se la soluzione richiede tecnologie che vengono distribuite tra più tipi di cluster HDInsight, una rete virtuale di Azure è in grado di connettere i tipi di cluster necessari.If your solution requires technologies that are spread across multiple HDInsight cluster types, an Azure virtual network can connect the required cluster types. Questa configurazione consente ai cluster e al codice in essi distribuito di comunicare direttamente tra loro.This configuration allows the clusters, and any code you deploy to them, to directly communicate with each other.

Per altre informazioni sull'uso di una rete virtuale di Azure con HDInsight, vedere Estendere HDInsight con le reti virtuali di Azure.For more information on using an Azure virtual network with HDInsight, see Extend HDInsight with Azure virtual networks.

Per un esempio dell'uso di due tipi di cluster in una rete virtuale di Azure, vedere Analizzare i dati del sensore con Storm e HBase.For an example of using two cluster types within an Azure virtual network, see Analyze sensor data with Storm and HBase. Per altre informazioni sull'uso di HDInsight con una rete virtuale, inclusi i requisiti di configurazione specifici per la rete virtuale, vedere Estendere le funzionalità di HDInsight usando Rete virtuale di Azure.For more information about using HDInsight with a virtual network, including specific configuration requirements for the virtual network, see Extend HDInsight capabilities by using Azure Virtual Network.

Risolvere i problemi relativi al controllo di accessoTroubleshoot access control issues

Se si verificano problemi di creazione dei cluster HDInsight, vedere i requisiti dei controlli di accesso.If you run into issues with creating HDInsight clusters, see access control requirements.

Passaggi successiviNext steps