Informazioni sull'uso di HDInsight in LinuxInformation about using HDInsight on Linux

I cluster Azure HDInsight mettono a disposizione Hadoop in un ambiente Linux familiare, in esecuzione nel cloud di Azure.Azure HDInsight clusters provide Hadoop on a familiar Linux environment, running in the Azure cloud. Per la maggior parte delle operazioni, dovrebbe funzionare esattamente come qualsiasi altra installazione di Hadoop in Linux.For most things, it should work exactly as any other Hadoop-on-Linux installation. Questo documento indica le differenze specifiche che è opportuno conoscere.This document calls out specific differences that you should be aware of.

Importante

Linux è l'unico sistema operativo usato in HDInsight versione 3.4 o successiva.Linux is the only operating system used on HDInsight version 3.4 or greater. Per altre informazioni, vedere la sezione relativa al ritiro di HDInsight in Windows.For more information, see HDInsight retirement on Windows.

PrerequisitiPrerequisites

In molti passaggi di questo documento vengono usate le utilità seguenti che devono essere installate nel sistema.Many of the steps in this document use the following utilities, which may need to be installed on your system.

  • cURL : consente di comunicare con servizi basati su WebcURL - used to communicate with web-based services
  • jq : consente di analizzare i documenti JSONjq - used to parse JSON documents
  • Interfaccia della riga di comando di Azure 2.0 (anteprima): consente di gestire in remoto i servizi di AzureAzure CLI 2.0 (preview) - used to remotely manage Azure services

UtentiUsers

A meno che non sia aggiunto al dominio, HDInsight deve essere considerato un sistema a utente singolo.Unless domain-joined, HDInsight should be considered a single-user system. Con il cluster viene creato un singolo account utente SSH, con autorizzazioni a livello di amministratore.A single SSH user account is created with the cluster, with administrator level permissions. Possono essere creati altri account SSH, che avranno sempre l'accesso di amministratore al cluster.Additional SSH accounts can be created, but they also have administrator access to the cluster.

HDInsight aggiunto al dominio offre il supporto per più utenti e impostazioni di autorizzazioni e ruoli più granulari.Domain-joined HDInsight supports multiple users and more granular permission and role settings. Per altre informazioni, vedere Manage Domain-joined HDInsight clusters (Gestire cluster HDInsight aggiunti al dominio).For more information, see Manage Domain-joined HDInsight clusters.

Nomi di dominioDomain names

Il nome di dominio completo (FQDN) da usare per la connessione al cluster da Internet è <nome cluster>.azurehdinsight.net o (solo per SSH) <nome cluster-ssh>.azurehdinsight.net.The fully qualified domain name (FQDN) to use when connecting to the cluster from the internet is <clustername>.azurehdinsight.net or (for SSH only) <clustername-ssh>.azurehdinsight.net.

Internamente, ogni nodo del cluster ha un nome assegnato durante la configurazione del cluster.Internally, each node in the cluster has a name that is assigned during cluster configuration. Per individuare i nomi del cluster, vedere la pagina Host nell'interfaccia utente Web Ambari.To find the cluster names, see the Hosts page on the Ambari Web UI. È anche possibile usare il codice seguente per restituire un elenco di host dall'API REST Ambari:You can also use the following to return a list of hosts from the Ambari REST API:

curl -u admin -G "https://CLUSTERNAME.azurehdinsight.net/api/v1/clusters/CLUSTERNAME/hosts" | jq '.items[].Hosts.host_name'

Sostituire CLUSTERNAME con il nome del cluster.Replace CLUSTERNAME with the name of your cluster. Quando richiesto, immettere la password per l'account amministratore.When prompted, enter the password for the admin account. Questo comando restituisce un documento JSON che contiene un elenco degli host nel cluster.This command returns a JSON document that contains a list of the hosts in the cluster. Jq viene usato per estrarre il valore dell'elemento host_name per ogni host.Jq is used to extract the host_name element value for each host.

Se è necessario trovare il nome del nodo per un servizio specifico, è possibile eseguire una query in Ambari per tale componente.If you need to find the name of the node for a specific service, you can query Ambari for that component. Ad esempio, per trovare gli host per il nodo con nome HDFS, usare il comando seguente:For example, to find the hosts for the HDFS name node, use the following command:

curl -u admin -G "https://CLUSTERNAME.azurehdinsight.net/api/v1/clusters/CLUSTERNAME/services/HDFS/components/NAMENODE" | jq '.host_components[].HostRoles.host_name'

Questo comando restituisce un documento JSON che descrive il servizio e quindi jq estrae solo il valore host_name per gli host.This command returns a JSON document describing the service, and then jq pulls out only the host_name value for the hosts.

Accesso remoto ai serviziRemote access to services

  • Ambari (Web): https://<nomecluster>.azurehdinsight.netAmbari (web) - https://<clustername>.azurehdinsight.net

    Eseguire l'autenticazione usando il nome utente e la password di amministratore cluster, quindi accedere ad Ambari.Authenticate by using the cluster administrator user and password, and then log in to Ambari.

    L'autenticazione è in testo non crittografato. Usare sempre HTTPS per garantire che la connessione sia protetta.Authentication is plaintext - always use HTTPS to help ensure that the connection is secure.

    Importante

    Alcune delle interfacce utente Web disponibili tramite Ambari hanno accesso ai nodi tramite un nome di dominio interno.Some of the web UIs available through Ambari access nodes using an internal domain name. I nomi di dominio interno non sono accessibili al pubblico da Internet.Internal domain names are not publicly accessible over the internet. È possibile ricevere errori di "server non trovato" se si tenta di accedere ad alcune funzionalità tramite Internet.You may receive "server not found" errors when trying to access some features over the Internet.

    Per usare le funzionalità complete dell'interfaccia utente Web di Ambari, usare un tunnel SSH per inoltrare il traffico Web al nodo head del cluster.To use the full functionality of the Ambari web UI, use an SSH tunnel to proxy web traffic to the cluster head node. Vedere Usare il tunneling SSH per accedere all'interfaccia Web di Ambari, ResourceManager, JobHistory, NameNode, Oozie e altre interfacce WebSee Use SSH Tunneling to access Ambari web UI, ResourceManager, JobHistory, NameNode, Oozie, and other web UIs

  • Ambari (REST): https://<nomecluster>.azurehdinsight.net/ambariAmbari (REST) - https://<clustername>.azurehdinsight.net/ambari

    Nota

    Eseguire l'autenticazione usando il nome utente e la password di amministratore cluster.Authenticate by using the cluster administrator user and password.

    L'autenticazione è in testo non crittografato. Usare sempre HTTPS per garantire che la connessione sia protetta.Authentication is plaintext - always use HTTPS to help ensure that the connection is secure.

  • WebHCat (Templeton): https://<nomecluster>.azurehdinsight.net/templetonWebHCat (Templeton) - https://<clustername>.azurehdinsight.net/templeton

    Nota

    Eseguire l'autenticazione usando il nome utente e la password di amministratore cluster.Authenticate by using the cluster administrator user and password.

    L'autenticazione è in testo non crittografato. Usare sempre HTTPS per garantire che la connessione sia protetta.Authentication is plaintext - always use HTTPS to help ensure that the connection is secure.

  • SSH - <nome cluster>-ssh.azurehdinsight.net sulla porta 22 o 23.SSH - <clustername>-ssh.azurehdinsight.net on port 22 or 23. La porta 22 viene utilizzata per connettersi al nodo head primario, mentre la porta 23 viene utilizzata per connettersi a quello secondario.Port 22 is used to connect to the primary headnode, while 23 is used to connect to the secondary. Per maggiori informazioni sui nodi head, vedere Disponibilità e affidabilità dei cluster Hadoop in HDInsight.For more information on the head nodes, see Availability and reliability of Hadoop clusters in HDInsight.

    Nota

    È possibile accedere al nodo head del cluster solo tramite SSH da un computer client.You can only access the cluster head nodes through SSH from a client machine. Una volta connessi, è quindi possibile accedere ai nodi di lavoro mediante SSH da un nodo head.Once connected, you can then access the worker nodes by using SSH from a headnode.

Per altre informazioni, vedere il documento Porte usate dai servizi Hadoop su HDInsight.For more information, see the Ports used by Hadoop services on HDInsight document.

Percorsi dei fileFile locations

I file relativi ad Hadoop si trovano nei nodi del cluster in /usr/hdp.Hadoop-related files can be found on the cluster nodes at /usr/hdp. La directory contiene le sottodirectory seguenti:This directory contains the following subdirectories:

  • 2.2.4.9-1: il nome della directory è la versione di Hortonworks Data Platform usata da HDInsight.2.2.4.9-1: The directory name is the version of the Hortonworks Data Platform used by HDInsight. Il numero nel cluster può essere diverso da quello elencato di seguito.The number on your cluster may be different than the one listed here.
  • current: questa directory contiene collegamenti alle sottodirectory nella directory 2.2.4.9-1.current: This directory contains links to subdirectories under the 2.2.4.9-1 directory. Questa directory esiste in modo da non dover ricordare il numero di versione.This directory exists so that you don't have to remember the version number.

I dati di esempio e i file con estensione jar sono disponibili nel file system Hadoop Distributed File System (HDFS) in /example e /HdiSamplesExample data and JAR files can be found on Hadoop Distributed File System at /example and /HdiSamples

HDFS, Archiviazione di Azure e Data Lake StoreHDFS, Azure Storage, and Data Lake Store

Nella maggior parte delle distribuzioni di Hadoop, il file system HDFS è supportato dall'archiviazione locale nei computer del cluster.In most Hadoop distributions, HDFS is backed by local storage on the machines in the cluster. L'uso di sistema locale può essere costoso per una soluzione basata su cloud dove viene addebitata una tariffa oraria o al minuto per le risorse di calcolo.Using local storage can be costly for a cloud-based solution where you are charged hourly or by minute for compute resources.

HDInsight usa i BLOB in Archiviazione di Azure o Azure Data Lake Store come archivio predefinito.HDInsight uses either blobs in Azure Storage or Azure Data Lake Store as the default store. Questo servizio offre i seguenti vantaggi:These services provide the following benefits:

  • Archiviazione a lungo termine economicaCheap long-term storage
  • Accessibilità da servizi esterni, ad esempio siti Web, utilità di caricamento e download di file, SDK di linguaggi diversi e Web browserAccessibility from external services such as websites, file upload/download utilities, various language SDKs, and web browsers

Un account di Archiviazione di Azure può contenere fino a 4,75 TB, anche se ogni BLOB (o file, da una prospettiva HDInsight) può arrivare fino a 195 GB.An Azure Storage account can hold up to 4.75 TB, though individual blobs (or files from an HDInsight perspective) can only go up to 195 GB. Azure Data Lake Store è scalabile in modo dinamico fino a contenere miliardi di file, con singoli file di dimensioni superiori a petabyte.Azure Data Lake Store can grow dynamically to hold trillions of files, with individual files greater than a petabyte. Per altre informazioni, leggere gli articoli di approfondimento sui BLOB e su Data Lake Store.For more information, see Understanding blobs and Data Lake Store.

Quando si usa Archiviazione di Azure o Data Lake Store, non è necessario eseguire alcuna operazione speciale da HDInsight per accedere ai dati.When using either Azure Storage or Data Lake Store, you don't have to do anything special from HDInsight to access the data. Ad esempio, il comando seguente elenca i file della cartella /example/data, indipendentemente dal fatto che sia disponibile in Archiviazione di Azure o in Data Lake Store:For example, the following command lists files in the /example/data folder regardless of whether it is stored on Azure Storage or Data Lake Store:

hdfs dfs -ls /example/data

URI e schemaURI and scheme

Alcuni comandi richiedono di specificare lo schema come parte dell'URI quando si accede a un file.Some commands may require you to specify the scheme as part of the URI when accessing a file. Ad esempio, il componente Storm-HDFS richiede di specificare lo schema.For example, the Storm-HDFS component requires you to specify the scheme. Quando si usa un archivio non predefinito (aggiunto al cluster come spazio di archiviazione "aggiuntivo"), è sempre necessario usare lo schema come parte dell'URI.When using non-default storage (storage added as "additional" storage to the cluster), you must always use the scheme as part of the URI.

Quando si usa Archiviazione di Azure, usare uno degli schemi URI seguenti:When using Azure Storage, use one of the following URI schemes:

  • wasb:///: per accedere allo spazio di archiviazione predefinito usando la comunicazione non crittografata.wasb:///: Access default storage using unencrypted communication.

  • wasbs:///: per accedere allo spazio di archiviazione predefinito usando la comunicazione crittografata.wasbs:///: Access default storage using encrypted communication. Lo schema wasbs è supportato solo da HDInsight versione 3.6 in poi.The wasbs scheme is supported only from HDInsight version 3.6 onwards.

  • wasb://<container-name>@<account-name>.blob.core.windows.net/: usato durante la comunicazione con un account di archiviazione non predefinito,wasb://<container-name>@<account-name>.blob.core.windows.net/: Used when communicating with a non-default storage account. ad esempio quando si dispone di un account di archiviazione aggiuntivo o quando si accede a dati archiviati in un account di archiviazione pubblicamente accessibile.For example, when you have an additional storage account or when accessing data stored in a publicly accessible storage account.

Quando si usa Data Lake Store, usare uno degli schemi URI seguenti:When using Data Lake Store, use one of the following URI schemes:

  • adl:///: per accedere all' archivio Data Lake predefinito per il cluster.adl:///: Access the default Data Lake Store for the cluster.

  • adl://<storage-name>.azuredatalakestore.net/: usato durante la comunicazione con un Data Lake Store non predefinito.adl://<storage-name>.azuredatalakestore.net/: Used when communicating with a non-default Data Lake Store. Usato anche per accedere ai dati all'esterno della directory radice del cluster HDInsight.Also used to access data outside the root directory of your HDInsight cluster.

Importante

Quando si usa Data Lake Store come archivio predefinito per HDInsight, è necessario specificare un percorso all'interno dell'archivio da usare come radice per l'archiviazione HDInsight.When using Data Lake Store as the default store for HDInsight, you must specify a path within the store to use as the root of HDInsight storage. Il percorso predefinito è /clusters/<cluster-name>/.The default path is /clusters/<cluster-name>/.

Quando si usa / o adl:/// per accedere ai dati, è possibile accedere solo ai dati memorizzati nella directory radice del cluster, ad esempio /clusters/<cluster-name>/.When using / or adl:/// to access data, you can only access data stored in the root (for example, /clusters/<cluster-name>/) of the cluster. Per accedere ai dati in un punto qualsiasi dell'archivio, usare il formato adl://<storage-name>.azuredatalakestore.net/.To access data anywhere in the store, use the adl://<storage-name>.azuredatalakestore.net/ format.

Archivio usato dal clusterWhat storage is the cluster using

Ambari consente di recuperare le informazioni relative alla configurazione di archiviazione predefinita per il cluster.You can use Ambari to retrieve the default storage configuration for the cluster. Usare il comando seguente per recuperare le informazioni di configurazione HDFS tramite curl e filtrarle tramite jq:Use the following command to retrieve HDFS configuration information using curl, and filter it using jq:

curl -u admin -G "https://CLUSTERNAME.azurehdinsight.net/api/v1/clusters/CLUSTERNAME/configurations/service_config_versions?service_name=HDFS&service_config_version=1" | jq '.items[].configurations[].properties["fs.defaultFS"] | select(. != null)'

Nota

Questo comando restituisce la prima configurazione applicata al server (service_config_version=1) che contiene queste informazioni.This command returns the first configuration applied to the server (service_config_version=1), which contains this information. Potrebbe essere necessario elencare tutte le versioni di configurazione per trovare quella più recente.You may need to list all configuration versions to find the latest one.

Il comando restituisce un valore simile all'URI seguente:This command returns a value similar to the following URIs:

  • wasb://<container-name>@<account-name>.blob.core.windows.net se si usa un account di archiviazione di Azure.wasb://<container-name>@<account-name>.blob.core.windows.net if using an Azure Storage account.

    Il nome dell'account è il nome dell'account di archiviazione di Azure.The account name is the name of the Azure Storage account. Il nome del contenitore è il contenitore BLOB che è la radice dell'archiviazione cluster.The container name is the blob container that is the root of the cluster storage.

  • adl://home se si usa Azure Data Lake Store.adl://home if using Azure Data Lake Store. Per recuperare il nome dell'archivio Data Lake, usare la chiamata REST seguente:To get the Data Lake Store name, use the following REST call:

    curl -u admin -G "https://CLUSTERNAME.azurehdinsight.net/api/v1/clusters/CLUSTERNAME/configurations/service_config_versions?service_name=HDFS&service_config_version=1" | jq '.items[].configurations[].properties["dfs.adls.home.hostname"] | select(. != null)'

    Questo comando restituisce il nome host seguente: <data-lake-store-account-name>.azuredatalakestore.net.This command returns the following host name: <data-lake-store-account-name>.azuredatalakestore.net.

    Per recuperare la directory che nell'archivio è la radice di HDInsight, usare la chiamata REST seguente:To get the directory within the store that is the root for HDInsight, use the following REST call:

    curl -u admin -G "https://CLUSTERNAME.azurehdinsight.net/api/v1/clusters/CLUSTERNAME/configurations/service_config_versions?service_name=HDFS&service_config_version=1" | jq '.items[].configurations[].properties["dfs.adls.home.mountpoint"] | select(. != null)'

    Il comando restituisce un percorso simile al seguente: /clusters/<hdinsight-cluster-name>/.This command returns a path similar to the following path: /clusters/<hdinsight-cluster-name>/.

Per individuare le informazioni di archiviazione usando il portale di Azure, seguire questa procedura:You can also find the storage information using the Azure portal by using the following steps:

  1. Nel portale di Azureselezionare il cluster HDInsight.In the Azure portal, select your HDInsight cluster.

  2. Nella sezione Proprietà selezionare Account di archiviazione.From the Properties section, select Storage Accounts. Vengono visualizzate le informazioni di archiviazione del cluster.The storage information for the cluster is displayed.

Come accedere ai file dall'esterno di HDInsightHow do I access files from outside HDInsight

Esistono vari modi per accedere ai dati dall'esterno del cluster HDInsight.There are a various ways to access data from outside the HDInsight cluster. Di seguito sono indicati alcuni collegamenti a utilità e SDK da usare per lavorare con i dati:The following are a few links to utilities and SDKs that can be used to work with your data:

Se si usa Archiviazione di Azure, vedere i collegamenti seguenti per informazioni sulle modalità di accesso ai dati:If using Azure Storage, see the following links for ways that you can access your data:

Se si usa Azure Data Lake Store, vedere i collegamenti seguenti per informazioni sulle modalità di accesso ai dati:If using Azure Data Lake Store, see the following links for ways that you can access your data:

Ridimensionamento del clusterScaling your cluster

La funzionalità di ridimensionamento del cluster consente di modificare il numero di nodi dati usati da un cluster in modo dinamico.The cluster scaling feature allows you to dynamically change the number of data nodes used by a cluster. È possibile eseguire operazioni di ridimensionamento mentre altri processi sono in esecuzione nel cluster.You can perform scaling operations while other jobs or processes are running on a cluster.

L'operazione di ridimensionamento può influire sui tipi di cluster come indicato di seguito:The different cluster types are affected by scaling as follows:

  • Hadoop: durante la riduzione del numero di nodi in un cluster, alcuni servizi nel cluster vengono riavviati.Hadoop: When scaling down the number of nodes in a cluster, some of the services in the cluster are restarted. È quindi possibile che al termine dell'operazione di ridimensionamento, i processi in esecuzione o in sospeso abbiano esito negativo.Scaling operations can cause jobs running or pending to fail at the completion of the scaling operation. In questo caso, inviare nuovamente i processi una volta completata l'operazione.You can resubmit the jobs once the operation is complete.
  • HBase: i server a livello di area vengono bilanciati automaticamente entro pochi minuti dal completamento dell'operazione di ridimensionamento.HBase: Regional servers are automatically balanced within a few minutes, once the scaling operation completes. Per bilanciare manualmente i server a livello di area, seguire questa procedura:To manually balance regional servers, use the following steps:

    1. Connettersi al cluster HDInsight tramite SSH.Connect to the HDInsight cluster using SSH. Per altre informazioni, vedere Usare SSH con HDInsight.For more information, see Use SSH with HDInsight.

    2. Usare il codice seguente per avviare la shell HBase:Use the following to start the HBase shell:

       hbase shell
      
    3. Una volta caricata la shell HBase, usare il codice seguente per bilanciare manualmente i server a livello di area:Once the HBase shell has loaded, use the following to manually balance the regional servers:

       balancer
      
  • Storm: al termine dell'operazione di ridimensionamento, ribilanciare qualsiasi topologia Storm in esecuzione.Storm: You should rebalance any running Storm topologies after a scaling operation has been performed. Il ridimensionamento consente alla topologia di rettificare le impostazioni di parallelismo in base al nuovo numero di nodi nel cluster.Rebalancing allows the topology to readjust parallelism settings based on the new number of nodes in the cluster. Per ribilanciare le topologie in esecuzione, usare una delle opzioni seguenti:To rebalance running topologies, use one of the following options:

    • SSH: connettersi al server e usare il comando seguente per ribilanciare una topologia:SSH: Connect to the server and use the following command to rebalance a topology:

        storm rebalance TOPOLOGYNAME
      

      È anche possibile specificare parametri per eseguire l'override degli hint di parallelismo forniti in origine dalla topologia.You can also specify parameters to override the parallelism hints originally provided by the topology. Ad esempio, storm rebalance mytopology -n 5 -e blue-spout=3 -e yellow-bolt=10 riconfigura la topologia con 5 processi di lavoro, 3 esecutori per il componente blue-spout e 10 esecutori per il componente yellow-bolt.For example, storm rebalance mytopology -n 5 -e blue-spout=3 -e yellow-bolt=10 reconfigures the topology to 5 worker processes, 3 executors for the blue-spout component, and 10 executors for the yellow-bolt component.

    • Interfaccia utente Storm: usare la procedura seguente per ribilanciare una topologia usando l'interfaccia utente Storm.Storm UI: Use the following steps to rebalance a topology using the Storm UI.

      1. Aprire https://CLUSTERNAME.azurehdinsight.net/stormui nel Web browser, dove CLUSTERNAME corrisponde al nome del cluster Storm.Open https://CLUSTERNAME.azurehdinsight.net/stormui in your web browser, where CLUSTERNAME is the name of your Storm cluster. Se richiesto, immettere il nome amministratore (admin) del cluster HDInsight e la password specificata durante la creazione del cluster.If prompted, enter the HDInsight cluster administrator (admin) name and password you specified when creating the cluster.
      2. Selezionare la topologia da ribilanciare e quindi fare clic sul pulsante Rebalance (Ribilancia).Select the topology you wish to rebalance, then select the Rebalance button. Specificare il ritardo prima dell'esecuzione dell'operazione di ribilanciamento.Enter the delay before the rebalance operation is performed.
  • Kafka: è consigliabile ribilanciare le repliche di una partizione dopo le operazioni di ridimensionamento.Kafka: You should rebalance partition replicas after scaling operations. Per altre informazioni, vedere il documento Disponibilità elevata dei dati con Kafka in HDInsight.For more information, see the High availability of data with Kafka on HDInsight document.

Per informazioni specifiche sul ridimensionamento del cluster HDInsight, vedere:For specific information on scaling your HDInsight cluster, see:

Come si installa Hue (o un altro componente Hadoop)?How do I install Hue (or other Hadoop component)?

HDInsight è un servizio gestito.HDInsight is a managed service. Se Azure rileva un problema con il cluster, è possibile eliminare il nodo con l'errore e creare un nodo per sostituirlo.If Azure detects a problem with the cluster, it may delete the failing node and create a node to replace it. Se si esegue l'installazione manuale degli elementi nel cluster, questi non vengono salvati in modo permanente quando si esegue questa operazione.If you manually install things on the cluster, they are not persisted when this operation occurs. Usare invece le azioni script di HDInsight.Instead, use HDInsight Script Actions. Un'azione script può essere usata per apportare le modifiche seguenti:A script action can be used to make the following changes:

  • Installare e configurare un servizio o un sito Web.Install and configure a service or web site.
  • Installare o configurare un componente che richiede modifiche di configurazione in più nodi del cluster,Install and configure a component that requires configuration changes on multiple nodes in the cluster.

Le azioni script sono script Bash.Script Actions are Bash scripts. Gli script vengono eseguiti durante la creazione del cluster e possono essere usati per installare e configurare componenti aggiuntivi.The scripts run during cluster creation, and are used to install and configure additional components. Sono disponibili script di esempio per installare i componenti seguenti:Example scripts are provided for installing the following components:

Per informazioni su come sviluppare azioni script personalizzate, vedere Sviluppo di azioni script con HDInsight.For information on developing your own Script Actions, see Script Action development with HDInsight.

File con estensione jarJar files

Alcune tecnologie Hadoop vengono fornite in file con estensione jar indipendenti contenenti funzioni usate come parte di un processo MapReduce o dall'interno di Pig o Hive.Some Hadoop technologies are provided in self-contained jar files that contain functions used as part of a MapReduce job, or from inside Pig or Hive. Spesso non richiedono alcuna installazione e possono essere caricate nel cluster dopo la creazione e usate direttamente.They often don't require any setup, and can be uploaded to the cluster after creation and used directly. Per assicurarsi che il componente venga mantenuto dopo la nuova creazione dell'immagine del cluster, è possibile archiviare il file nella risorsa di archiviazione predefinita per il cluster (WASB o ADL).If you want to make sure the component survives reimaging of the cluster, you can store the jar file in the default storage for your cluster (WASB or ADL).

Se ad esempio si desidera usare l'ultima versione di DataFu, è possibile scaricare un file con estensione jar contenente il progetto e caricarlo nel cluster HDInsight.For example, if you want to use the latest version of DataFu, you can download a jar containing the project and upload it to the HDInsight cluster. Seguire quindi la documentazione di DataFu per informazioni sull'uso da Pig o Hive.Then follow the DataFu documentation on how to use it from Pig or Hive.

Importante

Alcuni componenti che sono file con estensione jar autonomi vengono forniti con HDInsight, ma non sono presenti nel percorso.Some components that are standalone jar files are provided with HDInsight, but are not in the path. Se si desidera un componente specifico, è possibile usare il comando seguente per cercarlo nel cluster:If you are looking for a specific component, you can use the follow to search for it on your cluster:

find / -name *componentname*.jar 2>/dev/null

Viene restituito il percorso dei file con estensione jar corrispondenti.This command returns the path of any matching jar files.

Per usare una versione diversa di un componente, caricare la versione desiderata e usarla nei processi.To use a different version of a component, upload the version you need and use it in your jobs.

Avviso

I componenti forniti con il cluster HDInsight sono supportati in modo completo e il supporto tecnico Microsoft contribuirà a isolare e risolvere i problemi correlati a questi componenti.Components provided with the HDInsight cluster are fully supported and Microsoft Support helps to isolate and resolve issues related to these components.

I componenti personalizzati ricevono supporto commercialmente ragionevole per semplificare la risoluzione dei problemi.Custom components receive commercially reasonable support to help you to further troubleshoot the issue. È possibile che si ottenga la risoluzione dei problemi o che venga richiesto di usare i canali disponibili per le tecnologie open source, in cui è possibile ottenere supporto approfondito per la tecnologia specifica.This might result in resolving the issue OR asking you to engage available channels for the open source technologies where deep expertise for that technology is found. È ad esempio possibile ricorrere a molti siti di community, come il forum MSDN per HDInsight o http://stackoverflow.com. Per i progetti Apache sono anche disponibili siti specifici in http://apache.org, ad esempio Hadoop e Spark.For example, there are many community sites that can be used, like: MSDN forum for HDInsight, http://stackoverflow.com. Also Apache projects have project sites on http://apache.org, for example: Hadoop, Spark.

Passaggi successiviNext steps