Informações sobre o uso do HDInsight no LinuxInformation about using HDInsight on Linux

Os clusters do Azure HDInsight disponibilizam o Apache Hadoop em um ambiente Linux conhecido, em execução na nuvem do Azure.Azure HDInsight clusters provide Apache Hadoop on a familiar Linux environment, running in the Azure cloud. Para a maioria da coisas, ele deve funcionar exatamente como qualquer outra instalação do Hadoop no Linux.For most things, it should work exactly as any other Hadoop-on-Linux installation. Este documento indica diferenças específicas que você deve estar atento.This document calls out specific differences that you should be aware of.

pré-requisitosPrerequisites

Muitas das etapas neste documento usam os seguintes utilitários, que talvez precisem ser instalados em seu sistema.Many of the steps in this document use the following utilities, which may need to be installed on your system.

UsuáriosUsers

A menos que tenha ingressado no domínio, o HDInsight deve ser considerado como um sistema de usuário único.Unless domain-joined, HDInsight should be considered a single-user system. Uma única conta de usuário do SSH é criada com o cluster, com permissões de nível de administrador.A single SSH user account is created with the cluster, with administrator level permissions. As contas SSH adicionais podem ser criadas, mas elas também têm acesso de administrador para o cluster.Additional SSH accounts can be created, but they also have administrator access to the cluster.

O domínio HDInsight dá suporte para vários usuários e configurações de função e de permissão mais granulares.Domain-joined HDInsight supports multiple users and more granular permission and role settings. Para obter mais informações, consulte Gerenciar clusters HDInsight ingressados em domínio.For more information, see Manage Domain-joined HDInsight clusters.

Nomes de domínioDomain names

O FQDN (nome de domínio totalmente qualificado) a ser usado ao conectar-se ao cluster da Internet é CLUSTERNAME.azurehdinsight.net ou CLUSTERNAME-ssh.azurehdinsight.net (somente para SSH).The fully qualified domain name (FQDN) to use when connecting to the cluster from the internet is CLUSTERNAME.azurehdinsight.net or CLUSTERNAME-ssh.azurehdinsight.net (for SSH only).

Internamente, cada nó no cluster tem um nome que é atribuído durante a configuração do cluster.Internally, each node in the cluster has a name that is assigned during cluster configuration. Para localizar os nomes dos clusters, consulte a página Hosts na interface do usuário do Ambari Web.To find the cluster names, see the Hosts page on the Ambari Web UI. Para retornar uma lista de hosts da API REST do Ambari, você também pode usar o seguinte:You can also use the following to return a list of hosts from the Ambari REST API:

curl -u admin -G "https://CLUSTERNAME.azurehdinsight.net/api/v1/clusters/CLUSTERNAME/hosts" | jq '.items[].Hosts.host_name'

Substitua CLUSTERNAME pelo nome do cluster.Replace CLUSTERNAME with the name of your cluster. Quando solicitado, insira a senha para a conta do administrador.When prompted, enter the password for the admin account. Este comando retorna ao documento JSON que contém uma lista de hosts do cluster.This command returns a JSON document that contains a list of the hosts in the cluster. JQ é usado para extrair o valor do elemento host_name para cada host.jq is used to extract the host_name element value for each host.

Se for necessário localizar o nome do nó para um serviço específico, você pode consultar o Ambari desse componente.If you need to find the name of the node for a specific service, you can query Ambari for that component. Por exemplo, para localizar os hosts do nó do nome HDFS, use o seguinte comando:For example, to find the hosts for the HDFS name node, use the following command:

curl -u admin -G "https://CLUSTERNAME.azurehdinsight.net/api/v1/clusters/CLUSTERNAME/services/HDFS/components/NAMENODE" | jq '.host_components[].HostRoles.host_name'

Esse comando retorna um documento JSON que descreve o serviço e, em seguida, JQ extrai apenas o valor host_name para os hosts.This command returns a JSON document describing the service, and then jq pulls out only the host_name value for the hosts.

Acesso remoto aos serviçosRemote access to services

  • Ambari (Web) - https://CLUSTERNAME.azurehdinsight.netAmbari (web) - https://CLUSTERNAME.azurehdinsight.net

    Autentique usando o usuário e a senha do administrador de cluster e, em seguida, entre no Ambari.Authenticate by using the cluster administrator user and password, and then sign in to Ambari.

    A autenticação é texto sem formatação - sempre usar HTTPS para ajudar a garantir que a conexão seja segura.Authentication is plaintext - always use HTTPS to help ensure that the connection is secure.

    Importante

    Algumas das interfaces do usuário da web disponíveis por meio de dos nós de acesso do Ambari usando um nome de domínio interno.Some of the web UIs available through Ambari access nodes using an internal domain name. Nomes de domínio internos não são acessíveis publicamente na Internet.Internal domain names are not publicly accessible over the internet. Você poderá receber erros de "servidor não encontrado" ao tentar acessar alguns recursos pela Internet.You may receive "server not found" errors when trying to access some features over the Internet.

    Para usar a funcionalidade completa da interface do usuário do Ambari Web, use um túnel SSH para tráfego Web de proxy para nó de cabeçalho do cluster.To use the full functionality of the Ambari web UI, use an SSH tunnel to proxy web traffic to the cluster head node. Consulte Usar Túnel SSH para acessar a interface do usuário da Web do Apache Ambari, ResourceManager, JobHistory, NameNode, Oozie e outras interfaces do usuário da WebSee Use SSH Tunneling to access Apache Ambari web UI, ResourceManager, JobHistory, NameNode, Oozie, and other web UIs

  • Ambari (REST) - https://CLUSTERNAME.azurehdinsight.net/ambariAmbari (REST) - https://CLUSTERNAME.azurehdinsight.net/ambari

    Observação

    Autentique usando o usuário e a senha de administrador do cluster.Authenticate by using the cluster administrator user and password.

    A autenticação é texto sem formatação - sempre usar HTTPS para ajudar a garantir que a conexão seja segura.Authentication is plaintext - always use HTTPS to help ensure that the connection is secure.

  • WebHCat (Templeton) - https://CLUSTERNAME.azurehdinsight.net/templetonWebHCat (Templeton) - https://CLUSTERNAME.azurehdinsight.net/templeton

    Observação

    Autentique usando o usuário e a senha de administrador do cluster.Authenticate by using the cluster administrator user and password.

    A autenticação é texto sem formatação - sempre usar HTTPS para ajudar a garantir que a conexão seja segura.Authentication is plaintext - always use HTTPS to help ensure that the connection is secure.

  • SSH -CLUSTERNAME-SSH.azurehdinsight.net na porta 22 ou 23.SSH - CLUSTERNAME-ssh.azurehdinsight.net on port 22 or 23. A porta 22 é usada para a conexão com o nó de cabeçalho primário, enquanto a 23 é usada para a conexão com o secundário.Port 22 is used to connect to the primary headnode, while 23 is used to connect to the secondary. Para obter mais informações sobre os nós de cabeçalho, consulte Disponibilidade e confiabilidade de clusters do Apache Hadoop no HDInsight.For more information on the head nodes, see Availability and reliability of Apache Hadoop clusters in HDInsight.

    Observação

    Você só pode acessar os nós de cabeçalho do cluster por meio de SSH de uma máquina cliente.You can only access the cluster head nodes through SSH from a client machine. Uma vez conectado, você pode acessar os nós de trabalho usando SSH em um nó de cabeçalho.Once connected, you can then access the worker nodes by using SSH from a headnode.

Para obter mais informações, consulte o documento Portas usadas pelos serviços do Apache Hadoop no HDInsight.For more information, see the Ports used by Apache Hadoop services on HDInsight document.

Locais de arquivosFile locations

Arquivos relacionados ao Hadoop encontram-se nos nós de cluster em /usr/hdp.Hadoop-related files can be found on the cluster nodes at /usr/hdp. O diretório raiz contém os seguintes subdiretórios:This directory contains the following subdirectories:

  • 2.6.5.3009-43: o nome do diretório é a versão da plataforma Hadoop usada pelo HDInsight.2.6.5.3009-43: The directory name is the version of the Hadoop platform used by HDInsight. O número em seu cluster pode ser diferente do listado aqui.The number on your cluster may be different than the one listed here.
  • atual: esse diretório contém links para subdiretórios no diretório 2.6.5.3009-43 .current: This directory contains links to subdirectories under the 2.6.5.3009-43 directory. Esse diretório existe para que não seja necessário lembrar do número da versão.This directory exists so that you don't have to remember the version number.

Dados de exemplo e arquivos JAR podem ser encontrados no Sistema de Arquivos Distribuído Hadoop em /example e /HdiSamples.Example data and JAR files can be found on Hadoop Distributed File System at /example and /HdiSamples.

HDFS, Armazenamento do Azure e Data Lake StorageHDFS, Azure Storage, and Data Lake Storage

Na maioria das distribuições do Hadoop, os dados são armazenados em HDFS, que tem suporte pelo armazenamento local nos computadores no cluster.In most Hadoop distributions, the data is stored in HDFS, which is backed by local storage on the machines in the cluster. O uso do armazenamento local pode ser dispendioso para uma solução baseada em nuvem, na qual você é cobrado por hora ou por minuto para recursos de computação.Using local storage can be costly for a cloud-based solution where you're charged hourly or by minute for compute resources.

Ao usar o HDInsight, os arquivos de dados são armazenados de maneira escalonável e resiliente na nuvem usando o Armazenamento de Blobs do Azure e, opcionalmente, o Azure Data Lake Storage.When using HDInsight, the data files are stored in a scalable and resilient way in the cloud using Azure Blob Storage and optionally Azure Data Lake Storage. Esses serviços oferecem os seguintes benefícios:These services provide the following benefits:

  • Armazenamento de longo prazo econômico.Cheap long-term storage.
  • Acessibilidade de serviços externos como sites, utilitários de upload/download de arquivos, vários SDKs de idioma e navegadores da Web.Accessibility from external services such as websites, file upload/download utilities, various language SDKs, and web browsers.
  • Grande capacidade de arquivos e grande armazenamento escalonável.Large file capacity and large scalable storage.

Para saber mais, confira Noções básicas sobre blobs e Data Lake Storage.For more information, see Understanding blobs and Data Lake Storage.

Ao usar o Armazenamento do Azure ou o Data Lake Storage, você não precisará fazer nada especial no HDInsight para acessar os dados.When using either Azure Storage or Data Lake Storage, you don't have to do anything special from HDInsight to access the data. Por exemplo, o comando a seguir lista os arquivos na pasta /example/data, independentemente de estar armazenado no armazenamento do Azure ou Data Lake Storage:For example, the following command lists files in the /example/data folder regardless of whether it's stored on Azure Storage or Data Lake Storage:

hdfs dfs -ls /example/data

No HDInsight, os recursos de armazenamento de dados (Armazenamento de Blobs do Azure e Azure Data Lake Storage) são separados dos recursos de computação.In HDInsight, the data storage resources (Azure Blob Storage and Azure Data Lake Storage) are decoupled from compute resources. Portanto, é possível criar clusters do HDInsight para fazer cálculos conforme necessário e, posteriormente, excluir o cluster quando o trabalho estiver concluído, mantendo os arquivos de dados persistentemente em segurança no armazenamento em nuvem, enquanto for necessário.Therefore, you can create HDInsight clusters to do computation as you need, and later delete the cluster when the work is finished, meanwhile keeping your data files persisted safely in cloud storage as long as you need.

URI e esquemaURI and scheme

Alguns comandos podem exigir que você especifique o esquema como parte do URI ao acessar um arquivo.Some commands may require you to specify the scheme as part of the URI when accessing a file. Por exemplo, o componente de Storm HDFS requer que o esquema seja especificado.For example, the Storm-HDFS component requires you to specify the scheme. Ao usar um armazenamento não padrão (armazenamento incluído como “adicional” ao cluster), você sempre deve usar o esquema como parte do URI.When using non-default storage (storage added as "additional" storage to the cluster), you must always use the scheme as part of the URI.

Ao usar o armazenamento do Azure, use um dos seguintes esquemas de URI:When using Azure Storage, use one of the following URI schemes:

  • wasb:///: acessar o armazenamento padrão usando comunicação não criptografada.wasb:///: Access default storage using unencrypted communication.

  • wasbs:///: acessar o armazenamento padrão usando comunicação criptografada.wasbs:///: Access default storage using encrypted communication. O esquema wasbs tem suporte somente da versão 3.6 do HDInsight em diante.The wasbs scheme is supported only from HDInsight version 3.6 onwards.

  • wasb://<container-name>@<account-name>.blob.core.windows.net/: usado ao se comunicar com uma conta de armazenamento não padrão.wasb://<container-name>@<account-name>.blob.core.windows.net/: Used when communicating with a non-default storage account. Por exemplo, se você tiver uma conta de armazenamento adicional ou ao acessar dados armazenados em uma conta de armazenamento com acesso público.For example, when you have an additional storage account or when accessing data stored in a publicly accessible storage account.

Ao usar Azure data Lake Storage Gen2, use o seguinte esquema de URI:When using Azure Data Lake Storage Gen2, use the following URI scheme:

  • abfs://: acessar o armazenamento padrão usando comunicação criptografada.abfs://: Access default storage using encrypted communication.

  • abfs://<container-name>@<account-name>.dfs.core.windows.net/: usado ao se comunicar com uma conta de armazenamento não padrão.abfs://<container-name>@<account-name>.dfs.core.windows.net/: Used when communicating with a non-default storage account. Por exemplo, se você tiver uma conta de armazenamento adicional ou ao acessar dados armazenados em uma conta de armazenamento com acesso público.For example, when you have an additional storage account or when accessing data stored in a publicly accessible storage account.

Ao usar Azure data Lake Storage Gen1, use um dos seguintes esquemas de URI:When using Azure Data Lake Storage Gen1, use one of the following URI schemes:

  • adl:///: acessar o Data Lake Storage padrão para o cluster.adl:///: Access the default Data Lake Storage for the cluster.

  • adl://<storage-name>.azuredatalakestore.net/: utilizado ao se comunicar com uma conta do Data Lake Storage não padrão.adl://<storage-name>.azuredatalakestore.net/: Used when communicating with a non-default Data Lake Storage. Também é utilizado para acessar dados fora do diretório raíz do seu cluster HDInsight.Also used to access data outside the root directory of your HDInsight cluster.

Importante

Ao usar o Data Lake Storage como o repositório padrão para o HDInsight, você deve especificar um caminho dentro do repositório para usar como a raiz de armazenamento do HDInsight.When using Data Lake Storage as the default store for HDInsight, you must specify a path within the store to use as the root of HDInsight storage. O caminho padrão é /clusters/<cluster-name>/.The default path is /clusters/<cluster-name>/.

Ao usar / ou adl:/// para acessar dados, você só pode acessar dados armazenados na raiz (por exemplo, /clusters/<cluster-name>/) do cluster.When using / or adl:/// to access data, you can only access data stored in the root (for example, /clusters/<cluster-name>/) of the cluster. Para acessar dados em qualquer lugar do repositório, use o formato adl://<storage-name>.azuredatalakestore.net/.To access data anywhere in the store, use the adl://<storage-name>.azuredatalakestore.net/ format.

Que armazenamento o cluster está usandoWhat storage is the cluster using

Você pode usar o Ambari para recuperar a configuração de armazenamento padrão para o cluster.You can use Ambari to retrieve the default storage configuration for the cluster. Use o comando a seguir para recuperar informações de configuração do HDFS usando o curl e as filtre usando o jq:Use the following command to retrieve HDFS configuration information using curl, and filter it using jq:

curl -u admin -G "https://CLUSTERNAME.azurehdinsight.net/api/v1/clusters/CLUSTERNAME/configurations/service_config_versions?service_name=HDFS&service_config_version=1" | jq '.items[].configurations[].properties["fs.defaultFS"] | select(. != null)'

Observação

Esse comando retorna a primeira configuração aplicada ao servidor (service_config_version=1) que contém essas informações.This command returns the first configuration applied to the server (service_config_version=1), which contains this information. Talvez seja necessário listar todas as versões de configuração para localizar a mais recente.You may need to list all configuration versions to find the latest one.

Esse comando retorna um valor semelhante às URIs a seguir:This command returns a value similar to the following URIs:

  • wasb://<container-name>@<account-name>.blob.core.windows.net, se estiver usando uma conta de armazenamento do Azure.wasb://<container-name>@<account-name>.blob.core.windows.net if using an Azure Storage account.

    O nome da conta é o nome da conta de Armazenamento do Microsoft Azure.The account name is the name of the Azure Storage account. O nome do contêiner é o contêiner de blob que é a raiz do armazenamento de cluster.The container name is the blob container that is the root of the cluster storage.

  • adl://home se usar o Azure Data Lake Storage.adl://home if using Azure Data Lake Storage. Para obter o nome do Data Lake Storage, use a seguinte chamada REST:To get the Data Lake Storage name, use the following REST call:

    curl -u admin -G "https://CLUSTERNAME.azurehdinsight.net/api/v1/clusters/CLUSTERNAME/configurations/service_config_versions?service_name=HDFS&service_config_version=1" | jq '.items[].configurations[].properties["dfs.adls.home.hostname"] | select(. != null)'
    

    Esse comando retorna o seguinte nome de host: <data-lake-store-account-name>.azuredatalakestore.net.This command returns the following host name: <data-lake-store-account-name>.azuredatalakestore.net.

    Para obter o diretório no repositório, ou seja, a raiz para o HDInsight, use a seguinte chamada REST:To get the directory within the store that is the root for HDInsight, use the following REST call:

    curl -u admin -G "https://CLUSTERNAME.azurehdinsight.net/api/v1/clusters/CLUSTERNAME/configurations/service_config_versions?service_name=HDFS&service_config_version=1" | jq '.items[].configurations[].properties["dfs.adls.home.mountpoint"] | select(. != null)'
    

    Esse comando retorna uma resposta semelhante à seguinte: /clusters/<hdinsight-cluster-name>/.This command returns a path similar to the following path: /clusters/<hdinsight-cluster-name>/.

Você também pode encontrar as informações de armazenamento usando o portal do Azure e as seguintes etapas:You can also find the storage information using the Azure portal by using the following steps:

  1. No Portal do Azure, escolha o cluster HDInsight.From the Azure portal, select your HDInsight cluster.

  2. Na seção Propriedades, selecione Contas de armazenamento.From the Properties section, select Storage Accounts. As informações de armazenamento para o cluster são exibidas.The storage information for the cluster is displayed.

Como acessar arquivos fora do HDInsightHow do I access files from outside HDInsight

Há várias maneiras de acessar dados de fora do cluster do HDInsight.There are a various ways to access data from outside the HDInsight cluster. A seguir, há alguns links para utilitários e SDKs que podem ser usados para trabalhar com seus dados:The following are a few links to utilities and SDKs that can be used to work with your data:

Se estiver usando o armazenamento do Azure, consulte os links a seguir para ver algumas maneiras de acessar os seus dados:If using Azure Storage, see the following links for ways that you can access your data:

Se estiver usando o Azure Data Lake Storage, confira os links a seguir para ver algumas maneiras de acessar os seus dados:If using Azure Data Lake Storage, see the following links for ways that you can access your data:

Dimensionar o clusterScaling your cluster

O recurso de dimensionamento de clusters permite que você altere a quantidade de nós de dados utilizados por um cluster.The cluster scaling feature allows you to dynamically change the number of data nodes used by a cluster. Você pode executar operações de dimensionamento enquanto outros trabalhos ou processos estão sendo executados em um cluster.You can perform scaling operations while other jobs or processes are running on a cluster. Consulte também, dimensionar clusters HDInsightSee also, Scale HDInsight clusters

Os diferentes tipos de cluster são afetados pelo dimensionamento da seguinte maneira:The different cluster types are affected by scaling as follows:

  • Hadoop: ao reduzir verticalmente o número de nós em um cluster, alguns dos serviços no cluster são reiniciados.Hadoop: When scaling down the number of nodes in a cluster, some of the services in the cluster are restarted. Operações de dimensionamento podem causar erros em trabalhos em execução ou pendentes após a conclusão da operação de dimensionamento.Scaling operations can cause jobs running or pending to fail at the completion of the scaling operation. Você pode reenviar os trabalhos quando a operação for concluída.You can resubmit the jobs once the operation is complete.

  • HBase: servidores regionais são balanceados automaticamente em alguns minutos após o término da operação de dimensionamento.HBase: Regional servers are automatically balanced within a few minutes, once the scaling operation completes. Para balancear manualmente servidores regionais, use as seguintes etapas:To manually balance regional servers, use the following steps:

    1. Conecte-se ao cluster HDInsight usando SSH.Connect to the HDInsight cluster using SSH. Para obter mais informações, confira Usar SSH com HDInsight.For more information, see Use SSH with HDInsight.

    2. Use o seguinte para iniciar o shell do HBase:Use the following to start the HBase shell:

       hbase shell
      
    3. Depois que o shell do HBase tiver sido carregado, use o seguinte para balancear manualmente os servidores regionais:Once the HBase shell has loaded, use the following to manually balance the regional servers:

       balancer
      
  • Storm: você deve rebalancear qualquer topologia do Storm em execução após uma operação de dimensionamento.Storm: You should rebalance any running Storm topologies after a scaling operation has been performed. O rebalanceameno permite que a topologia reajuste as configurações de paralelismo com base no novo número de nós no cluster.Rebalancing allows the topology to readjust parallelism settings based on the new number of nodes in the cluster. Para rebalancear topologias em execução, use uma das seguintes opções:To rebalance running topologies, use one of the following options:

    • SSH: conecte-se ao servidor e use o seguinte comando para rebalancear uma topologia:SSH: Connect to the server and use the following command to rebalance a topology:

        storm rebalance TOPOLOGYNAME
      

      Você também pode especificar parâmetros para substituir as dicas de paralelismo fornecidas originalmente pela topologia.You can also specify parameters to override the parallelism hints originally provided by the topology. Por exemplo, storm rebalance mytopology -n 5 -e blue-spout=3 -e yellow-bolt=10 reconfigurará a topologia para 5 processos de trabalho, 3 executores para o componente blue-spout e 10 executores para o componente yellow-bolt.For example, storm rebalance mytopology -n 5 -e blue-spout=3 -e yellow-bolt=10 reconfigures the topology to 5 worker processes, 3 executors for the blue-spout component, and 10 executors for the yellow-bolt component.

    • Interface do usuário do Storm: use as etapas a seguir para rebalancear uma topologia usando a interface do usuário do Storm.Storm UI: Use the following steps to rebalance a topology using the Storm UI.

      1. Abra https://CLUSTERNAME.azurehdinsight.net/stormui no navegador da Web, em que CLUSTERNAME é o nome do cluster Storm.Open https://CLUSTERNAME.azurehdinsight.net/stormui in your web browser, where CLUSTERNAME is the name of your Storm cluster. Se solicitado, insira o nome de administrador (admin) do cluster HDInsight e a senha que você especificou ao criar o cluster.If prompted, enter the HDInsight cluster administrator (admin) name and password you specified when creating the cluster.
      2. Selecione a topologia que você quer rebalancear e selecione o botão Rebalancear .Select the topology you wish to rebalance, then select the Rebalance button. Insira o atraso antes de a operação de rebalanceamento ser executada.Enter the delay before the rebalance operation is performed.
  • Kafka: você deve reequilibrar as réplicas de partição após as operações de dimensionamento.Kafka: You should rebalance partition replicas after scaling operations. Para obter mais informações, consulte o documento Alta disponibilidade de dados com o Apache Kafka no HDInsight.For more information, see the High availability of data with Apache Kafka on HDInsight document.

Para obter informações específicas sobre como dimensionar o cluster HDInsight, consulte:For specific information on scaling your HDInsight cluster, see:

Como instalo o Hue (ou outro componente do Hadoop)?How do I install Hue (or other Hadoop component)?

O HDInsight é um serviço gerenciado.HDInsight is a managed service. Se o Azure detectar um problema com o cluster, ele poderá excluir o nó com falha e criar um nó para substituí-lo.If Azure detects a problem with the cluster, it may delete the failing node and create a node to replace it. Se você instalar manualmente as coisas no cluster, elas não serão mantidas quando essa operação ocorrer.If you manually install things on the cluster, they aren't persisted when this operation occurs. Em vez disso, use as Ações de Script HDInsight.Instead, use HDInsight Script Actions. Uma ação de script pode ser usada para fazer as seguintes alterações:A script action can be used to make the following changes:

  • Instale e configure um serviço ou um site da Web.Install and configure a service or web site.
  • Instalar e configurar um componente que requer alterações de configuração em vários nós no cluster.Install and configure a component that requires configuration changes on multiple nodes in the cluster.

Ações de script são scripts Bash.Script Actions are Bash scripts. Os scripts são executados durante a criação do cluster e são usados para instalar e configurar componentes adicionais.The scripts run during cluster creation, and are used to install and configure additional components. São fornecidos scripts de exemplo para instalar os seguintes componentes:Example scripts are provided for installing the following components:

Para obter informações sobre como desenvolver suas próprias Ações de Script, veja Desenvolvimento de Ação de Script com o HDInsight.For information on developing your own Script Actions, see Script Action development with HDInsight.

Arquivos JarJar files

Algumas tecnologias do Hadoop são fornecidas em arquivos jar independentes que contêm funções usadas como parte de um trabalho do MapReduce ou de dentro de Pig ou Hive.Some Hadoop technologies are provided in self-contained jar files that contain functions used as part of a MapReduce job, or from inside Pig or Hive. Geralmente, elas não exigem nenhuma configuração e podem ser carregadas no cluster após a criação e usadas diretamente.They often don't require any setup, and can be uploaded to the cluster after creation and used directly. Se você deseja verificar se o componente resistirá ao refazer a imagem do cluster, armazene o arquivo jar no armazenamento padrão para o cluster (WASB ou ADL).If you want to make sure the component survives reimaging of the cluster, you can store the jar file in the default storage for your cluster (WASB or ADL).

Por exemplo, para usar a versão mais recente do Apache DataFu, faça o download de um jar que contém o projeto e carregue-o no cluster HDInsight.For example, if you want to use the latest version of Apache DataFu, you can download a jar containing the project and upload it to the HDInsight cluster. Siga a documentação do DataFu sobre como usá-lo do Pig ou Hive.Then follow the DataFu documentation on how to use it from Pig or Hive.

Importante

Alguns componentes que são arquivos jar autônomos são fornecidos com o HDInsight, mas não estão no caminho.Some components that are standalone jar files are provided with HDInsight, but are not in the path. Se você estiver procurando por um componente específico, você pode usar o acompanhamento para procurá-lo em seu cluster:If you are looking for a specific component, you can use the follow to search for it on your cluster:

find / -name *componentname*.jar 2>/dev/null

Esse comando retornará o caminho de arquivos jar correspondentes.This command returns the path of any matching jar files.

Para utilizar uma versão diferente de um componente, carregue a versão necessária e utilize-a em seus trabalhos.To use a different version of a component, upload the version you need and use it in your jobs.

Importante

Há suporte total a componentes fornecidos com o cluster do HDInsight e o Suporte da Microsoft ajudará a isolar e resolver problemas relacionados a esses componentes.Components provided with the HDInsight cluster are fully supported and Microsoft Support helps to isolate and resolve issues related to these components.

Componentes personalizados recebem suporte comercialmente razoável para ajudá-lo a solucionar o problema.Custom components receive commercially reasonable support to help you to further troubleshoot the issue. Isso pode resultar na resolução do problema ou na solicitação de você buscar nos canais disponíveis as tecnologias de código-fonte aberto, onde é possível encontrar conhecimento aprofundado sobre essa tecnologia.This might result in resolving the issue OR asking you to engage available channels for the open source technologies where deep expertise for that technology is found. Por exemplo, há muitos sites de comunidades que podem ser usados, como o Fórum do MSDN para o HDInsight, https://stackoverflow.com.For example, there are many community sites that can be used, like: MSDN forum for HDInsight, https://stackoverflow.com. Além disso, os projetos do Apache têm sites de projetos em https://apache.org, por exemplo: Hadoop, Spark.Also Apache projects have project sites on https://apache.org, for example: Hadoop, Spark.

Próximas etapasNext steps