Início Rápido: Criar cluster do Apache Hadoop no Azure HDInsight usando o portal do AzureQuickstart: Create Apache Hadoop cluster in Azure HDInsight using Azure portal

Neste artigo, você aprenderá a criar clusters do Apache Hadoop no HDInsight usando o portal do Azure e, depois, executar trabalhos do Apache Hive no HDInsight.In this article, you learn how to create Apache Hadoop clusters in HDInsight using Azure portal, and then run Apache Hive jobs in HDInsight. A maioria dos trabalhos de Hadoop consiste em trabalhos em lotes.Most of Hadoop jobs are batch jobs. Criar um cluster, executar alguns trabalhos e excluir o cluster.You create a cluster, run some jobs, and then delete the cluster. Neste artigo, você deve executar as três tarefas.In this article, you perform all the three tasks.

Neste início rápido, você usa o Portal do Azure para criar um cluster Hadoop do HDInsight.In this quickstart, you use the Azure portal to create an HDInsight Hadoop cluster. Também é possível criar um cluster usando o modelo do Azure Resource Manager.You can also create a cluster using the Azure Resource Manager template.

Atualmente, o HDInsight vem com sete tipos diferentes de cluster.Currently HDInsight comes with seven different cluster types. Cada tipo de cluster dá suporte a um conjunto diferente de componentes.Each cluster type supports a different set of components. Todos os tipos de cluster dão suporte ao Hive.All cluster types support Hive. Para obter uma lista de componentes com suporte no HDInsight, confira What's new in the Apache Hadoop cluster versions provided by HDInsight? (Novidades nas versões de cluster Apache Hadoop fornecidas pelo HDInsight?)For a list of supported components in HDInsight, see What's new in the Apache Hadoop cluster versions provided by HDInsight?

Se você não tiver uma assinatura do Azure, crie uma conta gratuita antes de começar.If you don't have an Azure subscription, create a free account before you begin.

Criar um cluster do Apache HadoopCreate an Apache Hadoop cluster

Nesta seção, você criará um cluster Hadoop no HDInsight usando o portal do Azure.In this section, you create a Hadoop cluster in HDInsight using the Azure portal.

  1. Entre no Portal do Azure.Sign in to the Azure portal.

  2. No portal do Azure, vá até Criar um recurso > Análise > HDInsight.From the Azure portal, go to Create a resource > Analytics > HDInsight.

    Criar cluster de recurso do HDInsightCreate a resource HDInsight cluster

  3. Em Conceitos Básicos, insira ou selecione os seguintes valores:Under Basics, enter or select the following values:

    PropriedadeProperty DESCRIÇÃODescription
    SubscriptionSubscription Selecione sua assinatura do Azure.Select your Azure subscription.
    Resource groupResource group Crie um grupo de recursos ou selecione um grupo de recursos existente.Create a resource group or select an existing resource group. Um grupo de recursos é um contêiner de componentes do Azure.A resource group is a container of Azure components. Nesse caso, o grupo de recursos contém o cluster HDInsight e a conta de Armazenamento do Azure dependente.In this case, the resource group contains the HDInsight cluster and the dependent Azure Storage account.
    Nome do clusterCluster name Insira um nome para o cluster Hadoop.Enter a name for the Hadoop cluster. Como todos os clusters no HDInsight compartilham o mesmo namespace DNS esse nome precisa ser exclusivo.Because all clusters in HDInsight share the same DNS namespace this name needs to be unique. O nome pode ter até 59 caracteres incluindo letras, números e hifens.The name can consist of up to 59 characters including letters, numbers, and hyphens. O primeiro e último caracteres do nome não podem ser hifens.The first and last characters of the name cannot be hyphens.
    LocationLocation Selecione um local do Azure no qual você deseja criar o cluster.Select an Azure location where you want to create your cluster. Escolha um local mais próximo a você para obter melhor desempenho.Choose a location closer to you for better performance.
    Tipo de clusterCluster type Selecione Selecione o tipo de cluster.Select Select cluster type. Em seguida, selecione Hadoop como o tipo de cluster.Then select Hadoop as the cluster type.
    VersãoVersion A versão padrão do tipo de cluster será especificada.The default version for the cluster type will be specified. Selecione na lista suspensa se desejar especificar uma versão diferente.Select from the drop-down list if you wish to specify a different version.
    Nome de usuário e senha de logon do clusterCluster login username and password O nome padrão de logon é admin. A senha deve ter no mínimo 10 caracteres e deve conter pelo menos um dígito, uma letra maiúscula, uma minúscula e um caractere não alfanumérico (exceto os caracteres ' " ` ).The default login name is admin. The password must be at least 10 characters in length and must contain at least one digit, one uppercase, and one lower case letter, one non-alphanumeric character (except characters ' " ` ). Não forneça senhas comuns, como "Pass@word1".Make sure you do not provide common passwords such as "Pass@word1".
    Nome de usuário do Secure Shell (SSH)Secure Shell (SSH) username O nome de usuário padrão é sshuser.The default username is sshuser. Você pode fornecer outro nome para o nome de usuário de SSH.You can provide another name for the SSH username.
    Usar senha de logon do cluster para SSHUse cluster login password for SSH Marque essa caixa de seleção para usar a mesma senha para o usuário SSH que aquela fornecida para o usuário de logon do cluster.Select this check box to use the same password for SSH user as the one you provided for the cluster login user.

    Introdução ao HDInsight Linux, fornecer valores básicos do clusterHDInsight Linux get started provide cluster basic values

    Selecione Próximo: Armazenamento >> para passar para as configurações de armazenamento.Select the Next: Storage >> to advance to the storage settings.

  4. Na guia Armazenamento, forneça os seguintes valores:From the Storage tab, provide the following values:

    PropriedadeProperty DESCRIÇÃODescription
    Tipo de armazenamento primárioPrimary storage type Use o valor padrão Armazenamento do Azure.Use the default value Azure Storage.
    Método de seleçãoSelection method Use o valor padrão Selecione na lista.Use the default value Select from list.
    Conta de armazenamento primáriaPrimary storage account Use a lista suspensa para selecionar uma conta de armazenamento existente ou selecione Criar.Use the drop-down list to select an existing storage account, or select Create new. Se você criar uma conta, o nome deverá ter entre 3 e 24 caracteres e poderá incluir apenas números e letras minúsculasIf you create a new account, the name must be between 3 and 24 characters in length, and can include numbers and lowercase letters only
    ContêinerContainer Use o valor preenchido automaticamente.Use the autopopulated value.

    Introdução ao HDInsight Linux, fornecer valores de armazenamento de clusterHDInsight Linux get started provide cluster storage values

    Selecione a guia Examinar + criar.Select the Review + create tab.

  5. Na guia Examinar + criar, verifique os valores selecionados nas etapas anteriores.From the Review + create tab, verify the values you selected in the earlier steps.

    Introdução ao HDInsight Linux, resumo do clusterHDInsight Linux get started cluster summary

  6. Selecione Criar.Select Create. Demora cerca de 20 minutos para criar um cluster.It takes about 20 minutes to create a cluster.

Após a criação do cluster, você verá a página de visão geral do cluster no Portal do Azure.Once the cluster is created, you see the cluster overview page in the Azure portal.

Introdução ao HDInsight Linux, configurações do clusterHDInsight Linux get started cluster settings

Cada cluster tem uma dependência na conta de Armazenamento do Azure ou conta do Azure Data Lake.Each cluster has an Azure Storage account or an Azure Data Lake account dependency. Ela é conhecida como a conta de armazenamento padrão.It is referred as the default storage account. O cluster HDInsight e sua conta de armazenamento padrão devem estar colocados na mesma região do Azure.HDInsight cluster and its default storage account must be colocated in the same Azure region. A exclusão dos clusters não exclui a conta de armazenamento.Deleting clusters does not delete the storage account.

Observação

Para obter outros métodos de criação de cluster e compreender as propriedades usadas neste início rápido, confira Criar clusters do HDInsight.For other cluster creation methods and understanding the properties used in this quickstart, see Create HDInsight clusters.

Executar consultas do Apache HiveRun Apache Hive queries

Apache Hive é o componente mais popular usado no HDInsight.Apache Hive is the most popular component used in HDInsight. Há várias maneiras de executar trabalhos do Hive no HDInsight.There are many ways to run Hive jobs in HDInsight. Neste início rápido, você usará o modo de exibição do Ambari Hive no portal.In this quickstart, you use the Ambari Hive view from the portal. Para obter outros métodos para enviar trabalhos do Hive, confira Usar o Hive no HDInsight.For other methods for submitting Hive jobs, see Use Hive in HDInsight.

  1. Para abrir o Ambari, na captura de tela anterior, selecione Painel do Cluster.To open Ambari, from the previous screenshot, select Cluster Dashboard. Você também pode navegar até https://ClusterName.azurehdinsight.net, em que ClusterName é o cluster que você criou na seção anterior.You can also browse to https://ClusterName.azurehdinsight.net, where ClusterName is the cluster you created in the previous section.

    Introdução ao HDInsight Linux, painel do clusterHDInsight Linux get started cluster dashboard

  2. Insira o nome de usuário e a senha do Hadoop que você especificou durante a criação do cluster.Enter the Hadoop username and password that you specified while creating the cluster. O nome de usuário padrão é admin.The default username is admin.

  3. Abra a Exibição do Hive , conforme mostrado na seguinte captura de tela:Open Hive View as shown in the following screenshot:

    Seleção da Exibição do Hive no AmbariSelecting Hive View from Ambari

  4. Na guia CONSULTA, cole as seguintes instruções HiveQL na planilha:In the QUERY tab, paste the following HiveQL statements into the worksheet:

    SHOW TABLES;
    

    Modo de Exibição do Editor de Consulta no HDInsight HiveHDInsight Hive View Query Editor

  5. Selecione Executar.Select Execute. Uma guia RESULTADOS aparece abaixo da guia CONSULTA e exibe informações sobre o trabalho.A RESULTS tab appears beneath the QUERY tab and displays information about the job.

    Após a conclusão da consulta, a guia CONSULTA exibirá os resultados da operação.Once the query has finished, the QUERY tab displays the results of the operation. Você deverá ver uma tabela chamada hivesampletable.You shall see one table called hivesampletable. Essa tabela do Hive de exemplo é fornecida com todos os clusters HDInsight.This sample Hive table comes with all the HDInsight clusters.

    HDInsight Apache Hive, exibição de resultadosHDInsight Apache Hive view results

  6. Repita as etapas 4 e 5 para executar a seguinte consulta:Repeat step 4 and step 5 to run the following query:

    SELECT * FROM hivesampletable;
    
  7. Você também pode salvar os resultados da consulta.You can also save the results of the query. Selecione o botão de menu à direita e especifique se deseja baixar os resultados como um arquivo CSV ou armazená-los na conta de armazenamento associada ao cluster.Select the menu button on the right, and specify whether you want to download the results as a CSV file or store it to the storage account associated with the cluster.

    Salvar resultado da consulta do Apache HiveSave result of Apache Hive query

Depois de concluir um trabalho do Hive, você pode exportar os resultados para o banco de dados SQL do Azure ou do SQL Server. Também pode visualizar os resultados usando o Excel.After you have completed a Hive job, you can export the results to Azure SQL database or SQL Server database, you can also visualize the results using Excel. Para obter mais informações sobre como usar o Hive no HDInsight, confira Use Apache Hive and HiveQL with Apache Hadoop in HDInsight to analyze a sample Apache log4j file (Usar o Apache Hive e o HiveQL com o Apache Hadoop no HDInsight para analisar um arquivo log4j do Apache de exemplo).For more information about using Hive in HDInsight, see Use Apache Hive and HiveQL with Apache Hadoop in HDInsight to analyze a sample Apache log4j file.

Limpar recursosClean up resources

Após concluir o início rápido, poderá ser conveniente excluir o cluster.After you complete the quickstart, you may want to delete the cluster. Com o HDInsight, seus dados são armazenados no Armazenamento do Azure, assim você poderá excluir, com segurança, um cluster quando ele não estiver em uso.With HDInsight, your data is stored in Azure Storage, so you can safely delete a cluster when it is not in use. Você também é cobrado por um cluster HDInsight, mesmo quando ele não está em uso.You are also charged for an HDInsight cluster, even when it is not in use. Como os encargos para o cluster são muitas vezes maiores do que os encargos para armazenamento, faz sentido, do ponto de vista econômico, excluir os clusters quando não estiverem em uso.Since the charges for the cluster are many times more than the charges for storage, it makes economic sense to delete clusters when they are not in use.

Observação

Se você for prosseguir imediatamente para o próximo artigo a fim de saber como executar operações de ETL usando Hadoop no HDInsight, convém manter o cluster em execução.If you are immediately proceeding to the next article to learn how to run ETL operations using Hadoop on HDInsight, you may want to keep the cluster running. Isso porque, no tutorial, você precisará criar um cluster Hadoop novamente.This is because in the tutorial you have to create a Hadoop cluster again. No entanto, se você não for conferir o próximo artigo imediatamente, exclua o cluster agora.However, if you are not going through the next article right away, you must delete the cluster now.

Para excluir o cluster e/ou a conta de armazenamento padrãoTo delete the cluster and/or the default storage account

  1. Volte para a guia do navegador onde você tem o portal do Azure.Go back to the browser tab where you have the Azure portal. Você deve estar na página de visão geral do cluster.You shall be on the cluster overview page. Se você quiser apenas excluir o cluster, mas manter a conta de armazenamento padrão, selecione Excluir.If you only want to delete the cluster but retain the default storage account, select Delete.

    Excluir cluster do Azure HDInsightAzure HDInsight delete cluster

  2. Se você quiser excluir o cluster, bem como a conta de armazenamento padrão, selecione o nome do grupo de recursos (realçado na captura de tela anterior) para abrir a página do grupo de recursos.If you want to delete the cluster as well as the default storage account, select the resource group name (highlighted in the previous screenshot) to open the resource group page.

  3. Selecione Excluir grupo de recursos para excluir o grupo de recursos, que contém o cluster e a conta de armazenamento padrão.Select Delete resource group to delete the resource group, which contains the cluster and the default storage account. Observe que a exclusão do grupo de recursos exclui a conta de armazenamento.Note deleting the resource group deletes the storage account. Para manter a conta de armazenamento, exclua apenas o cluster.If you want to keep the storage account, choose to delete the cluster only.

Próximas etapasNext steps

Neste início rápido, você aprendeu a criar um cluster HDInsight baseado em Linux usando um modelo do Resource Manager e a executar consultas básicas do Hive.In this quickstart, you learned how to create a Linux-based HDInsight cluster using a Resource Manager template, and how to perform basic Hive queries. No próximo artigo, saiba como executar uma operação de ETL (extração, transformação e carregamento) usando o Hadoop no HDInsight.In the next article, you learn how to perform an extract, transform, and load (ETL) operation using Hadoop on HDInsight.