Quickstart: Criar cluster Apache Hadoop em Azure HDInsight usando o portal AzureQuickstart: Create Apache Hadoop cluster in Azure HDInsight using Azure portal

Neste artigo, você aprende a criar clusters Apache Hadoop em HDInsight usando o portal Azure, e depois executar trabalhos de Hive Apache em HDInsight.In this article, you learn how to create Apache Hadoop clusters in HDInsight using Azure portal, and then run Apache Hive jobs in HDInsight. A maioria das tarefas do Hadoop são tarefas de lote.Most of Hadoop jobs are batch jobs. Cria um cluster, executa algumas tarefas e, em seguida, elimina o cluster.You create a cluster, run some jobs, and then delete the cluster. Neste artigo, vai realizar as três tarefas.In this article, you perform all the three tasks. Para obter explicações aprofundadas sobre as configurações disponíveis, consulte Configurar clusters em HDInsight.For in-depth explanations of available configurations, see Set up clusters in HDInsight. Para obter mais informações sobre a utilização do portal para criar clusters, consulte Criar clusters no portal.For more information regarding the use of the portal to create clusters, see Create clusters in the portal.

Neste guia de início rápido, irá utilizar o portal do Azure para criar um cluster do Hadoop no HDInsight.In this quickstart, you use the Azure portal to create an HDInsight Hadoop cluster. Também pode criar um cluster através do modelo Azure Resource Manager.You can also create a cluster using the Azure Resource Manager template.

Atualmente, o HDInsight vem com sete tipos diferentes de cluster.Currently, HDInsight comes with seven different cluster types. Cada tipo de cluster suporta um conjunto diferente de componentes.Each cluster type supports a different set of components. Todos os tipos de cluster suportam o Hive.All cluster types support Hive. Para obter uma lista de componentes suportados em HDInsight, veja quais as novidades nas versões de cluster Apache Hadoop fornecidas pela HDInsight?For a list of supported components in HDInsight, see What's new in the Apache Hadoop cluster versions provided by HDInsight?

Se não tiver uma subscrição do Azure, crie uma conta gratuita antes de começar.If you don't have an Azure subscription, create a free account before you begin.

Criar um aglomerado Apache HadoopCreate an Apache Hadoop cluster

Nesta secção, irá criar um cluster do Hadoop no HDInsight através do portal do Azure.In this section, you create a Hadoop cluster in HDInsight using the Azure portal.

  1. Inscreva-se no portal Azure.Sign in to the Azure portal.

  2. A partir do menu superior, selecione + Crie um recurso.From the top menu, select + Create a resource.

    Criar um cluster hdinsight de recursoCreate a resource HDInsight cluster

  3. Selecione Analytics > Azure HDInsight para ir à página de cluster Create HDInsight.Select Analytics > Azure HDInsight to go to the Create HDInsight cluster page.

  4. A partir do separador Básicos, forneça as seguintes informações:From the Basics tab, provide the following information:

    PropriedadeProperty DescriçãoDescription
    SubscriçãoSubscription A partir da lista de drop-down, selecione a subscrição Azure que é usada para o cluster.From the drop-down list, select the Azure subscription that's used for the cluster.
    Grupo de recursosResource group A partir da lista de drop-down, selecione o seu grupo de recursos existente ou selecione Criar novo.From the drop-down list, select your existing resource group, or select Create new.
    Nome do clusterCluster name Introduza um nome globalmente exclusivo.Enter a globally unique name. O nome pode consistir em até 59 caracteres, incluindo letras, números e hífenes.The name can consist of up to 59 characters including letters, numbers, and hyphens. Os primeiros e últimos caracteres do nome não podem ser hífenes.The first and last characters of the name can't be hyphens.
    RegiãoRegion A partir da lista de drop-down, selecione uma região onde o cluster é criado.From the drop-down list, select a region where the cluster is created. Selecione uma localização mais próxima de si para obter um melhor desempenho.Choose a location closer to you for better performance.
    Tipo de clusterCluster type Selecione Selecionar o tipo de cluster.Select Select cluster type. Em seguida, selecione Hadoop como o tipo de cluster.Then select Hadoop as the cluster type.
    VersãoVersion A partir da lista de drop-down, selecione uma versão.From the drop-down list, select a version. Utilize a versão padrão se não souber o que escolher.Use the default version if you don't know what to choose.
    Nome de utilizador e palavra-passe de início de sessão do clusterCluster login username and password O nome de login predefinido é administrador. A palavra-passe deve ter pelo menos 10 caracteres de comprimento e deve conter pelo menos um dígito, uma maiúscula, e uma letra minúscula, um carácter não alfanumérico (exceto os caracteres ' ) .The default login name is admin. The password must be at least 10 characters in length and must contain at least one digit, one uppercase, and one lower case letter, one non-alphanumeric character (except characters ' " ` ). Certifique-se de que não escolhe uma palavra-passe comum, tal como "Pass@word1".Make sure you do not provide common passwords such as "Pass@word1".
    Nome de utilizador de Secure Shell (SSH)Secure Shell (SSH) username O nome de utilizador predefinido é sshuser.The default username is sshuser. Pode indicar outro nome de utilizador SSH.You can provide another name for the SSH username.
    Use a palavra-passe de login do cluster para SSHUse cluster login password for SSH Selecione esta caixa de verificação para utilizar a mesma palavra-passe para o utilizador SSH que forneceu para o utilizador de login do cluster.Select this check box to use the same password for SSH user as the one you provided for the cluster login user.

    HDInsight Linux começar a fornecer valores básicos de clusterHDInsight Linux get started provide cluster basic values

    Selecione o **Seguinte: >>de armazenamento ** para avançar para as definições de armazenamento.Select the Next: Storage >> to advance to the storage settings.

  5. A partir do separador Armazenamento, forneça os seguintes valores:From the Storage tab, provide the following values:

    PropriedadeProperty DescriçãoDescription
    Tipo de armazenamento primárioPrimary storage type Utilize o valor predefinido Azure Storage.Use the default value Azure Storage.
    Método de seleçãoSelection method Utilizar o valor predefinido Selecione da lista.Use the default value Select from list.
    Conta de armazenamento primáriaPrimary storage account Utilize a lista de drop-down para selecionar uma conta de armazenamento existente ou selecione Criar novo.Use the drop-down list to select an existing storage account, or select Create new. Se criar uma nova conta, o nome deve ter entre 3 e 24 caracteres de comprimento, e pode incluir apenas números e letras minúsculasIf you create a new account, the name must be between 3 and 24 characters in length, and can include numbers and lowercase letters only
    ContentorContainer Utilize o valor autopovoado.Use the autopopulated value.

    HDInsight Linux começa a fornecer valores de armazenamento de clusterHDInsight Linux get started provide cluster storage values

    Cada cluster tem uma conta de Armazenamento Azure,um Azure Data Lake Gen1,ou uma Azure Data Lake Storage Gen2 dependência.Each cluster has an Azure Storage account, an Azure Data Lake Gen1, or an Azure Data Lake Storage Gen2 dependency. É referida como a conta de armazenamento predefinida.It's referred as the default storage account. O cluster HDInsight e a sua conta de armazenamento predefinida devem ser indicados na mesma região de Azure.HDInsight cluster and its default storage account must be colocated in the same Azure region. Excluir agrupamentos não apaga a conta de armazenamento.Deleting clusters doesn't delete the storage account.

    Selecione o separador 'Rever +' para criar.Select the Review + create tab.

  6. A partir do separador 'Rever +' criar, verificar os valores selecionados nos passos anteriores.From the Review + create tab, verify the values you selected in the earlier steps.

    HDInsight Linux inicia resumo do clusterHDInsight Linux get started cluster summary

  7. Selecione Criar.Select Create. A criação de um cluster demora cerca de 20 minutos.It takes about 20 minutes to create a cluster.

    Após a criação do cluster, verá a página de descrição geral do cluster no portal do Azure.Once the cluster is created, you see the cluster overview page in the Azure portal.

    Introdução às definições do cluster no HDInsight com LinuxHDInsight Linux get started cluster settings

Executar consultas de Colmeia ApacheRun Apache Hive queries

O Apache Hive é o componente mais popular utilizado no HDInsight.Apache Hive is the most popular component used in HDInsight. Existem várias formas de executar tarefas do Hive no HDInsight.There are many ways to run Hive jobs in HDInsight. Neste arranque rápido, você usa a vista Ambari Hive a partir do portal.In this quickstart, you use the Ambari Hive view from the portal. Para conhecer outros métodos de submissão de tarefas do Hive, consulte Utilizar o Hive no HDInsight.For other methods for submitting Hive jobs, see Use Hive in HDInsight.

Nota

Apache Hive View não está disponível em HDInsight 4.0.Apache Hive View is not available in HDInsight 4.0.

  1. Para abrir o Ambari, a partir da captura de ecrã anterior, selecione Dashboard de Clusters.To open Ambari, from the previous screenshot, select Cluster Dashboard. Também pode navegar até https://ClusterName.azurehdinsight.net onde ClusterName está o cluster que criou na secção anterior.You can also browse to https://ClusterName.azurehdinsight.net where ClusterName is the cluster you created in the previous section.

    HDInsight Linux começa painel de clusterHDInsight Linux get started cluster dashboard

  2. Introduza o nome de utilizador e a palavra-passe do Hadoop que especificou ao criar o cluster.Enter the Hadoop username and password that you specified while creating the cluster. O nome de utilizador predefinido é admin.The default username is admin.

  3. Abra a Vista do Hive conforme mostrado na captura de ecrã seguinte:Open Hive View as shown in the following screenshot:

    Selecionando vista de colmeia de AmbariSelecting Hive View from Ambari

  4. No separador CONSULTAS, cole as seguintes declarações HiveQL na folha de cálculo:In the QUERY tab, paste the following HiveQL statements into the worksheet:

    SHOW TABLES;
    

    HdInsight Hive View Editor de ConsultaHDInsight Hive View Query Editor

  5. Selecione Execute (Executar).Select Execute. O separador RESULTADOS aparece por baixo do separador CONSULTA e apresenta informações sobre a tarefa.A RESULTS tab appears beneath the QUERY tab and displays information about the job.

    Uma vez terminada a consulta, o separador QUERY apresenta os resultados da operação.Once the query has finished, the QUERY tab displays the results of the operation. Deverá ver uma tabela denomizada hivesampletable.You shall see one table called hivesampletable. Esta tabela do Hive de exemplo inclui todos os clusters do HDInsight.This sample Hive table comes with all the HDInsight clusters.

    HDInsight Apache Hive ver resultadosHDInsight Apache Hive view results

  6. Repita os passos 4 e 5 para executar a seguinte consulta:Repeat step 4 and step 5 to run the following query:

    SELECT * FROM hivesampletable;
    
  7. Também pode guardar os resultados da consulta.You can also save the results of the query. Selecione o botão de menu à direita e especifique se pretende transferir os resultados como um ficheiro CSV ou armazená-los na conta de armazenamento associada ao cluster.Select the menu button on the right, and specify whether you want to download the results as a CSV file or store it to the storage account associated with the cluster.

    Salve o resultado da consulta da Colmeia ApacheSave result of Apache Hive query

Depois de ter concluído um trabalho na Hive, pode exportar os resultados para a Base de Dados Azure SQL ou base de dados do SQL Server,pode também visualizar os resultados utilizando o Excel.After you've completed a Hive job, you can export the results to Azure SQL Database or SQL Server database, you can also visualize the results using Excel. Para obter mais informações sobre a utilização da Colmeia em HDInsight, consulte Use Apache Hive e HiveQL com Apache Hadoop em HDInsight para analisar uma amostra do ficheiro Log4j apache.For more information about using Hive in HDInsight, see Use Apache Hive and HiveQL with Apache Hadoop in HDInsight to analyze a sample Apache log4j file.

Limpar os recursosClean up resources

Depois de completar o arranque rápido, é possível que queira eliminar o cluster.After you complete the quickstart, you may want to delete the cluster. Com o HDInsight, os seus dados são armazenados no Azure Storage, para que possa eliminar com segurança um cluster quando este não estiver a ser utilizado.With HDInsight, your data is stored in Azure Storage, so you can safely delete a cluster when it isn't in use. Também é cobrado por um cluster HDInsight, mesmo quando não está a ser utilizado.You're also charged for an HDInsight cluster, even when it isn't in use. Uma vez que as taxas para o cluster são muitas vezes mais do que os encargos de armazenamento, faz sentido económico apagar clusters quando não estão a ser utilizados.Since the charges for the cluster are many times more than the charges for storage, it makes economic sense to delete clusters when they aren't in use.

Nota

Se estiver imediatamente a avançar para o próximo artigo para aprender a executar operações ETL usando Hadoop em HDInsight, é melhor manter o cluster em funcionamento.If you are immediately proceeding to the next article to learn how to run ETL operations using Hadoop on HDInsight, you may want to keep the cluster running. Isto porque no tutorial você tem que criar um cluster Hadoop novamente.This is because in the tutorial you have to create a Hadoop cluster again. No entanto, se não estiver a analisar o próximo artigo imediatamente, deve apagar o cluster agora.However, if you are not going through the next article right away, you must delete the cluster now.

Para eliminar o cluster e/ou a conta do Storage predefinidaTo delete the cluster and/or the default storage account

  1. Volte ao separador do browser onde tem o portal do Azure.Go back to the browser tab where you have the Azure portal. Deverá estar na página de descrição geral do cluster.You shall be on the cluster overview page. Se apenas quiser eliminar o cluster, mas quiser manter a conta de armazenamento predefinida, selecione Eliminar.If you only want to delete the cluster but retain the default storage account, select Delete.

    Azure HDInsight eliminar clusterAzure HDInsight delete cluster

  2. Se quiser eliminar o cluster e a conta de armazenamento predefinida, selecione o nome do grupo de recursos (realçado na captura de ecrã anterior) para abrir a página do grupo de recursos.If you want to delete the cluster as well as the default storage account, select the resource group name (highlighted in the previous screenshot) to open the resource group page.

  3. Selecione Eliminar grupo de recursos para eliminar o grupo de recursos que contém o cluster e a conta de armazenamento predefinida.Select Delete resource group to delete the resource group, which contains the cluster and the default storage account. Tenha em atenção que a eliminação do grupo de recursos elimina a conta de armazenamento.Note deleting the resource group deletes the storage account. Se pretender manter a conta do Storage, opte por eliminar apenas o cluster.If you want to keep the storage account, choose to delete the cluster only.

Passos seguintesNext steps

Neste quickstart, você aprendeu a criar um cluster HDInsight baseado em Linux usando um modelo de Gestor de Recursos, e como executar consultas básicas de Hive.In this quickstart, you learned how to create a Linux-based HDInsight cluster using a Resource Manager template, and how to perform basic Hive queries. No artigo seguinte, irá saber como executar uma operação de ETL (extração, transformação e carregamento) com o Hadoop no HDInsight.In the next article, you learn how to perform an extract, transform, and load (ETL) operation using Hadoop on HDInsight.