Utilizar a Vista do Apache Ambari Hive com o Apache Hadoop no HDInsight

Saiba como executar consultas do Hive usando o Apache Ambari Hive View. A Visualização do Hive permite que você crie, otimize e execute consultas do Hive a partir do seu navegador da Web.

Pré-requisitos

Um cluster Hadoop no HDInsight. Consulte Introdução ao HDInsight no Linux.

Executar uma consulta do Hive

  1. No portal do Azure, selecione o seu cluster. Consulte Listar e mostrar clusters para obter instruções. O cluster é aberto em uma nova exibição de portal.

  2. Em Painéis de cluster, selecione Modos de exibição Ambari. Quando solicitado a autenticar, use o nome da conta de login (padrão admin) do cluster e a senha que você forneceu quando criou o cluster. Você também pode navegar até onde está o nome do cluster no https://CLUSTERNAME.azurehdinsight.net/#/main/views navegador CLUSTERNAME .

  3. Na lista de modos de exibição, selecione Exibição do Hive.

    Apache Ambari select Apache Hive view.

    A página de visualização do Hive é semelhante à seguinte imagem:

    Image of the query worksheet for the Hive view.

  4. Na guia Consulta, cole as seguintes instruções HiveQL na planilha:

    DROP TABLE log4jLogs;
    CREATE EXTERNAL TABLE log4jLogs(
        t1 string,
        t2 string,
        t3 string,
        t4 string,
        t5 string,
        t6 string,
        t7 string)
    ROW FORMAT DELIMITED FIELDS TERMINATED BY ' '
    STORED AS TEXTFILE LOCATION '/example/data/';
    SELECT t4 AS loglevel, COUNT(*) AS count FROM log4jLogs
        WHERE t4 = '[ERROR]'
        GROUP BY t4;
    

    Essas declarações executam as seguintes ações:

    Declaração Description
    DROP TABLE Exclui a tabela e o arquivo de dados, caso a tabela já exista.
    CRIAR TABELA EXTERNA Cria uma nova tabela "externa" no Hive. As tabelas externas armazenam apenas a definição de tabela no Hive. Os dados são deixados no local original.
    FORMATO DA LINHA Mostra como os dados são formatados. Nesse caso, os campos em cada log são separados por um espaço.
    ARMAZENADO COMO LOCAL DO ARQUIVO DE TEXTO Mostra onde os dados são armazenados e que são armazenados como texto.
    SELECIONAR Seleciona uma contagem de todas as linhas em que a coluna t4 contém o valor [ERROR].

    Importante

    Deixe a seleção Banco de dados como padrão. Os exemplos neste documento usam o banco de dados padrão incluído no HDInsight.

  5. Para iniciar a consulta, selecione Executar abaixo da planilha. O botão fica laranja e o texto muda para Parar.

  6. Após a conclusão da consulta, a guia Resultados exibe os resultados da operação. O seguinte texto é o resultado da consulta:

    loglevel       count
    [ERROR]        3
    

    Você pode usar a guia LOG para exibir as informações de log que o trabalho criou.

    Gorjeta

    Transfira ou guarde os resultados a partir da caixa de diálogo pendente Ações no separador Resultados.

Explicação visual

Para exibir uma visualização do plano de consulta, selecione a guia Explicação Visual abaixo da planilha.

O modo de exibição Visual Explain da consulta pode ser útil para entender o fluxo de consultas complexas.

Tez UI

Para exibir a Tez UI para a consulta, selecione a guia Tez UI abaixo da planilha.

Importante

Tez não é usado para resolver todas as consultas. Você pode resolver muitas consultas sem usar o Tez.

Ver histórico de tarefas

A guia Trabalhos exibe um histórico de consultas do Hive.

Apache Hive view jobs tab history.

Tabelas de banco de dados

Você pode usar a guia Tabelas para trabalhar com tabelas em um banco de dados do Hive.

Image of the Apache Hive tables tab.

Consultas guardadas

Na guia Consulta, você pode, opcionalmente, salvar consultas. Depois de guardar uma consulta, pode reutilizá-la a partir do separador Consultas Guardadas .

Apache Hive views saved queries tab.

Gorjeta

As consultas salvas são armazenadas no armazenamento de cluster padrão. Você pode encontrar as consultas salvas no caminho /user/<username>/hive/scripts. Estes são armazenados como ficheiros de texto .hql simples.

Se você excluir o cluster, mas mantiver o armazenamento, poderá usar um utilitário como o Gerenciador de Armazenamento do Azure ou o Gerenciador de Armazenamento Data Lake (do Portal do Azure) para recuperar as consultas.

Funções definidas pelo utilizador

Você pode estender o Hive por meio de funções definidas pelo usuário (UDF). Use um UDF para implementar funcionalidade ou lógica que não é facilmente modelada no HiveQL.

Declare e salve um conjunto de UDFs usando a guia UDF na parte superior da Visualização do Hive. Essas UDFs podem ser usadas com o Editor de Consultas.

Apache Hive view UDFs tab display.

Um botão Inserir udfs aparece na parte inferior do Editor de Consultas. Esta entrada exibe uma lista suspensa das UDFs definidas na Visualização do Hive. A seleção de uma UDF adiciona instruções HiveQL à sua consulta para habilitar a UDF.

Por exemplo, se você definiu uma UDF com as seguintes propriedades:

  • Nome do recurso: myudfs

  • Caminho do recurso: /myudfs.jar

  • Nome UDF: myawesomeudf

  • Nome da classe UDF: com.myudfs.Awesome

O uso do botão Inserir udfs exibe uma entrada chamada myudfs, com outra lista suspensa para cada UDF definida para esse recurso. Neste caso, é myawesomeudf. A seleção desta entrada adiciona o seguinte ao início da consulta:

add jar /myudfs.jar;
create temporary function myawesomeudf as 'com.myudfs.Awesome';

Em seguida, você pode usar o UDF em sua consulta. Por exemplo, SELECT myawesomeudf(name) FROM people;.

Para obter mais informações sobre como usar UDFs com o Hive no HDInsight, consulte os seguintes artigos:

Configurações do Hive

Você pode alterar várias configurações do Hive, como alterar o mecanismo de execução do Hive de Tez (o padrão) para MapReduce.

Próximos passos

Para obter informações gerais sobre o Hive no HDInsight: