Guia de início rápido: executar consultas do Apache Hive no Azure HDInsight com o Apache Zeppelin

Neste início rápido, você aprenderá a usar o Apache Zeppelin para executar consultas do Apache Hive no Azure HDInsight. Os clusters de Consulta Interativa do HDInsight incluem blocos de anotações do Apache Zeppelin que você pode usar para executar consultas interativas do Hive.

Se não tiver uma subscrição do Azure, crie uma conta gratuita antes de começar.

Pré-requisitos

Um cluster de Consulta Interativa do HDInsight. Consulte Criar cluster para criar um cluster HDInsight. Certifique-se de escolher o tipo de cluster de Consulta Interativa .

Criar uma nota do Apache Zeppelin

  1. Substitua CLUSTERNAME pelo nome do cluster no seguinte URL https://CLUSTERNAME.azurehdinsight.net/zeppelin. Em seguida, insira o URL em um navegador da Web.

  2. Introduza o seu nome de utilizador e palavra-passe de início de sessão no cluster. Na página do Zeppelin, você pode criar uma nova nota ou abrir notas existentes. O HiveSample contém algumas consultas Hive de exemplo.

    HDInsight Interactive Query zeppelin.

  3. Selecione Criar nova nota.

  4. Na caixa de diálogo Criar nova nota, digite ou selecione os seguintes valores:

    • Nota Nome: Introduza um nome para a nota.
    • Interpretador padrão: Selecione jdbc na lista suspensa.
  5. Selecione Criar nota.

  6. Insira a seguinte consulta do Hive na seção de código e pressione Shift + Enter:

    %jdbc(hive)
    show tables
    

    HDInsight Interactive Query zeppelin runs query.

    A instrução %jdbc(hive) na primeira linha diz ao bloco de anotações para usar o interpretador JDBC do Hive.

    A consulta deve retornar uma tabela Hive chamada hivesampletable.

    A seguir estão duas consultas adicionais do Hive que você pode executar em hivesampletable:

    %jdbc(hive)
    select * from hivesampletable limit 10
    
    %jdbc(hive)
    select ${group_name}, count(*) as total_count
    from hivesampletable
    group by ${group_name=market,market|deviceplatform|devicemake}
    limit ${total_count=10}
    

    Comparando com o Hive tradicional, os resultados da consulta devem voltar mais rápido.

Exemplos adicionais

  1. Criar uma tabela. Execute o código abaixo no Caderno do Zeppelin:

    %jdbc(hive)
    CREATE EXTERNAL TABLE log4jLogs (
        t1 string,
        t2 string,
        t3 string,
        t4 string,
        t5 string,
        t6 string,
        t7 string)
    ROW FORMAT DELIMITED
    FIELDS TERMINATED BY ' '
    STORED AS TEXTFILE;
    
  2. Carregue dados na nova tabela. Execute o código abaixo no Caderno do Zeppelin:

    %jdbc(hive)
    LOAD DATA
    INPATH 'wasbs:///example/data/sample.log'
    INTO TABLE log4jLogs;
    
  3. Insira um único registo. Execute o código abaixo no Caderno do Zeppelin:

    %jdbc(hive)
    INSERT INTO TABLE log4jLogs2
    VALUES ('A', 'B', 'C', 'D', 'E', 'F', 'G');
    

Consulte o manual de linguagem do Hive para obter sintaxe adicional.

Clean up resources (Limpar recursos)

Depois de concluir o início rápido, convém excluir o cluster. Com o HDInsight, seus dados são armazenados no Armazenamento do Azure, para que você possa excluir com segurança um cluster quando ele não estiver em uso. Você também é cobrado por um cluster HDInsight, mesmo quando ele não está em uso. Como as cobranças para o cluster são muitas vezes mais do que as taxas para armazenamento, faz sentido econômico excluir clusters quando eles não estão em uso.

Para excluir um cluster, consulte Excluir um cluster HDInsight usando seu navegador, PowerShell ou a CLI do Azure.

Próximos passos

Neste início rápido, você aprendeu como usar o Apache Zeppelin para executar consultas do Apache Hive no Azure HDInsight. Para saber mais sobre consultas do Hive, o próximo artigo mostrará como executar consultas com o Visual Studio.