Conecte o Excel ao Apache Hadoop no HDInsight do Azure com o driver ODBC do Microsoft Hive

A solução de Big Data da Microsoft integra os componentes do Microsoft BI (Business Intelligence) aos clusters do Apache Hadoop que foram implantados no HDInsight. Um exemplo é a capacidade de conectar o Excel ao banco de dados de data warehouse Hive de um cluster Hadoop. Conecte-se usando o driver ODBC (Microsoft Hive Open Database Connectivity).

Você pode conectar os dados associados a um cluster HDInsight do Excel com o suplemento do Microsoft Power Query para Excel. Para obter mais informações, confira Conectar o Excel ao HDInsight com o Power Query.

Pré-requisitos

Antes de começar este artigo, você deve ter os seguintes itens:

  • Cluster Hadoop do HDInsight. Para criar um, confira Introdução ao Azure HDInsight.
  • Uma estação de trabalho com o Office 2010 Professional Plus ou posterior ou o Excel 2010 ou posterior.

Instalar o driver ODBC do Microsoft Hive

Baixe e instale o Driver ODBC do Microsoft Hive. Escolha a versão que corresponde à versão do aplicativo em que você usará o driver ODBC. Para este artigo, o driver é usado para o Office Excel.

Criar fonte de dados ODBC do Apache Hive

As etapas a seguir mostram como criar uma fonte de dados ODBC do Hive.

  1. No Windows, acesse Iniciar > Ferramentas administrativas do Windows > Fontes de dados ODBC (32 bits)/(64 bits). Isso abre a janela Administrador de Fonte de Dados ODBC.

    OBDC data source administrator.

  2. Na guia DSN de Usuário, selecione Adicionar para abrir a janela Criar Nova Fonte de Dados.

  3. Selecione Driver ODBC do Microsoft Hive e selecione Concluir para abrir a janela Configuração de DNS do Driver ODBC do Microsoft Hive.

  4. Digite ou selecione os valores a seguir:

    Propriedade Descrição
    Nome da Fonte de Dados Forneça um nome para a sua fonte de dados
    Hosts Digite HDInsightClusterName.azurehdinsight.net. Por exemplo, myHDICluster.azurehdinsight.net. Observação: o HDInsightClusterName-int.azurehdinsight.net é compatível desde que a VM do cliente esteja emparelhada com a mesma rede virtual.
    Porta Use 443. (Essa porta foi alterada de 563 para 443.)
    Banco de dados Use padrão.
    Mecanismo Selecione Serviço do Microsoft Azure HDInsight
    Nome do Usuário Insira o nome de usuário HTTP do cluster HDInsight. O nome de usuário padrão é admin.
    Senha Insira a senha do usuário do cluster HDInsight. Marque a caixa de seleção Salvar Senha (Criptografada).
  5. Opcional: escolha Opções Avançadas…

    Parâmetro Descrição
    Use Consulta Nativa Quando selecionado, o driver ODBC NÃO tenta converter TSQL em HiveQL. Você deve usar essa opção somente se estiver 100% certo de que está enviando instruções HiveQL puras. Ao conectar-se ao SQL Server ou ao Banco de Dados SQL do Azure, deixe-a desmarcada.
    Linhas buscadas por bloco Ao buscar uma grande quantidade de registros, o ajuste desse parâmetro poderá ser necessário para garantir o desempenho ideal.
    Comprimento de coluna de cadeia de caracteres padrão, Comprimento da coluna binária e Escala da coluna decimal Os tamanhos e as precisões dos tipos de dados podem afetar a maneira como os dados são retornados. Eles farão com que informações incorretas sejam retornadas devido à perda de precisão e/ou truncamento.

    Advanced DSN configuration options.

  6. Selecione Testar para testar a fonte de dados. Quando a fonte de dados estiver configurada corretamente, o resultado do teste mostrará SUCESSO

  7. Selecione OK para fechar a janela de teste.

  8. Selecione OK para fechar a janela Configuração de DNS do Driver ODBC do Microsoft Hive.

  9. Selecione OK para fechar a janela Administrador de Fonte de Dados ODBC.

Importar dados do HDInsight para o Excel

As etapas a seguir descrevem a maneira de importar dados de uma tabela Hive em uma pasta de trabalho do Excel usando a fonte de dados ODBC que você criou na seção anterior.

  1. Abra uma pasta de trabalho nova ou existente no Excel.

  2. Na guia Dados, navegue até Obter Dados>De Outras Fontes>Do ODBC para abrir a janela Do ODBC.

    Open Excel data connection wizard.

  3. Na lista suspensa, escolha o nome da fonte de dados que você criou na última seção e escolha OK.

  4. Para o primeiro uso, uma caixa de diálogo do driver ODBC será aberta. Escolha Windows no menu à esquerda. Escolha Conectar para abrir a janela Navegador.

  5. De Navegador, navegue até HIVE>padrão>hivesampletable e selecione Carregar. Leva alguns minutos para que os dados sejam importados para o Excel.

    HDInsight Excel Hive ODBC navigator.

Próximas etapas

Neste artigo você aprendeu a usar o driver ODBC do Microsoft Hive para recuperar dados do Serviço do HDInsight no Excel. Da mesma forma, você pode recuperar dados do Serviço do HDInsight no Banco de Dados SQL. Também é possível carregar dados em um Serviço do HDInsight. Para obter mais informações, consulte: