Ligar o Excel ao Apache Hadoop no Azure HDInsight com o controlador ODBC Hive da Microsoft

A solução de Big Data da Microsoft integra componentes de Business Intelligence (BI) da Microsoft com clusters Apache Hadoop implantados no HDInsight. Um exemplo é a capacidade de conectar o Excel ao data warehouse do Hive de um cluster Hadoop. Conecte-se usando o driver ODBC (Microsoft Hive Open Database Connectivity).

Pode ligar os dados associados a um cluster HDInsight a partir do Excel com o suplemento Microsoft Power Query para Excel. Para obter mais informações, consulte Conectar o Excel ao HDInsight com o Power Query.

Pré-requisitos

Antes de começar este artigo, você deve ter os seguintes itens:

  • Um cluster Hadoop do HDInsight. Para criar um, consulte Introdução ao Azure HDInsight.
  • Uma estação de trabalho com o Office 2010 Professional Plus ou posterior, ou Excel 2010 ou posterior.

Instalar o driver ODBC do Microsoft Hive

Baixe e instale o driver ODBC do Microsoft Hive. Escolha a versão que corresponde à versão do aplicativo onde você usará o driver ODBC. Para este artigo, o driver é usado para o Office Excel.

Criar fonte de dados ODBC do Apache Hive

As etapas a seguir mostram como criar uma fonte de dados ODBC do Hive.

  1. No Windows, navegue até Iniciar > Fontes de Dados ODBC das Ferramentas > Administrativas do Windows (32 bits)/(64 bits). Esta ação abre a janela Administrador da Fonte de Dados ODBC .

    OBDC data source administrator.

  2. Na guia DSN do usuário, selecione Adicionar para abrir a janela Criar nova fonte de dados.

  3. Selecione Driver ODBC do Microsoft Hive e, em seguida, selecione Concluir para abrir a janela Configuração DSN do driver ODBC do Microsoft Hive.

  4. Escreva ou selecione os seguintes valores:

    Property Description
    Nome da Origem de Dados Atribua um nome para a sua origem de dados
    Aanfitrião(ões) Introduzir HDInsightClusterName.azurehdinsight.net. Por exemplo, myHDICluster.azurehdinsight.net. Nota: HDInsightClusterName-int.azurehdinsight.net é suportado desde que a VM cliente esteja emparelhada para a mesma rede virtual.
    Porta Utilize 443. (Esta porta foi alterada de 563 para 443.)
    Base de Dados Use o padrão.
    Mecanismo Selecione o Serviço HDInsight do Windows Azure
    Nome de Utilizador Insira o nome de usuário HTTP do cluster HDInsight. O nome de usuário padrão é admin.
    Palavra-passe Introduza a palavra-passe de utilizador do cluster HDInsight. Marque a caixa de seleção Salvar senha (criptografada).
  5. Opcional: Selecione Opções avançadas...

    Parâmetro Description
    Usar consulta nativa Quando é selecionado, o driver ODBC NÃO tenta converter TSQL em HiveQL. Você deve usá-lo apenas se tiver 100% de certeza de que está enviando declarações HiveQL puras. Ao se conectar ao SQL Server ou ao Banco de Dados SQL do Azure, você deve deixá-lo desmarcado.
    Linhas buscadas por bloco Ao buscar um grande número de registros, o ajuste desse parâmetro pode ser necessário para garantir desempenhos ideais.
    Comprimento da coluna da cadeia de caracteres padrão, comprimento da coluna binária, escala da coluna decimal Os comprimentos e as precisões do tipo de dados podem afetar a forma como os dados são retornados. Eles fazem com que informações incorretas sejam devolvidas devido à perda de precisão e/ou truncamento.

    Advanced DSN configuration options.

  6. Selecione Testar para testar a fonte de dados. Quando a fonte de dados está configurada corretamente, o resultado do teste mostra SUCESSO!

  7. Selecione OK para fechar a janela Teste.

  8. Selecione OK para fechar a janela Configuração DSN do driver ODBC do Microsoft Hive.

  9. Selecione OK para fechar a janela Administrador da Fonte de Dados ODBC .

Importe dados para o Excel a partir do HDInsight

As etapas a seguir descrevem a maneira de importar dados de uma tabela do Hive para uma pasta de trabalho do Excel usando a fonte de dados ODBC que você criou na seção anterior.

  1. Abra um livro novo ou existente no Excel.

  2. Na guia Dados, navegue até Obter dados>de outras fontes>do ODBC para iniciar a janela Do ODBC.

    Open Excel data connection wizard.

  3. Na lista suspensa, selecione o nome da fonte de dados que você criou na última seção e selecione OK.

  4. Para o primeiro uso, uma caixa de diálogo do driver ODBC será aberta. Selecione Windows no menu à esquerda. Em seguida, selecione Conectar para abrir a janela Navegador .

  5. No Navegador, navegue até hivesampletable padrão>do HIVE>e selecione Carregar. Leva alguns momentos até que os dados sejam importados para o Excel.

    HDInsight Excel Hive ODBC navigator.

Próximos passos

Neste artigo, você aprendeu como usar o driver ODBC do Microsoft Hive para recuperar dados do Serviço HDInsight no Excel. Da mesma forma, você pode recuperar dados do Serviço HDInsight no Banco de Dados SQL. Também é possível carregar dados para um Serviço HDInsight. Para saber mais, veja: