Instalar e usar o Hue em clusters Hadoop do HDInsight

Saiba como instalar o Hue em clusters HDInsight e usar o tunelamento para rotear as solicitações para o Hue.

Nota

O matiz não é suportado no HDInsight 4.0 e posterior.

Qual é Hue?

Hue é um conjunto de aplicativos Web usados para interagir com um cluster Apache Hadoop. Você pode usar o Hue para procurar o armazenamento associado a um cluster Hadoop (WASB, no caso de clusters HDInsight), executar trabalhos do Hive e scripts do Pig e assim por diante. Os componentes a seguir estão disponíveis com instalações do Hue em um cluster Hadoop HDInsight.

  • Editor de colmeia de cera de abelha
  • Apache Pig
  • Gestor de Metastore
  • Apache Oozie
  • FileBrowser (que fala com o contêiner padrão WASB)
  • Navegador de empregos

Aviso

Os componentes fornecidos com o cluster HDInsight são totalmente suportados e o Suporte da Microsoft ajudará a isolar e resolver problemas relacionados a esses componentes.

Os componentes personalizados recebem suporte comercialmente razoável para ajudá-lo a solucionar ainda mais o problema. Isso pode resultar na resolução do problema OU pedir que você envolva os canais disponíveis para as tecnologias de código aberto onde o conhecimento profundo para essa tecnologia é encontrado. Por exemplo, há muitos sites da comunidade que podem ser usados, como: Página de perguntas e respostas da Microsoft para o HDInsight, https://stackoverflow.com. Além disso, os projetos Apache têm sites de projeto no https://apache.org, por exemplo: Hadoop.

Instalar o Hue usando ações de script

Use as informações na tabela abaixo para sua Ação de script. Consulte Personalizar clusters HDInsight com Ações de Script para obter instruções específicas sobre como usar Ações de Script.

Nota

Para instalar o Hue em clusters HDInsight, o tamanho recomendado do nó principal é pelo menos A4 (8 núcleos, 14 GB de memória).

Property valor
Tipo de script: - Personalizado
Nome Instalar o Hue
Bash script URI https://hdiconfigactions.blob.core.windows.net/linuxhueconfigactionv02/install-hue-uber-v02.sh
Tipo(s) de nó(s): Head

Executar uma consulta do Hive

  1. No portal Hue, selecione Editores de Consulta e, em seguida, selecione Hive para abrir o editor do Hive.

    HDInsight hue portal use hive editor.

  2. Na guia Assistência, em Banco de dados, você verá hivesampletable. Esta é uma tabela de exemplo fornecida com todos os clusters Hadoop no HDInsight. Insira uma consulta de exemplo no painel direito e veja a saída na guia Resultados no painel abaixo, conforme mostrado na captura de tela.

    HDInsight hue portal hive query.

    Você também pode usar a guia Gráfico para ver uma representação visual do resultado.

Procurar o armazenamento de cluster

  1. No portal Hue, selecione Navegador de arquivos no canto superior direito da barra de menus.

  2. Por padrão, o navegador de arquivos é aberto no diretório /user/myuser . Selecione a barra imediatamente antes do diretório do usuário no caminho para ir para a raiz do contêiner de armazenamento do Azure associado ao cluster.

    HDInsight hue portal file browser.

  3. Clique com o botão direito do mouse em um arquivo ou pasta para ver as operações disponíveis. Use o botão Carregar no canto direito para carregar arquivos para o diretório atual. Use o botão Novo para criar novos arquivos ou diretórios.

Nota

O navegador de arquivos Hue só pode mostrar o conteúdo do contêiner padrão associado ao cluster HDInsight. Quaisquer contas/contêineres de armazenamento adicionais que você possa ter associado ao cluster não estarão acessíveis usando o navegador de arquivos. No entanto, os contêineres adicionais associados ao cluster sempre estarão acessíveis para os trabalhos do Hive. Por exemplo, se você inserir o comando dfs -ls wasbs://newcontainer@mystore.blob.core.windows.net no editor do Hive, também poderá ver o conteúdo de contêineres adicionais. Neste comando, newcontainer não é o contêiner padrão associado a um cluster.

Considerações importantes

  1. O script usado para instalar o Hue o instala somente no nó principal primário do cluster.

  2. Durante a instalação, vários serviços Hadoop (HDFS, YARN, MR2, Oozie) são reiniciados para atualizar a configuração. Depois que o script concluir a instalação do Hue, pode levar algum tempo para que outros serviços do Hadoop sejam iniciados. Isso pode afetar o desempenho de Hue inicialmente. Assim que todos os serviços forem iniciados, o Hue estará totalmente funcional.

  3. Hue não entende os trabalhos do Apache Tez, que é o padrão atual do Hive. Se você quiser usar o MapReduce como o mecanismo de execução do Hive, atualize o script para usar o seguinte comando no script:

    set hive.execution.engine=mr;

  4. Com clusters Linux, você pode ter um cenário em que seus serviços estão sendo executados no nó principal principal enquanto o Gerenciador de Recursos pode estar sendo executado no secundário. Esse cenário pode resultar em erros (mostrados abaixo) ao usar o Hue para exibir detalhes de trabalhos RUNNING no cluster. No entanto, você pode exibir os detalhes do trabalho quando ele for concluído.

    Hue portal error sample message.

    Isto deve-se a um problema conhecido. Como solução alternativa, modifique o Ambari para que o Gerenciador de Recursos ativo também seja executado no nó principal principal.

  5. O Hue entende o WebHDFS enquanto os clusters HDInsight usam o Armazenamento do Azure usando wasbs://o . Assim, o script personalizado usado com a ação de script instala o WebWasb, que é um serviço compatível com WebHDFS para falar com o WASB. Assim, mesmo que o portal Hue diga HDFS em lugares (como quando você move o mouse sobre o navegador de arquivos), ele deve ser interpretado como WASB.

Próximos passos

Personalizar clusters HDInsight com ações de script