Exportar para consulta do Hive

Observação

Aplica-se a: Machine Learning Studio (clássico)

Esse conteúdo pertence apenas ao estúdio (clássico). Módulos de arrastar e soltar semelhantes foram adicionados ao designer de Azure Machine Learning. Saiba mais neste artigo comparando as duas versões.

Este artigo descreve como usar a opção exportar dados para o hive no módulo exportar dados no Azure Machine Learning Studio (clássico). Essa opção é útil quando você está trabalhando com conjuntos de dados muito grandes e deseja salvar os dado de teste do Machine Learning em um cluster Hadoop ou armazenamento distribuído do HDInsight. Você também pode querer exportar resultados intermediários ou outros dados para o Hadoop para que você possa processá-los usando um trabalho MapReduce.

Como exportar dados para o hive

  1. Adicione o módulo exportar dados ao seu experimento. Você pode encontrar esse módulo na categoria entrada e saída de dados no Azure Machine Learning Studio (clássico).

    Conecte o módulo ao conjunto de um que você deseja exportar.

  2. Para fonte de dados, selecione consulta do hive.

  3. Para nome da tabela do hive , digite o nome da tabela do hive na qual armazenar o conjunto de os.

  4. Na caixa de texto URI do servidor HCatalog , digite o nome totalmente qualificado do cluster.

    Por exemplo, se você criou um cluster com o nome mycluster001 , use este formato:

    https://mycluster001.azurehdinsight.net

  5. Na caixa de texto nome da conta de usuário do Hadoop , Cole a conta de usuário do Hadoop que você usou ao provisionar o cluster.

  6. Na caixa de texto senha da conta de usuário do Hadoop , digite as credenciais que você usou ao provisionar o cluster.

  7. Para local dos dados de saída, selecione a opção que indica onde os dados devem ser armazenados: HDFS ou Azure.

    Se os dados estiverem no HDFS (sistema de arquivos distribuído do Hadoop), eles deverão ser acessíveis por meio da mesma conta e senha que você acabou de inserir.

    Se os dados estiverem no Azure, forneça o local e as credenciais da conta de armazenamento.

  8. Se você selecionou a opção HDFS , para URI do servidor HDFS, especifique o nome do cluster HDInsight sem o https:// prefixo.

  9. Se você selecionou a opção Azure , forneça o nome da conta de armazenamento e as credenciais que o módulo pode usar para se conectar ao armazenamento.

    • Nome da conta de armazenamento do Azure: digite o nome da conta do Azure. Por exemplo, se a URL completa da conta de armazenamento for https://myshared.blob.core.windows.net , você digitaria myshared .

    • Chave de armazenamento do Azure: Copie e cole a chave que é fornecida para acessar a conta de armazenamento.

    • Nome do contêiner do Azure: especifique o contêiner padrão para o cluster. Para obter dicas sobre o filho como descobrir o contêiner padrão, consulte a seção observações técnicas .

  10. Usar resultados em cache: Selecione esta opção se desejar evitar a regravação da tabela do hive sempre que executar o experimento. Se não houver nenhuma outra alteração nos parâmetros do módulo, o experimento gravará a tabela do hive somente na primeira vez em que o módulo for executado, ou quando houver alterações nos dados.

    Se você quiser gravar a tabela do hive sempre que o experimento for executado, desmarque a opção usar resultados em cache .

  11. Execute o experimento.

Exemplos

Para obter exemplos de como usar o módulo exportar dados , consulte a Galeria de ia do Azure.

Notas técnicas

Esta seção contém detalhes de implementação, dicas e respostas para perguntas frequentes.

Perguntas comuns

Como evitar problemas de memória insuficiente ao gravar grandes conjuntos de altos

Às vezes, a configuração padrão do cluster Hadoop é muito limitada para dar suporte à execução do trabalho MapReduce. Por exemplo, nestas notas de versão do HDInsight, as configurações padrão são definidas como um cluster de quatro nós.

Se os requisitos do trabalho do MapReduce excederem a capacidade disponível, as consultas do hive poderão retornar uma mensagem de erro de memória insuficiente , o que faz com que a operação de exportação de dados falhe. Se isso acontecer, você poderá alterar a alocação de memória padrão para consultas do hive.

Como evitar o recarregamento dos mesmos dados desnecessariamente

Se você não quiser recriar a tabela Hive toda vez que executar o experimento, selecione a opção usar resultados em cache para verdadeiro. Quando essa opção for definida como TRUE, o módulo verificará se o experimento foi executado anteriormente e, se uma execução anterior for encontrada, a operação de gravação não será executada.

Dicas de uso

Pode ser difícil descobrir o contêiner padrão para o cluster. Aqui estão algumas dicas:

  • Se você criou o cluster usando as configurações padrão, um contêiner com o mesmo nome foi criado ao mesmo tempo em que o cluster foi criado. Esse contêiner é o contêiner padrão para o cluster.

  • Se você criou o cluster usando a opção criação personalizada , você recebeu duas opções para selecionar o contêiner padrão.

    Contêiner existente: se você selecionou um contêiner existente, esse contêiner será o contêiner de armazenamento padrão para o cluster.

    Criar contêiner padrão: se você selecionou essa opção, um contêiner com o mesmo nome do cluster foi criado e você deverá especificar esse nome de contêiner como o contêiner padrão para o cluster.

Parâmetros do módulo

Name Intervalo Type Padrão Descrição
Fonte de dados Lista Fonte de dados ou coletor Armazenamento do Blobs do Azure A fonte de dados pode ser HTTP, FTP, HTTPS ou FTPS anônimo, um arquivo no armazenamento de BLOB do Azure, uma tabela do Azure, um banco de dados SQL do Azure, uma tabela de Hive ou um ponto de extremidade OData.
Nome da tabela Hive any String nenhum Nome da tabela no hive
URI do servidor HCatalog any String nenhum Ponto de extremidade Templeton
Nome da conta de usuário do Hadoop any String nenhum Nome de usuário de HDFS/HDInsight do Hadoop
Senha da conta de usuário do Hadoop any SecureString nenhum HDFS do Hadoop/senha do HDInsight
Local de dados de saída any Localização de datalocal HDFS Especificar HDFS ou Azure para outputDir
URI do servidor HDFS any String nenhum Ponto de extremidade REST do HDFS
Nome da conta de armazenamento do Azure any String nenhum Nome da conta de armazenamento do Azure
Chave de armazenamento do Azure any SecureString nenhum Chave de armazenamento do Azure
Nome do contêiner do Azure any String nenhum Nome do contêiner do Azure
Usar resultados em cache TRUE/FALSE Boolean FALSE O módulo só será executado se o cache válido não existir; caso contrário, use dados armazenados em cache da execução anterior.

Exceções

Exceção Descrição
Erro 0027 Uma exceção ocorre quando dois objetos precisam ser do mesmo tamanho, mas eles não são.
Erro 0003 Ocorrerá uma exceção se uma ou mais das entradas forem nulas ou estiverem vazias.
Erro 0029 Ocorrerá uma exceção quando um URI inválido for passado.
Erro 0030 ocorrerá uma exceção quando não for possível baixar um arquivo.
Erro 0002 Ocorrerá uma exceção se um ou mais parâmetros não puderem ser analisados ou convertidos do tipo especificado para o tipo exigido pelo método de destino.
Erro 0009 Ocorrerá uma exceção se o nome da conta de armazenamento do Azure ou o nome do contêiner foi especificado incorretamente.
Erro 0048 Uma exceção ocorre quando não for possível abrir um arquivo.
Erro 0046 Ocorrerá uma exceção quando não for possível criar um diretório no caminho especificado.
Erro 0049 Uma exceção ocorre quando não for possível analisar um arquivo.

Para obter uma lista de erros específicos para módulos do Studio (clássicos), consulte Machine Learning códigos de erro.

Para obter uma lista de exceções de API, consulte Machine Learning códigos de erro da API REST.

Consulte também

Importar dados
Exportar dados
Exportar para o banco de dados SQL do Azure
Exportar para o armazenamento de BLOBs do Azure
Exportar para Tabela do Azure