Exportar Dados

Grava um conjunto de dados em várias formas de armazenamento baseado em nuvem no Azure, como tabelas, BLOBs e bancos de dados SQL do Azure

Categoria: entrada e saída de dados

Observação

Aplica-se a: Machine Learning Studio (clássico)

Esse conteúdo pertence apenas ao estúdio (clássico). Módulos de arrastar e soltar semelhantes foram adicionados ao designer de Azure Machine Learning. Saiba mais neste artigo comparando as duas versões.

Visão geral do módulo

Este artigo descreve como usar o módulo exportar dados no Azure Machine Learning Studio (clássico), para salvar resultados, dados intermediários e trabalhar com dados de suas experiências em destinos de armazenamento em nuvem fora do Azure Machine Learning Studio (clássico).

Este módulo dá suporte à exportação ou salvamento de dados para os seguintes serviços de dados de nuvem:

  • Exportar para consulta de Hive: gravar dados em uma tabela do hive em um cluster Hadoop do HDInsight.

  • Exportar para o banco de dados SQL do Azure: Salve os dados no banco de dados SQL do Azure ou no Azure SQL data warehouse.

  • Exportar para a tabela do Azure: salvar dados no serviço de armazenamento de tabela no Azure. O armazenamento de tabela é bom para armazenar grandes quantidades de dados. Ele fornece um formato de tabela escalonável, barato e altamente disponível.

  • Exportar para o armazenamento de BLOBs do Azure: salva dados no serviço blob no Azure. Essa opção é útil para imagens, textos não estruturados ou dados binários. Dados no serviço de Blob podem ser compartilhados publicamente ou salvos em repositórios de dados de aplicativo protegidos.

Observação

O módulo exportar dados não oferece suporte à conexão com a conta de armazenamento de BLOBs do Azure se a opção "transferência segura necessária" estiver habilitada.

  • Baixar dados: Para baixar seus dados para que você possa abri-los no Excel ou em outro aplicativo, use um módulo como converter para CSV ou converter em TSV para preparar os dados em um formato específico e, em seguida, baixar os dados.

  • Você pode baixar os resultados de qualquer módulo que produza um conjunto de um clique com o botão direito do mouse na saída e selecionando baixar conjunto de resultados. Por padrão, os dados são exportados no formato CSV.

  • Baixe uma definição de módulo ou grafo de experimento: Uma nova biblioteca do PowerShell permite baixar os metadados completos para seu experimento ou os detalhes de um módulo específico. O PowerShell para Azure Machine Learning Library é uma versão experimental, mas tem muitos cmdlets úteis:

    • Get-AmlExperiment lista todos os experimentos em um espaço de trabalho.

    • Export-AmlExperimentGraph exporta uma definição do experimento completo para um arquivo JSON.

    • Download-AmlExperimentNodeOutput permite extrair as informações fornecidas nas portas de saída de qualquer módulo.

      Para obter mais informações, consulte módulo do PowerShell para Azure Machine Learning Studio (clássico).

Como configurar dados de exportação

  1. Adicione o módulo exportar dados ao seu experimento no Studio (clássico). Você pode encontrar esse módulo na categoria entrada e saída .

  2. Conecte os dados de exportação ao módulo que contêm os dados que você deseja exportar.

  3. Clique duas vezes em exportar dados para abrir o painel Propriedades .

  4. Para destino de dados, selecione o tipo de armazenamento em nuvem onde você salvará os dados. Se você fizer alterações nessa opção, todas as outras propriedades serão redefinidas. Portanto, escolha esta opção primeiro!

  5. Forneça um nome de conta e um método de autenticação necessários para acessar a conta de armazenamento especificada.

    Dependendo do tipo de armazenamento e se a conta estiver protegida, talvez seja necessário fornecer o nome da conta, o tipo de arquivo, a chave de acesso ou o nome do contêiner. Para fontes que não exigem autenticação, geralmente é suficiente saber a URL.

    Para obter exemplos de cada tipo, consulte os seguintes tópicos:

  6. A opção usar resultados armazenados em cache permite repetir o experimento sem reescrever os mesmos resultados a cada vez.

    Se você desmarcar essa opção, os resultados serão gravados no armazenamento toda vez que o experimento for executado, independentemente de os dados de saída terem sido alterados.

    Se você selecionar essa opção, exportar dados usará os dados armazenados em cache, se disponíveis. Novos resultados são gerados somente quando há uma alteração upstream que afetaria os resultados.

  7. Execute o experimento.

Exemplos

Para obter exemplos de como usar o módulo exportar dados , consulte a Galeria de ia do Azure:

Observações técnicas

Esta seção contém detalhes de implementação, dicas e respostas para perguntas frequentes.

Dica

Não sabe como ou onde você deve armazenar seus dados? Consulte este guia para cenários de dados comuns no processo de ciência de dados: cenários para análise avançada no Azure Machine Learning

Detalhes de implementação

  • Esse módulo era denominado Writer anteriormente. Se você tiver um experimento existente que usa o módulo gravador , o módulo será renomeado para exportar dados quando você atualizar o experimento.

  • Nem todos os módulos produzem saída que é compatível com os destinos de dados de exportação . Por exemplo, Export data não pode salvar um conjunto de dados que foi convertido para o formato SVMLight. Os dados de exportação dão suporte a estes formatos:

    • DataSet (formato interno do Azure ML)
    • DataTable .NET
    • CSV com ou sem cabeçalhos
    • TSV com ou sem cabeçalhos

Problemas conhecidos

  • Quando você seleciona tabela do Azure como o local para gerar seus dados, ocasionalmente pode haver um erro ao gravar na tabela especificada. Quando isso acontece, os dados podem ser gravados em um blob.

    Se esse erro ocorrer e posteriormente você não conseguir ler a partir da tabela esperada, tente usar um utilitário de armazenamento do Azure para verificar os BLOBs no contêiner especificado em sua conta de armazenamento.

  • No momento, não é possível salvar um blob em uma tabela do hive especificada. Se você precisar escrever resultados intermediários, evite usar uma tabela do hive no HDInsight e use o armazenamento de BLOBs ou o armazenamento de tabelas em vez disso.

  • Atualmente, se você selecionar HDFS como o local para salvar os dados de saída, essa mensagem de erro será retornada: "Microsoft. Analytics. Exceptions. ErrorMapping + Moduleexception".

Entradas esperadas

Nome Tipo Descrição
Conjunto de dados Tabela de Dados O conjunto de dados a ser gravado.

Parâmetros do módulo

Esta tabela lista os parâmetros que se aplicam a todas as opções de exportação de dados . Outros parâmetros são dinâmicos e mudam dependendo do destino de dados selecionado.

Name Intervalo Type Padrão Descrição
Especifique o destino dos dados Lista DataSourceOrSink Serviço blob no Armazenamento do Azure Indique se o destino de dados é um arquivo no serviço blob, um arquivo no serviço tabela, um banco de dado SQL no Azure ou uma tabela Hive.
Usar resultados em cache TRUE/FALSE Boolean FALSE Selecione esta opção para evitar reescrever os resultados desnecessariamente. Se algo mudar de fluxo no experimento, os dados de exportação sempre serão executados e gravarão novos resultados. No entanto, se nada tiver sido alterado e você tiver selecionado essa opção, os dados de exportação não serão executados para evitar a regravação dos mesmos resultados.

Exceções

Exceção Descrição
Erro 0057 Ocorrerá uma exceção ao tentar criar um arquivo ou um blob que já existe.
Erro 0001 Ocorre uma exceção se uma ou mais colunas especificadas do conjunto de dados não podem ser encontradas.
Erro 0027 Ocorrerá uma exceção quando dois objetos precisam ser do mesmo tamanho, mas eles não são.
Erro 0079 Ocorrerá uma exceção se o nome do contêiner no Armazenamento do Azure for especificado incorretamente.
Erro 0052 Ocorrerá uma exceção se a chave de acesso de armazenamento para a conta do Azure for especificada incorretamente.
Erro 0064 Ocorrerá uma exceção se a chave de acesso de armazenamento ou o nome de conta para a conta do Azure for especificada incorretamente.
Erro 0071 Ocorrerá uma exceção se as credenciais fornecidas estiverem incorretas.
Erro 0018 Ocorrerá uma exceção se o conjunto de dados de entrada não é válido.
Erro 0029 Ocorrerá uma exceção quando um URI inválido for passado.
Erro 0003 Ocorrerá uma exceção se uma ou mais entradas forem nulas ou estiverem vazias.

Para obter uma lista de erros específicos para módulos do Studio (clássicos), consulte Machine Learning códigos de erro.

Para obter uma lista de exceções de API, consulte Machine Learning códigos de erro da API REST.

Consulte também

Importar dados
Entrada e saída de dados
Transformação de dados
Comparação do armazenamento de tabelas do Azure e do banco de dados SQL do Azure
Lista de Módulo A-Z