Desempacotar conjuntos de dados com fecho

Desembala conjuntos de dados de um pacote zip no armazenamento do utilizador

Categoria: Entrada e Saída de Dados

Nota

Aplica-se a: Machine Learning Studio (clássico)

Este conteúdo diz respeito apenas ao Studio (clássico). Módulos semelhantes de arrasto e queda foram adicionados ao designer de Aprendizagem automática Azure. Saiba mais neste artigo comparando as duas versões.

Visão geral do módulo

Este artigo descreve como utilizar o módulo Desembalado Zipped Datasets no Azure Machine Learning Studio (clássico), para carregar dados e ficheiros de script em formato comprimido e, em seguida, desapertá-los para serem utilizados numa experiência.

O objetivo deste módulo é reduzir os tempos de transferência de dados quando se trabalha com conjuntos de dados muito grandes, guardando e carregando os seus ficheiros de dados num formato comprimido. Geralmente, os ficheiros zipping são uma boa opção quando o seu conjunto de dados é tão grande que pretende utilizar a compressão para o upload, para minimizar o tempo de upload e os custos associados.

O módulo toma como entrada um conjunto de dados no seu espaço de trabalho. O conjunto de dados deve ter sido carregado num formato comprimido. Em seguida, o módulo descomprime o conjunto de dados e adiciona os dados ao seu espaço de trabalho.

Como utilizar conjuntos de dados zipped desembalados

Esta secção descreve como preparar os seus dados e, em seguida, desapertá-lo no Azure Machine Learning Studio (clássico).

Passo 1. Preparar ficheiros

Antes de carregar o seu ficheiro, certifique-se de que os dados do ficheiro podem ser utilizados no Azure Machine Learning:

  • Certifique-se de que os dados do ficheiro utilizam a codificação UTF-8.

    Se o ficheiro for pequeno o suficiente, pode abri-lo no Bloco de Notas e, em seguida, guardar o ficheiro na codificação desejada. Muitos outros editores de texto oferecem funcionalidades semelhantes. Para ficheiros CSV, pode utilizar os comandos Desalsse de Excel ou Exportação para especificar um formato de ficheiro e codificação.

  • Verifique se os ficheiros de dados utilizam um formatosuportado, como CSV, TSV, ARFF ou SVMLight.

  • Comprima os dados adicionando o ficheiro de dados a um . ZIP ou . Arquivo de arquivo de formato GZ. Outros tipos de arquivo não são suportados.

  • Remova a proteção da palavra-passe. Se algum dos ficheiros ou a própria pasta comprimida tiver sido encriptada ou protegida por palavra-passe, deve desbloquear ou desencriptar o ficheiro antes de o fazer o upload. O módulo não consegue detetar tipos de dados encriptados e não suporta caixas de diálogo para a entrada de passwords de clientes arbitrários.

Passo 2. Faça upload do conjunto de dados para o seu espaço de trabalho

Em seguida, faça o upload do conjunto de dados com fecho para o seu espaço de trabalho da experiência.

  1. Clique EM NOVO, selecione DATASETe selecione A PARTIR DE ARQUIVO LOCAL.

  2. Localize o ficheiro com fecho para carregar. Quando selecionar o ficheiro, o tipo deve ser automaticamente definido para ficheiro Zip (.zip).

Passo 3. Adicione conjunto de dados com fecho para experimentar

Depois de o conjunto de dados ter sido completamente carregado, adicione-o à sua experiência em formato zipped.

  1. No painel de navegação à esquerda do Azure Machine Learning Studio (clássico), selecione Conjuntos de Dados Guardadose, em seguida, expanda os meus conjuntos de dados.

  2. Localize o conjunto de dados com fecho que acabou de carregar e arraste-o para a tela de experimentação.

Passo 4: Desembalar conjunto de dados

O passo final é desembalar o conjunto de dados.

  1. Ligue o conjunto de dados com fecho à entrada do módulo Conjuntos de Dados Desembalados Com Fecho de Portas.

  2. No Dataset to Unpack, digite o nome de um único conjunto de dados para desembalar.

    • Se guardou uma folha de cálculo com o nome Sheet1 como ficheiro Excel CSV denominado **Test.csv, **o nome do conjunto de dados seria Test.csv, não folha1.

    • O nome que digita na caixa de texto Desembalagem deve ser exatamente o mesmo que o nome do ficheiro original antes de ser comprimido, incluindo a extensão do nome do ficheiro. Por exemplo, se pretender desembalar um conjunto de dados com base no ficheiro de texto Users.txt, escreva Users.txt, não utilizadores.

    • Se colocar vários ficheiros numa pasta comprimido, deve desembalar um conjunto de dados de cada vez.

    Dica

    Se deixar a propriedade em branco, o módulo obtém o nome do ficheiro a partir do ficheiro com fecho, assumindo que o ficheiro de arquivo comprimido contém apenas um ficheiro de origem. Se o arquivo comprimido contiver vários ficheiros, é levantado um erro de tempo de execução.

  3. Para o formato de ficheiro Dataset, especifique o formato original do conjunto de dados: isto é, o formato antes de ser fechado.

    Pode carregar e desapertar conjuntos de dados que foram criados utilizando qualquer um destes formatos: CSV, ARFF, TSV, SvmLight.

    Se esta propriedade ficar vazia, o módulo identifica o conjunto de dados usando o nome do ficheiro de origem.

  4. Selecione a opção, O Ficheiro tem linha de cabeçalho, se o conjunto de dados original tiver uma linha de cabeçalho. Caso contrário, a primeira linha de dados é usada como cabeçalho. Se não for isto que deseja, adicione um cabeçalho antes da entrada.

    Esta opção aplica-se apenas a . CSV e . Ficheiros TSV.

    Nota

    Se alterar o formato do ficheiro, esta opção é reiniciada.

  5. Se o ficheiro for comprimido, utilize a opção de formato de ficheiro compressivo para especificar o algoritmo utilizado para comprimir ou expandir o ficheiro.

    Atualmente o . Os formatos ZIP e GZ (ou Gzip) são suportados.

  6. Execute a experimentação.

Resultados

  • Para verificar se os dados foram importados corretamente, clique com o botão direito no módulo de conjuntos de dados zipped desembalado e selecione Visualize .

  • Para alterar o nome do conjunto de dados, clique no módulo de conjuntos de dados com fecho de dia desembalado e selecione Guardar como conjunto de dados. Neste momento pode escrever um nome diferente.

    Esta opção é útil se estiver a desembalar vários conjuntos de dados a partir de um único ficheiro ZIP.

Exemplos

Para demonstrar como este módulo funciona, criámos uma amostra. Ficheiro ZIP contendo quatro ficheiros CSV diferentes. Todos os ficheiros foram guardados do Excel.

Nome de ficheiro Descrição
names-uni.csv Ficheiro Unicode com rubricas de colunas
names-utf.csv Ficheiro UTF-8 com rubricas de colunas
nonames-uni.csv Ficheiro Unicode sem rubricas de colunas
nonames-utf8.csv Ficheiro UTF-8 sem rubricas de colunas

Todo o ficheiro com fecho foi carregado e, em seguida, o módulo Desembalado Zipped Datasets foi executado quatro vezes para extrair cada um dos quatro ficheiros, utilizando estas definições:

  1. Conjunto de dados para desembalar = names-uni.csv, File tem linha de cabeçalho = TRUE
  2. Conjunto de dados para desembalar = names-utf8.csv, File tem linha de cabeçalho = TRUE
  3. Conjunto de dados para desembalar = nonames-uni.csv, O Ficheiro tem linha de cabeçalho = FALSO
  4. Conjunto de dados para desembalar = nonames-utf8.csv, O Ficheiro tem linha de cabeçalho = FALSO

Os resultados foram como esperado:

Nome de ficheiro Resultado do upload
names-uni.csv Erro 0049: Erro enquanto analisa o ficheiro. O ficheiro não está codificado pelo Unicode (UTF-8)
names-utf8.csv Com êxito. Utiliza nomes de colunas originais a partir de ficheiros de origem.
nonames-uni.csv Erro 0049: Erro enquanto analisa o ficheiro. O ficheiro não está codificado pelo Unicode (UTF-8)
nonames-utf8.csv Com êxito. A coluna chama Col1, col2, ... coln são automaticamente adicionados ao conjunto de dados.

Nota

Se utilizar a opção, o Ficheiro tem linha de cabeçalho = TRUE, e o ficheiro de origem não tem uma posição de coluna, a primeira linha de dados é usada como título de coluna.

Notas técnicas

Não é possível utilizar este módulo para desempacotar pacotes R com fecho no seu espaço de trabalho. Os pacotes R devem ser carregados e consumidos como ficheiros com fecho.

Para obter mais informações sobre como trabalhar com pacotes R com fecho, consulte Executar O Script R.

Nota

Confuso sobre a diferença entre UTF-8 e Unicode? Veja este artigo na Wikipédia: O que é UTF-8

Parâmetros do módulo

Nome Intervalo Tipo Predefinição Descrição
Formato de ficheiro de compressão Zip

Rio Gzip
regra de compressão Zip Algoritmo de compressão usado para comprimir ou expandir o ficheiro.
Conjunto de dados para Desembalar Qualquer String nenhum Nome do conjunto de dados para registar no Azure ML Studio (clássico). Se o nome de um conjunto de dados não for especificado, o nome é obtido a partir do nome do ficheiro no ficheiro zipped.
Formato de ficheiro dataset CSV

TSV

ARFF

SVMLIGHT
Formato do ficheiro CSV Formato de ficheiro do conjunto de dados no ficheiro com fecho
Arquivo tem linha de cabeçalho VERDADEIRO/FALSO Booleano Falso Definido para True apenas se o ficheiro CSV/TSV tiver uma linha de cabeçalho

Entradas esperadas

Nome Tipo Descrição
Conjunto de dados Zip Ficheiro com fecho contendo conjuntos de dados

Saída

Nome Tipo Descrição
Conjunto de dados de resultados Tabela de Dados Conjunto de dados de saída

Ver também

Entrada e saída de dados