Converter para CSV

Converte a entrada de dados num formato de valores separados por vírgula

Categoria: Conversões de formato de dados

Nota

Aplica-se a: Machine Learning Studio (clássico)

Este conteúdo diz respeito apenas ao Studio (clássico). Módulos semelhantes de arrasto e queda foram adicionados ao designer de Aprendizagem automática Azure. Saiba mais neste artigo comparando as duas versões.

Visão geral do módulo

Este artigo descreve como usar o módulo Converte para CSV no Azure Machine Learning Studio (clássico), para converter um conjunto de dados do Azure ML num formato CSV que pode ser descarregado, exportado ou partilhado com módulos de script R ou Python.

Mais sobre o formato CSV

O formato CSV, que significa "valores separados por vírgula", é um formato de ficheiro utilizado por muitas ferramentas externas de aprendizagem automática. Embora o formato de conjunto de dados nativo utilizado pelo Azure Machine Learning seja baseado no dados .NET e assim pode ser lido por bibliotecas .NET, o CSV é um formato comum de intercâmbio quando se trabalha com idiomas de código aberto, como R ou Python.

Mesmo que faça a maior parte do seu trabalho no Azure Machine Learning Studio (clássico), há momentos em que poderá achar útil converter o seu conjunto de dados em CSV para usar em ferramentas externas. Por exemplo:

  • Faça o download do ficheiro CSV para o abrir com o Excel, ou importe-o numa base de dados relacional.
  • Guarde o ficheiro CSV para o armazenamento em nuvem e conecte-o a partir do Power BI para criar visualizações.
  • Utilize o formato CSV para preparar dados para utilização em R e Python. Basta clicar com a direita na saída do módulo para gerar o código necessário para aceder diretamente aos dados a partir de Python ou de um bloco de notas Jupyter.

Quando converte um conjunto de dados para CSV, o ficheiro é guardado no seu espaço de trabalho Azure ML. Pode utilizar um utilitário de armazenamento Azure para abrir e utilizar o ficheiro diretamente, ou pode clicar corretamente na saída do módulo e descarregar o ficheiro CSV para o seu computador, ou usá-lo em código R ou Python.

Como configurar Converter em CSV

  1. Adicione o módulo Convertendo-o em CSV à sua experiência. Pode encontrar este módulo no grupo de Conversões de Formato de Dados em Estúdio (clássico).

  2. Conecte-o a qualquer módulo que produza um conjunto de dados.

  3. Executar a experiência, ou clicar no módulo Converte para CSV, e clique em Executar selecionado.

Resultados

Clique duas vezes na saída de Converter para CSVe selecione uma destas opções.

  • Download: Abre imediatamente uma cópia dos dados no formato CSV que pode guardar para uma pasta local. Se não especificar uma pasta, é aplicado um nome de ficheiro predefinido e o ficheiro CSV é guardado na biblioteca local de Downloads.

    Se selecionar O conjunto de dados de descarregamento, tem de indicar se pretende abrir o conjunto de dados ou guardá-lo num ficheiro local.

    Se selecionar Open, o conjunto de dados é carregado utilizando a aplicação que está associada por predefinição a . Ficheiros CSV: por exemplo, Microsoft Excel.

    Se selecionar O conjunto de dados de descarregamento, por predefinição, o ficheiro é guardado com o nome do módulo mais um GUIADO que representa o ID do espaço de trabalho. No entanto, pode selecionar a opção Guardar como durante o download e alterar o nome ou localização do ficheiro.

  • Guardar como conjunto de dados: Guarde o ficheiro CSV de volta para o espaço de trabalho Azure ML como um conjunto de dados separado.

  • Gerar Código de Acesso a Dados: Azure ML gera dois conjuntos de código para aceder aos dados, quer utilizando Python, quer utilizando R. Para aceder aos dados, copie o código na sua aplicação.

  • Abra num novo Caderno: Um novo caderno Jupyter é criado para si e um código inserido para a leitura dos dados do seu espaço de trabalho, utilizando o idioma à sua escolha: Python 2, Python 3 ou R com Microsoft R Open.

    Por exemplo, se escolher a opção R, é fornecido o código R da amostra que carrega o ficheiro CSV numa moldura de dados e exibe as primeiras linhas utilizando a head função.

Notas técnicas

Esta secção contém detalhes de implementação, dicas e respostas a perguntas frequentes.

Requisitos do formato CSV

O formato de ficheiro CSV é um formato popular suportado por muitos quadros de machine learning. O formato é várias vezes referido a "valores separados por vírgula" ou "valores separados pelo carácter".

Um ficheiro CSV armazena dados tabulares (números e texto) em formato de texto simples. Um ficheiro CSV consiste em qualquer número de registos, separados por quebras de linha de algum tipo. Cada registo é composto por campos, separados por uma vírgula literal. Em algumas regiões, o separador pode ser um ponto-e-cólon.

Normalmente, todos os registos têm um número idêntico de campos, e os valores em falta são representados como nulos ou cordas vazias.

Dica

Pode facilmente exportar dados do Excel, Access ou uma base de dados relacional em ficheiros CSV, para utilizar no Azure Machine Learning. Embora os nomes de ficheiros normalmente tenham o . Extensão CSV, Azure Machine Learning não requer que esta extensão do nome de ficheiro esteja presente se quiser importar os dados como CSV. Pode importar XLSX, TXT e outros ficheiros como CSV. No entanto, os campos do ficheiro devem ser formatados conforme descrito na secção anterior, e o ficheiro deve utilizar a codificação UTF-8.

Questões e questões comuns

Esta secção descreve alguns problemas conhecidos, questões comuns e soluções específicas para o módulo Converte para CSV.

Cabeçalhos devem ser linhas únicas

O formato de ficheiro CSV utilizado no Azure Machine Learning suporta uma única linha de cabeçalho. Não é possível inserir cabeçalhos multi-linhas.

Separadores personalizados apoiados na importação, mas não exportação

O módulo Converte-se para CSV não suporta a geração de separadores de colunas alternativas, como o ponto e vírgula (;), que é frequentemente utilizado na Europa.

No entanto, quando importa dados de ficheiros CSV em armazenamento externo, pode especificar separadores alternativos. No módulo Dados de Importação, selecione o CSV com a opção codificação e escolha uma codificação suportada.

Separação de colunas imprecisas em dados de cadeias que contenham vírgulas

É um problema comum no processamento de texto que praticamente todos os caracteres que podem ser especificados como separadores de colunas (separadores, espaços, vírgulas, etc.) também podem ser encontrados aleatoriamente em campos de texto. Importar texto do CSV requer sempre cautela para evitar separar o texto em novas colunas desnecessárias.

Quando se tenta exportar uma coluna de dados de cordas que contém vírgulas, também poderá ter problemas. O Azure Machine Learning não suporta qualquer manipulação especial ou tradução especial desses dados, tais como a cobertura de cordas em aspas. Além disso, não é possível usar caracteres de fuga antes de uma vírgula para garantir que as vírgulas são tratadas como um personagem literal.

Portanto, novos campos são criados no ficheiro de saída para cada vírgula que é encontrado no campo de cordas. Para evitar este problema, existem várias soluções alternativas:

  • Utilize o módulo de texto pré-processamento para remover caracteres de pontuação dos campos de cordas.

  • Use script R personalizado ou script Python para processar texto e certifique-se de que os dados podem ser exportados corretamente.

Codificação UTF-8 necessária

O módulo Converte para CSV suporta apenas a codificação de caracteres UTF-8. Se precisar de exportar dados utilizando uma codificação diferente, pode Execute Python Script tentar utilizar os módulos executantes de scripts de python para gerar saída personalizada.

Conjunto de dados não tem nomes de colunas

Se o conjunto de dados que está a exportar para um ficheiro CSV não tiver nomes de colunas, recomendamos que utilize Metadados de Edição para adicionar nomes de colunas antes de o converter. Não é possível adicionar nomes de colunas como parte do processo de conversão ou exportação.

SYLK: O formato de ficheiro não é válido

Se a primeira coluna do conjunto de dados que converte para CSV tiver o nome ID, poderá obter o seguinte erro quando tentar abrir o ficheiro no Excel:

 "SYLK: File format is not valid."  

Para evitar este erro, deve mudar o nome da coluna. Para mais informações, consulte https://support.microsoft.com/kb/215591

Preciso de ajuda para importar do CSV.

Para importar, não utilize o módulo Export para CSV. Em vez disso, utilize o módulo de Dados de Importação.

Para obter informações gerais sobre a importação de CSV, consulte estes recursos:

Entradas esperadas

Nome Tipo Descrição
Conjunto de dados Tabela de Dados Conjunto de dados de entrada

Saída

Nome Tipo Descrição
Conjunto de dados de resultados GenéricoCsv Conjunto de dados de saída

Ver também

Conversões de formato de dados
Lista de Módulos A-Z