Introduzir os Dados Manualmente

Permite introduzir e editar pequenos conjuntos de dados digitando valores

Categoria: Transformação de Dados / Manipulação

Nota

Aplica-se a: Machine Learning Studio (clássico)

Este conteúdo diz respeito apenas ao Studio (clássico). Módulos semelhantes de arrasto e queda foram adicionados ao designer de Aprendizagem automática Azure. Saiba mais neste artigo comparando as duas versões.

Visão geral do módulo

Este artigo descreve como utilizar o módulo Entrar Manualmente em Azure Machine Learning Studio (clássico), para criar um pequeno conjunto de dados através de valores de dactilografia. O conjunto de dados pode ter várias colunas.

Este módulo pode ser útil em cenários como estes:

Como utilizar introduzir dados manualmente

  1. Adicione o módulo de dados de entrada manualmente à sua experiência. Pode encontrar este módulo na categoria entrada e saída de dados no Azure Machine Learning Studio (clássico).

  2. Para DataFormat, selecione uma das seguintes opções. Estas opções determinam como os dados que fornece devem ser analisados. Os requisitos para cada formato diferem muito, por isso não se esqueça de ler os tópicos relacionados.

    • ARFF. O formato de ficheiro de relação de atributo, usado pela Weka. Para obter mais informações, consulte Converter em ARFF.

    • CSV. Formato de valores separados por vírgula. Para mais informações, consulte Converter em CSV.

    • SVMLight. Um formato utilizado pela Vowpal Wabbit e outros quadros de aprendizagem automática. Para obter mais informações, consulte Converter em SVMLight.

    • TSV. Formato de valores separados por separados. Para mais informações, consulte Converter em TSV.

    Se escolher um formato e não fornecer dados que satisfaçam as especificações do formato, ocorre um erro de tempo de execução.

  3. Clique dentro da caixa de texto de Dados para começar a introduzir dados. Os seguintes formatos requerem uma atenção especial:

    • CSV: Para criar várias colunas, cole em texto separado de vírgula ou escreva várias colunas utilizando vírgulas entre campos.

      Se selecionar a opção HasHeader, pode utilizar a primeira linha de valores como título de coluna.

      Se desmarcar esta opção, os nomes das colunas, Col1, Col2 e assim por diante são usados. Pode adicionar ou alterar nomes de colunas mais tarde utilizando Metadados de Edição.

    • TSV: Para criar várias colunas, cole em texto separado do separado por separados por separados do separador ou escreva várias colunas utilizando separadores entre campos.

      Se selecionar a opção HasHeader, pode utilizar a primeira linha de valores como título de coluna.

      Se desmarcar esta opção, os nomes das colunas, Col1, Col2 e assim por diante são usados. Pode adicionar ou alterar nomes de colunas mais tarde utilizando Metadados de Edição.

    • ARFF: Cole num ficheiro de formato ARFF existente. Se estiver a digitar valores diretamente, certifique-se de adicionar o cabeçalho opcional e os campos de atributos necessários no início dos dados.

      Por exemplo, as seguintes linhas de cabeçalho e atributos poderiam ser adicionadas a uma lista simples. O título da coluna SampleText seria.

      % Title: SampleText.ARFF  
      % Source: Enter Data module  
      @ATTRIBUTE SampleText STRING  
      @DATA  
      \<type first data row here>  
      
    • SVMLight: Digite ou cole em valores utilizando o formato SVMLight.

      Por exemplo, a amostra a seguir representa as primeiras linhas de casal do conjunto de dados de dádiva de sangue, em formato SVMight:

      # features are [Recency], [Frequency], [Monetary], [Time]  
      1 1:2 2:50 3:12500 4:98   
      1 1:0 2:13 3:3250 4:28   
      

      Quando executam o módulo 'Inserir Manualmente', estas linhas são convertidas para um conjunto de dados de colunas e valores de índice da seguinte forma:

      Col1 Col2 Col3 Col4 Etiquetas
      0.00016 0.004 0.999961 0.00784 1
      0 0.004 0.999955 0.008615 1
  4. Prima ENTER depois de cada linha, para iniciar uma nova linha.

    Certifique-se de que pressiona ENTER após a última fila.

    Se premir ENTER várias vezes para adicionar várias linhas de fuga vazias, a última linha vazia é removida aparada, mas outras linhas vazias são tratadas como valores em falta.

    Se criar linhas com valores em falta, pode sempre filtrá-las mais tarde.

  5. Clique com o botão direito no módulo e selecione Executar selecionado para analisar os dados e carregá-lo no seu espaço de trabalho como um conjunto de dados.

    Para ver o conjunto de dados, clique na porta de saída e selecione Visualize.

Exemplos

Por exemplo, como este módulo é usado na aprendizagem automática, consulte a Galeria Azure AI:

  • Download Data sample: Obtém dados do repositório de machine learning da UCI e, em seguida, utiliza introduzir dados manualmente para criar nomes de colunas. O código de amostra R também é fornecido, que pode utilizar para fundir as linhas inseridas com o conjunto de dados.

Notas técnicas

Esta secção contém detalhes de implementação, dicas e respostas a perguntas frequentes.

  • Independentemente do formato guardado, os dados que introduz são implicitamente convertidos para o formato dataset(Data Table)para utilização em experiências. No entanto, os dados não são persistidos como um conjunto de dados guardado, a menos que escolha explicitamente a opção Guardar como conjunto de dados.

    Se não guardar os dados em Introduzir dados Manualmente como conjunto de dados, este é removido da cache do espaço de trabalho quando termina a sessão. No entanto, pode executar a experiência novamente para disponibilizar os dados.

  • Se combinar os dados de Introduzir dados manualmente com outro conjunto de dados, o conjunto de dados combinado não pode ter duas colunas com o mesmo nome. Se existirem nomes de colunas duplicados, um sufixo numérico é anexado à coluna a partir do conjunto de dados certo para tornar os nomes das colunas únicos.

    Por exemplo, assuma que tem duas instâncias de Introduzir dados manualmente que contêm a coluna TestData, e use o módulo Add Columns para os fundir. A coluna a partir da instância esquerda de Introduzir dados manualmente permaneceria como TestData, e a coluna a partir da instância direita de Inserir Dados Manualmente seria renomeada TestData (2).

Ver também

Entrada e saída de dados
Lista de Módulos A-Z