Introduzir os Dados Manualmente

Importante

O suporte para o Estúdio de ML (clássico) terminará a 31 de agosto de 2024. Recomendamos a transição para o Azure Machine Learning até essa data.

A partir de 1 de dezembro de 2021, não poderá criar novos recursos do Estúdio de ML (clássico). Até 31 de agosto de 2024, pode continuar a utilizar os recursos existentes do Estúdio de ML (clássico).

A documentação do Estúdio de ML (clássico) está a ser descontinuada e poderá não ser atualizada no futuro.

Permite introduzir e editar pequenos conjuntos de dados digitando valores

Categoria: Transformação de Dados / Manipulação

Nota

Aplica-se a: Machine Learning Studio (clássico) apenas

Módulos semelhantes de arrasto e queda estão disponíveis em Azure Machine Learning designer.

Visão geral do módulo

Este artigo descreve como utilizar o módulo Entrar Manualmente em Machine Learning Studio (clássico), para criar um pequeno conjunto de dados através de valores de dactilografia. O conjunto de dados pode ter várias colunas.

Este módulo pode ser útil em cenários como estes:

Como utilizar introduzir dados manualmente

  1. Adicione o módulo de dados de entrada manualmente à sua experiência. Pode encontrar este módulo na categoria entrada e saída de dados no Machine Learning Studio (clássico).

  2. Para DataFormat, selecione uma das seguintes opções. Estas opções determinam como os dados que fornece devem ser analisados. Os requisitos para cada formato diferem muito, por isso não se esqueça de ler os tópicos relacionados.

    • O ARFF. O formato de ficheiro de relação de atributo, usado pela Weka. Para mais informações, consulte Converter em ARFF.

    • CSV. Formato de valores separados em vírgula. Para mais informações, consulte Converter em CSV.

    • SVMLight. Um formato usado por Vowpal Wabbit e outros quadros de aprendizagem automática. Para mais informações, consulte Converter em SVMLight.

    • A TSV. Formato de valores separados por separados por separados. Para mais informações, consulte Converter em TSV.

    Se escolher um formato e não fornecer dados que satisfaçam as especificações do formato, ocorre um erro de tempo de execução.

  3. Clique dentro da caixa de texto de Dados para começar a introduzir dados. Os seguintes formatos requerem uma atenção especial:

    • CSV: Para criar várias colunas, cole em texto separado de vírgula, ou digite várias colunas utilizando vírgulas entre campos.

      Se selecionar a opção HasHeader , pode utilizar a primeira linha de valores como título de coluna.

      Se desmarcar esta opção, os nomes das colunas, Col1, Col2 e assim por diante são usados. Pode adicionar ou alterar nomes de colunas mais tarde usando Editar Metadados.

    • TSV: Para criar várias colunas, cole em texto separado do separado por separado por separados do separador ou escreva várias colunas utilizando separadores entre campos.

      Se selecionar a opção HasHeader , pode utilizar a primeira linha de valores como título de coluna.

      Se desmarcar esta opção, os nomes das colunas, Col1, Col2 e assim por diante são usados. Pode adicionar ou alterar nomes de colunas mais tarde usando Editar Metadados.

    • Pasta num ficheiro de formato ARFF existente. Se estiver a digitar valores diretamente, certifique-se de adicionar o cabeçalho opcional e os campos de atributos necessários no início dos dados.

      Por exemplo, as seguintes linhas de cabeçalho e atributos poderiam ser adicionadas a uma lista simples. O título da coluna seria SampleText.

      % Title: SampleText.ARFF  
      % Source: Enter Data module  
      @ATTRIBUTE SampleText STRING  
      @DATA  
      \<type first data row here>  
      
    • SVMLight: Digite ou cole em valores utilizando o formato SVMLight.

      Por exemplo, a seguinte amostra representa as primeiras linhas paríquiais do conjunto de dados de doação de sangue, em formato SVMight:

      # features are [Recency], [Frequency], [Monetary], [Time]  
      1 1:2 2:50 3:12500 4:98   
      1 1:0 2:13 3:3250 4:28   
      

      Quando executam o módulo 'Inserir Manualmente' , estas linhas são convertidas para um conjunto de dados de colunas e valores de índice da seguinte forma:

      Col1 Col2 Col3 Col4 Etiquetas
      0.00016 0.004 0.999961 0.00784 1
      0 0.004 0.999955 0.008615 1
  4. Prima ENTER depois de cada linha, para iniciar uma nova linha.

    Certifique-se de que pressiona ENTER após a última fila.

    Se premir ENTER várias vezes para adicionar várias linhas de fuga vazias, a última linha vazia é removida aparada, mas outras linhas vazias são tratadas como valores em falta.

    Se criar linhas com valores em falta, pode sempre filtrá-las mais tarde.

  5. Clique com o botão direito no módulo e selecione Executar selecionado para analisar os dados e carregá-lo no seu espaço de trabalho como um conjunto de dados.

    Para ver o conjunto de dados, clique na porta de saída e selecione Visualize.

Exemplos

Por exemplo, como este módulo é usado na aprendizagem automática, consulte a Galeria Azure AI:

  • Descarregar amostra de dados: Obtém dados do repositório Machine Learning UCI e, em seguida, utiliza introduzir dados manualmente para criar nomes de colunas. O código de amostra R também é fornecido, que pode utilizar para fundir as linhas inseridas com o conjunto de dados.

Notas técnicas

Esta secção contém detalhes de implementação, dicas e respostas a perguntas frequentes.

  • Independentemente do formato guardado, os dados que introduz são implicitamente convertidos no formato dataset (Data Table) para utilização em experiências. No entanto, os dados não são persistidos como um conjunto de dados guardado, a menos que escolha explicitamente a opção Guardar como conjunto de dados .

    Se não guardar os dados em Introduzir dados Manualmente como conjunto de dados, este é removido da cache do espaço de trabalho quando termina a sessão. No entanto, pode executar a experiência novamente para disponibilizar os dados.

  • Se combinar os dados de Introduzir dados manualmente com outro conjunto de dados, o conjunto de dados combinado não pode ter duas colunas com o mesmo nome. Se existirem nomes de colunas duplicados, um sufixo numérico é anexado à coluna a partir do conjunto de dados certo para tornar os nomes das colunas únicos.

    Por exemplo, assuma que tem duas instâncias de Introduzir dados manualmente que contêm a coluna TestData, e use o módulo Add Columns para os fundir. A coluna a partir da instância esquerda de Introduzir dados manualmente permaneceria como TestData, e a coluna da instância direita de Inserir Dados Manualmente seria renomeada TestData (2).

Ver também

Entrada e saída de dados
Lista de Módulos A-Z