Inserir Dados Manualmente

Permite inserir e editar pequenos conjuntos de dados digitando valores

Categoria: transformação/manipulação de dados

Observação

Aplica-se a: Machine Learning Studio (clássico)

Esse conteúdo pertence apenas ao estúdio (clássico). Módulos de arrastar e soltar semelhantes foram adicionados ao designer de Azure Machine Learning. Saiba mais neste artigo comparando as duas versões.

Visão geral do módulo

Este artigo descreve como usar o módulo inserir dados manualmente no Azure Machine Learning Studio (clássico), para criar um pequeno DataSet digitando valores. O conjunto de linhas pode ter várias colunas.

Esse módulo pode ser útil em cenários como estes:

  • Gerando um pequeno conjunto de valores para teste

  • Criando uma lista curta de rótulos

  • Inserindo valores para uso na operação aplicar matemática

  • Especificando valores de substituição para uso em substituir valores discretos

  • Digitar uma lista de nomes de coluna para inserir em um conjunto de dados

Como usar inserir dados manualmente

  1. Adicione o módulo inserir dados manualmente ao seu experimento. Você pode encontrar esse módulo na categoria entrada e saída de dados no Azure Machine Learning Studio (clássico).

  2. Em formato de DataFormat, selecione uma das opções a seguir. Essas opções determinam como os dados que você fornece devem ser analisados. Os requisitos para cada formato diferem muito, portanto, não deixe de ler os tópicos relacionados.

    • ARFF. O formato de arquivo de relação de atributo, usado pelo weka. Para obter mais informações, consulte converter em ARFF.

    • CSV. Formato de valores separados por vírgula. Para obter mais informações, consulte converter em CSV.

    • SVMLight. Um formato usado por Vowpal wabbit e outras estruturas de aprendizado de máquina. Para obter mais informações, consulte converter em SVMLight.

    • TSV. Formato de valores separados por tabulação. Para obter mais informações, consulte converter em TSV.

    Se você escolher um formato e não fornecer dados que atendam às especificações de formato, ocorrerá um erro em tempo de execução.

  3. Clique dentro da caixa de texto dados para começar a inserir dados. Os formatos a seguir exigem atenção especial:

    • CSV: para criar várias colunas, Cole o texto separado por vírgulas ou digite várias colunas usando vírgulas entre os campos.

      Se você selecionar a opção HasHeader , poderá usar a primeira linha de valores como o título de coluna.

      Se você desmarcar essa opção, os nomes das colunas, Col1, Col2 e assim por diante serão usados. Você pode adicionar ou alterar nomes de colunas posteriormente usando Editar metadados.

    • TSV: para criar várias colunas, cole em texto separado por tabulações ou digite várias colunas usando guias entre campos.

      Se você selecionar a opção HasHeader , poderá usar a primeira linha de valores como o título de coluna.

      Se você desmarcar essa opção, os nomes das colunas, Col1, Col2 e assim por diante serão usados. Você pode adicionar ou alterar nomes de colunas posteriormente usando Editar metadados.

    • ARFF: colar um arquivo de formato ARFF existente. Se você estiver digitando valores diretamente, certifique-se de adicionar o cabeçalho opcional e os campos de atributo necessários no início dos dados.

      Por exemplo, as linhas de cabeçalho e de atributo a seguir podem ser adicionadas a uma lista simples. O título da coluna seria SampleText .

      % Title: SampleText.ARFF  
      % Source: Enter Data module  
      @ATTRIBUTE SampleText STRING  
      @DATA  
      \<type first data row here>  
      
    • SVMLight: digite ou cole valores usando o formato SVMLight.

      Por exemplo, o exemplo a seguir representa as primeiras linhas do conjunto de linha de doação de sangue, no formato SVMight:

      # features are [Recency], [Frequency], [Monetary], [Time]  
      1 1:2 2:50 3:12500 4:98   
      1 1:0 2:13 3:3250 4:28   
      

      Quando você executa o módulo inserir dados manualmente , essas linhas são convertidas em um conjunto de valores de colunas e de índice da seguinte maneira:

      Col1 Col2 Col3 Col4 Rótulos
      0, 16 0, 4 0,999961 0, 784 1
      0 0, 4 0,999955 0, 8615 1
  4. Pressione ENTER após cada linha para iniciar uma nova linha.

    Certifique-se de pressionar ENTER após a linha final.

    Se você pressionar ENTER várias vezes para adicionar várias linhas à direita vazias, a linha final vazia será removida, mas outras linhas vazias serão tratadas como valores ausentes.

    Se você criar linhas com valores ausentes, você sempre poderá filtrá-los mais tarde.

  5. Clique com o botão direito do mouse no módulo e selecione executar selecionado para analisar os dados e carregá-los em seu espaço de trabalho como um conjunto.

    Para exibir o conjunto de resultados, clique na porta de saída e selecione Visualizar.

Exemplos

Para obter exemplos de como esse módulo é usado no aprendizado de máquina, consulte o Galeria de ia do Azure:

  • Exemplo de download de dados: Obtém dados do repositório do Machine Learning UCI e, em seguida, usa inserir dados manualmente para criar nomes de coluna. Código de exemplo R também é fornecido, que pode ser usado para mesclar as linhas inseridas com o conjunto de dados.

Observações técnicas

Esta seção contém detalhes de implementação, dicas e respostas para perguntas frequentes.

  • Independentemente do formato salvo, os dados inseridos são convertidos implicitamente no formato do conjunto dedados (tabela de data) para uso em experimentos. No entanto, os dados não são persistidos como um DataSet salvo, a menos que você escolha explicitamente a opção salvar como conjunto de dados.

    Se você não salvar os dados inserindo manualmente como um conjunto de dados, ele será removido do cache do espaço de trabalho quando você encerrar a sessão. No entanto, você pode executar o experimento novamente para disponibilizar os dados.

  • Se você combinar os dados de inserir dados manualmente com outro DataSet, o DataSet combinado não poderá ter duas colunas com o mesmo nome. Se houver nomes de coluna duplicados, um sufixo numérico será anexado à coluna do conjunto de valores à direita para tornar os nomes de coluna exclusivos.

    Por exemplo, suponha que você tenha duas instâncias de inserir dados manualmente que contenham a coluna TestData e use o módulo adicionar colunas para mesclá-las. A coluna da instância à esquerda de inserir dados manualmente permaneceria como TestData, e a coluna da instância direita de inserir dados manualmente seria renomeada TestData (2).

Confira também

Entrada e saída de dados
Lista de Módulo A-Z