Inserir Dados Manualmente

Importante

O suporte para o Machine Learning Studio (clássico) terminará em 31 de agosto de 2024. É recomendável fazer a transição para o Azure Machine Learning até essa data.

A partir de 1º de dezembro de 2021, você não poderá criar recursos do Machine Learning Studio (clássico). Até 31 de agosto de 2024, você pode continuar usando os recursos existentes do Machine Learning Studio (clássico).

A documentação do ML Studio (clássico) está sendo desativada e pode não ser atualizada no futuro.

Permite inserir e editar pequenos conjuntos de dados digitando valores

Categoria: transformação/manipulação de dados

Observação

aplica-se a: somente Machine Learning Studio (clássico)

Módulos semelhantes do tipo "arrastar e soltar" estão disponíveis no designer do Azure Machine Learning.

Visão geral do módulo

este artigo descreve como usar o módulo inserir dados manualmente no Machine Learning Studio (clássico), para criar um pequeno dataset digitando valores. O conjunto de dados pode ter várias colunas.

Esse módulo pode ser útil em cenários como estes:

  • Gerando um pequeno conjunto de valores para teste

  • Criando uma lista curta de rótulos

  • Inserindo valores para uso na operação aplicar matemática

  • Especificando valores de substituição para uso em substituir valores discretos

  • Digitar uma lista de nomes de coluna para inserir em um conjunto de dados

Como usar inserir dados manualmente

  1. Adicione o módulo inserir dados manualmente ao seu experimento. você pode encontrar esse módulo na categoria entrada e saída de dados no Machine Learning Studio (clássico).

  2. Em Formato dos dados, escolha uma das opções a seguir. Essas opções determinam como analisar os dados que você informa. Os requisitos para cada formato variam muito. Portanto, não deixe de ler os tópicos relacionados.

    • ARFF. O formato de arquivo de relação de atributo, usado pelo weka. Para obter mais informações, consulte converter em ARFF.

    • CSV. Formato de valores separados por vírgula. Para mais informações, confira Converter em CSV.

    • SVMLight. Um formato usado por Vowpal wabbit e outras estruturas de aprendizado de máquina. Para obter mais informações, consulte converter em SVMLight.

    • TSV. Formato de valores separados por tabulação. Para obter mais informações, consulte converter em TSV.

    Se você escolher um formato e não fornecer dados que atendam às especificações de formato, ocorrerá um erro em tempo de execução.

  3. Clique dentro da caixa de texto Dados para começar a inserir dados. Os seguintes formatos exigem atenção especial:

    • CSV: para criar várias colunas, Cole o texto separado por vírgulas ou digite várias colunas usando vírgulas entre os campos.

      Se você escolher a opção HasHeader, poderá usar a primeira linha de valores como o título de coluna.

      Se você desmarcar essa opção, os nomes das colunas, Col1, Col2 e assim por diante serão usados. Você pode adicionar ou alterar nomes de colunas posteriormente usando Editar metadados.

    • TSV: para criar várias colunas, cole em texto separado por tabulações ou digite várias colunas usando guias entre campos.

      Se você escolher a opção HasHeader, poderá usar a primeira linha de valores como o título de coluna.

      Se você desmarcar essa opção, os nomes das colunas, Col1, Col2 e assim por diante serão usados. Você pode adicionar ou alterar nomes de colunas posteriormente usando Editar metadados.

    • ARFF: cole um arquivo de formato ARFF existente. Se você estiver digitando valores diretamente, certifique-se de adicionar o cabeçalho opcional e os campos de atributo necessários no início dos dados.

      Por exemplo, as linhas de cabeçalho e de atributo a seguir podem ser adicionadas a uma lista simples. O título de coluna seria SampleText.

      % Title: SampleText.ARFF  
      % Source: Enter Data module  
      @ATTRIBUTE SampleText STRING  
      @DATA  
      \<type first data row here>  
      
    • SVMLight: digite ou cole valores usando o formato SVMLight.

      Por exemplo, o exemplo a seguir representa as primeiras linhas do conjunto de linha de doação de sangue, no formato SVMight:

      # features are [Recency], [Frequency], [Monetary], [Time]  
      1 1:2 2:50 3:12500 4:98   
      1 1:0 2:13 3:3250 4:28   
      

      Quando você executa o módulo Inserir dados manualmente, essas linhas são convertidas em um conjunto de dados de colunas e valores de índice, como os seguintes:

      Col1 Col2 Col3 Col4 Rótulos
      0,00016 0,004 0,999961 0,00784 1
      0 0,004 0,999955 0,008615 1
  4. Pressione ENTER após cada linha para iniciar uma nova linha.

    Certifique-se de pressionar ENTER após a linha final.

    Se você pressionar ENTER várias vezes para adicionar várias linhas à direita vazias, a linha final vazia será removida, mas outras linhas vazias serão tratadas como valores ausentes.

    Se você criar linhas com valores ausentes, poderá filtrá-las posteriormente.

  5. Clique com o botão direito do mouse no módulo e selecione executar selecionado para analisar os dados e carregá-los em seu espaço de trabalho como um conjunto.

    Para exibir o conjunto de resultados, clique na porta de saída e selecione Visualizar.

Exemplos

Para obter exemplos de como esse módulo é usado no aprendizado de máquina, consulte o Galeria de ia do Azure:

  • exemplo de Download de dados: obtém dados do repositório do Machine Learning UCI e, em seguida, usa inserir dados manualmente para criar nomes de coluna. Código de exemplo R também é fornecido, que pode ser usado para mesclar as linhas inseridas com o conjunto de dados.

Observações técnicas

Esta seção contém detalhes de implementação, dicas e respostas para perguntas frequentes.

  • Independentemente do formato salvo, os dados inseridos são convertidos implicitamente no formato do conjunto dedados (tabela de data) para uso em experimentos. No entanto, os dados não são persistidos como um DataSet salvo, a menos que você escolha explicitamente a opção salvar como conjunto de dados.

    Se você não salvar os dados inserindo manualmente como um conjunto de dados, ele será removido do cache do espaço de trabalho quando você encerrar a sessão. No entanto, você pode executar o experimento novamente para disponibilizar os dados.

  • Se você combinar os dados de inserir dados manualmente com outro DataSet, o DataSet combinado não poderá ter duas colunas com o mesmo nome. Se houver nomes de coluna duplicados, um sufixo numérico será anexado à coluna do conjunto de valores à direita para tornar os nomes de coluna exclusivos.

    Por exemplo, suponha que você tenha duas instâncias de inserir dados manualmente que contenham a coluna TestDatae use o módulo adicionar colunas para mesclá-las. A coluna da instância à esquerda de inserir dados manualmente permaneceria como TestData, e a coluna da instância direita de inserir dados manualmente seria renomeada TestData (2).

Confira também

Entrada e saída de dados
Lista de Módulo A-Z