Converter em Conjunto de Dados

Importante

O suporte para o Estúdio de ML (clássico) terminará a 31 de agosto de 2024. Recomendamos a transição para o Azure Machine Learning até essa data.

A partir de 1 de dezembro de 2021, não poderá criar novos recursos do Estúdio de ML (clássico). Até 31 de agosto de 2024, pode continuar a utilizar os recursos existentes do Estúdio de ML (clássico).

A documentação do Estúdio de ML (clássico) está a ser descontinuada e poderá não ser atualizada no futuro.

Converte a entrada de dados no formato interno dataset utilizado pela Microsoft Machine Learning

Categoria: Conversões de formato de dados

Nota

Aplica-se a: Machine Learning Studio (clássico) apenas

Módulos semelhantes de arrasto e queda estão disponíveis em Azure Machine Learning designer.

Visão geral do módulo

Este artigo descreve como usar o módulo Converte para Dataset em Machine Learning Studio (clássico), para converter quaisquer dados que possa precisar para uma experiência no formato interno usado pelo Studio (clássico).

A conversão não é necessária na maioria dos casos, porque Machine Learning converte implicitamente os dados para o seu formato de conjunto de dados nativo quando qualquer operação é realizada nos dados.

No entanto, é recomendada a poupança de dados para o formato do conjunto de dados se tiver realizado algum tipo de normalização ou limpeza num conjunto de dados, e pretende garantir que as alterações são utilizadas em outras experiências.

Nota

Converter para Dataset altera apenas o formato dos dados, e não guarda uma nova cópia dos dados no espaço de trabalho. Para guardar o conjunto de dados, clique duas vezes na porta de saída, selecione Guardar como conjunto de dados e digite um novo nome.

Como utilizar Converter para conjunto de dados

Recomendamos que utilize o módulo editar metadados para preparar o conjunto de dados antes de utilizar o Conjunto de Dados. Pode adicionar ou alterar nomes de colunas, ajustar tipos de dados e assim por diante.

  1. Adicione o módulo Convertendo-se à sua experiência. Pode encontrar este módulo na categoria De Conversão de Formato de Dados no Machine Learning Studio (clássico).

  2. Ligação-o a qualquer módulo que produza um conjunto de dados.

    Enquanto os dados são tabulares, pode convertê-lo num conjunto de dados. Isto inclui dados carregados usando Dados de Importação, dados criados através da utilização de Dados de Introdução Manualmente, dados gerados por código em módulos personalizados, conjuntos de dados transformados através da utilização de Apply Transformation, ou conjuntos de dados que foram gerados ou modificados através da utilização da Transformação de SQL.

  3. Na lista de retirada de Ação , indique se pretende fazer qualquer limpeza nos dados antes de guardar o conjunto de dados:

    • Nenhum: Use os dados como está.

    • SetMissingValue: Especifique um espaço reservado que esteja inserido no conjunto de dados onde quer que haja um valor em falta. O espaço reservado padrão é o personagem de ponto de interrogação (?), mas pode usar a opção de valor em falta personalizada para escrever um valor diferente.

    • SubstituirValues: Utilize esta opção para especificar um único valor exato a ser substituído por qualquer outro valor exato. Por exemplo, assumindo que os seus dados contêm a cadeia obs utilizada como espaço reservado para valores em falta, pode especificar uma operação de substituição personalizada utilizando estas opções:

      1. Definir Substituir por Personalizado

      2. Para valor personalizado, digite o valor que pretende encontrar. Neste caso, escreveria obs.

      3. Para novo valor, digite o novo valor para substituir a cadeia original. Neste caso, pode escrever ?

    Note que a operação SubstituValues se aplica apenas a correspondências exatas. Por exemplo, estas cordas não seriam afetadas: obs.. . obsolete.

    • SparseOutput: Indica que o conjunto de dados é escasso. Ao criar um vetor de dados escasso, pode garantir que os valores em falta não afetam uma distribuição de dados escassa. Depois de escolher esta opção, deve indicar como os valores em falta e os valores zero devem ser manuseados.

    Para remover qualquer valor que não seja zero, clique na opção Remover e digite um único valor para remover. Pode remover valores em falta ou definir um valor personalizado para eliminar do vetor. Só serão removidos fósforos exatos. Por exemplo, se escrever x na caixa de texto 'Remover valor ', a linha xx não será afetada.

    Por predefinição, a opção Remove zeros é definida para True, o que significa que todos os valores zero são removidos quando a coluna de sparse é criada.

  4. Executar a experiência, ou clique com o botão direito do módulo Converter para Conjunto de Dados e selecione Executar selecionado.

Resultados

  • Para guardar o conjunto de dados resultante com um novo nome, clique com o direito na saída de Converter para Conjunto de Dados e selecione Guardar como Conjunto de Dados.

Exemplos

Pode ver exemplos de como o módulo Converte para Conjunto de Dados é utilizado na Galeria Azure AI:

  • Amostra de CRM: Lê a partir de um conjunto de dados partilhado e guarda uma cópia do conjunto de dados no espaço de trabalho local.

  • Exemplo de Atraso de Voo: Guarda um conjunto de dados que foi limpo substituindo os valores em falta para que possa usá-lo para experiências futuras.

Notas técnicas

Esta secção contém detalhes de implementação, dicas e respostas a perguntas frequentes.

  • Qualquer módulo que tenha um conjunto de dados como entrada também pode tirar dados nos formatos CSV, TSV ou ARFF. Antes de qualquer código do módulo ser executado, é realizado o pré-processamento das entradas, o que equivale a executar o módulo Convertendo para Conjunto de Dados na entrada.

  • Não é possível converter do formato SVMLight para conjunto de dados.

  • Ao especificar uma operação de substituição personalizada, a operação de busca e substituição aplica-se a valores completos; fósforos parciais não são permitidos. Por exemplo, pode substituir um 3 por um -1 ou 33, mas não pode substituir um 3 num número de dois dígitos, como 35.

  • Para operações de substituição personalizadas, a substituição falhará silenciosamente se utilizar como substituto qualquer personagem que não esteja em conformidade com o tipo de dados atual da coluna.

  • Se precisar de guardar dados que utilizem dados numéricos que sejam escassos e que faltem aos valores, internamente, o Studio (clássico) suporta matrizes escassas utilizando um SparseVector, que é uma classe na biblioteca numérica Math.NET. Prepare os seus dados que utilizam zeros e tenha valores em falta e, em seguida, use Converter para conjunto de dados com os argumentos SparseOutput e Remove Zeros = TRUE.

Entradas esperadas

Nome Tipo Description
Conjunto de dados Tabela de Dados Conjunto de dados de entrada

Parâmetros do módulo

Nome Intervalo Tipo Predefinição Description
Ação Lista Método de Ação Nenhuma Ação a aplicar ao conjunto de dados de entrada

Saída

Nome Tipo Description
Conjunto de dados de resultados Tabela de Dados Conjunto de dados de saída

Ver também

Conversões de formato de dados
Lista de Módulos A-Z