Converter em conjunto de dados

Converte a entrada de dados no formato de conjunto de dados interno usado pelo Aprendizado de Máquina do Microsoft Azure

Categoria: conversões de formato de dados

Observação

Aplica-se a: Machine Learning Studio (clássico)

Esse conteúdo pertence apenas ao estúdio (clássico). Módulos de arrastar e soltar semelhantes foram adicionados ao designer de Azure Machine Learning. Saiba mais neste artigo comparando as duas versões.

Visão geral do módulo

Este artigo descreve como usar o módulo converter para conjunto de dados no Azure Machine Learning Studio (clássico), para converter todos os dados que você possa precisar para um experimento para o formato interno usado pelo Studio (clássico).

A conversão não é necessária na maioria dos casos, porque Azure Machine Learning converte implicitamente os dados em seu formato de conjunto do dados nativo quando qualquer operação é executada nos dados.

No entanto, salvar dados no formato do conjunto de dados será recomendado se fosse tiver executado algum tipo de normalização ou limpeza em um conjunto de dados e quiser garantir que as alterações sejam usadas em outros experimentos.

Observação

Converter para Conjunto de Dados altera somente o formato dos dados e não salva uma nova cópia dos dados no workspace. Para salvar o conjunto de resultados, clique duas vezes na porta de saída, selecione salvar como conjunto de conjuntos e digite um novo nome.

Como usar Convert para DataSet

Recomendamos que você use o módulo Editar metadados para preparar o conjunto de um antes de usar converter em conjunto deum. Você pode adicionar ou alterar nomes de colunas, ajustar tipos de dados e assim por diante.

  1. Adicione o módulo converter no conjunto de módulos ao seu experimento. Você pode encontrar esse módulo na categoria de conversões de formato de dados no Azure Machine Learning Studio (clássico).

  2. Conecte-o a qualquer módulo que produza um conjunto de um DataSet.

    Contanto que os dados sejam tabulares, você pode convertê-los em um DataSet. Isso inclui os dados carregados usando importar dados, os dados criados usando inserir dados manualmente, os dados gerados pelo código em módulos personalizados, DataSets transformados usando Apply Transformationou DataSets que foram gerados ou modificados usando Apply SQLTransformation.

  3. Na lista suspensa de ações , indique se você deseja fazer qualquer limpeza nos dados antes de salvar o DataSet:

    • Nenhum: Use os dados como estão.

    • Setexistvalue: especifique um espaço reservado que é inserido no conjunto de valores sempre que houver um valor ausente. O espaço reservado padrão é o caractere de ponto de interrogação (?), mas você pode usar a opção valor ausente personalizado para digitar um valor diferente.

    • ReplaceValues: Use essa opção para especificar um único valor exato a ser substituído por qualquer outro valor exato. Por exemplo, supondo que seus dados contenham a cadeia de caracteres obs usada como um espaço reservado para valores ausentes, você pode especificar uma operação personalizada de substituição usando estas opções:

      1. Definir substituir para personalizado

      2. Para valor personalizado, digite o valor que você deseja localizar. Nesse caso, você digitaria obs .

      3. Para novo valor, digite o novo valor com o qual substituir a cadeia de caracteres original. Nesse caso, você pode digitar ?

    Observe que a operação ReplaceValues se aplica somente a correspondências exatas. Por exemplo, essas cadeias de caracteres não seriam afetadas: obs. , obsolete .

    • SparseOutput: indica que o DataSet é esparso. Ao criar um vetor de dados esparsos, você pode garantir que os valores ausentes não afetem uma distribuição de dados esparsa. Depois de escolher essa opção, você deve indicar como valores ausentes e valores zero devem ser manipulados.

    Para remover qualquer valor diferente de zero, clique na opção remover e digite um único valor a ser removido. Você pode remover valores ausentes ou definir um valor personalizado para excluir do vetor. Somente as correspondências exatas serão removidas. Por exemplo, se você digitar x a caixa de texto remover valor , a linha xx não será afetada.

    Por padrão, a opção remover zeros é definida como True , o que significa que todos os valores zero são removidos quando a coluna esparsa é criada.

  4. Execute o experimento ou clique com o botão direito do mouse no módulo converter para conjunto de e selecione executar selecionado.

Resultados

  • Para salvar o conjunto de resultados resultante com um novo nome, clique com o botão direito do mouse na saída de Convert to DataSet e selecione Save as DataSet.

Exemplos

Você pode ver exemplos de como o módulo converter para DataSet é usado no Galeria de ia do Azure:

  • Exemplo de CRM: lê de um conjunto de um DataSet compartilhado e salva uma cópia do conjunto de um no espaço de trabalho local.

  • Exemplo de atraso de voo: salva um conjunto de um DataSet que foi limpo substituindo valores ausentes para que você possa usá-lo para experimentos futuros.

Observações técnicas

Esta seção contém detalhes de implementação, dicas e respostas para perguntas frequentes.

  • Qualquer módulo que utilize um conjunto de dados como entrada também pode obter dados nos formatos CSV, TSV ou ARFF. Antes de qualquer código de módulo ser executado, o pré-processamento das entradas será executado, equivalente a executar o módulo Converter para Conjunto de Dados na entrada.

  • Não é possível converter do formato SVMLight no conjunto de dados.

  • Ao especificar uma operação substituir personalizada, a operação de pesquisa e substituição se aplica a valores completos; correspondências parciais não são permitidas. Por exemplo, você pode substituir um 3 por um -1 ou por 33, mas não pode substituir um 3 por um número de dois dígitos como 35.

  • Para operações de substituição personalizadas, a substituição falhará de modo silencioso se você usar como substituição de qualquer caractere que não esteja em conformidade com o tipo de dados atual da coluna.

  • Se você precisar salvar dados que usam dados numéricos esparsos e com valores ausentes, internamente, o Studio (clássico) dá suporte a matrizes esparsas usando um SparseVector, que é uma classe na biblioteca numérica Math.NET. Prepare os dados que usam zeros e que tem valores ausentes e, em seguida, use converter em conjunto com os argumentos SparseOutput e remover zeros = true.

Entradas esperadas

Nome Tipo Descrição
Conjunto de dados Tabela de Dados Conjunto de dados de entrada

Parâmetros do módulo

Nome Intervalo Type Padrão Descrição
Ação Lista Método de ação Nenhum Ação a ser aplicada ao conjunto de dados de entrada

Saída

Nome Tipo Descrição
Conjunto de dados de resultados Tabela de Dados Conjunto de dados de saída

Confira também

Conversões de formato de dados
Lista de Módulo A-Z