Valores Categóricos do Grupo

Gru como grupos de dados de várias categorias para uma nova categoria

Categoria: Transformação de Dados / Manipulação

Nota

Aplica-se a: Machine Learning Studio (clássico)

Este conteúdo diz respeito apenas ao Studio (clássico). Módulos semelhantes de arrasto e queda foram adicionados ao designer de Aprendizagem automática Azure. Saiba mais neste artigo comparando as duas versões.

Visão geral do módulo

Este artigo descreve como usar o módulo De Valores Categóricos do Grupo no Azure Machine Learning Studio (clássico), para criar uma tabela de procura no local.

O uso típico para agrupar valores categóricos é fundir múltiplos valores de corda num único novo nível. Por exemplo, pode atribuir códigos postais individuais numa região a um único código regional, ou agrupar vários produtos numa só categoria.

Para utilizar este módulo, digite os valores de procura que pretende utilizar e mapeeia os valores existentes para os valores de substituição. Pode criar agrupamentos apenas para colunas categóricas, não para colunas de tipo numérico ou colunas designadas como etiquetas ou características.

Quaisquer valores de coluna que não estejam explicitamente mapeados para um novo nível são atribuídos a um nível predefinido. Por exemplo, se não mapeasse todos os códigos postais individuais, eles seriam agrupados num nível para valores não mapeados, que poderia nomear Desconhecidos.

Nota

Um máximo de 20 novos níveis pode ser criado, incluindo o nível padrão. Se precisar de mais valores ou precisar de definir mapeamentos de forma dinâmica, recomendamos que utilize script R personalizado no módulo Execut R Script. Ou, utilize declarações SQL no módulo de transformação de SQL Apply.

Como utilizar valores categóricos do grupo

Recomendamos que prepare previamente a lista dos valores existentes e as novas categorias. Para cada categoria, deverá preparar um novo nome de categoria e uma lista de valores separadas por vírgulas a incluir na categoria.

  1. Adicione o módulo Valores Categóricos do Grupo à sua experiência. Pode encontrar o módulo em Transformação de Dados, Manipulação.

  2. Ligue um conjunto de dados que tem os valores que pretende transformar.

  3. No painel de propriedades dos valores categóricos do grupo, utilize o Seletor de Colunas para escolher a coluna que tem os níveis que pretende reduzir.

    • Recomendamos que clique em INICIAR COM E SEM COLUNAS para iniciar e, em seguida, adicione colunas pelo nome. Caso contrário, muitas colunas poderão ser adicionadas como candidatos, levando a um erro.

    • A coluna deve ser uma coluna categórica. Se não for, adicione Metadados a montante e altere o tipo de coluna.

    • Certifique-se de que remove da entrada quaisquer colunas às quais não deve ser aplicada a substituição do fio.

  4. Para o modo saída, indique se pretende apenas desempenhá-lo nos novos níveis ou anexar as alterações para ver a coluna original, com as substituições lado a lado.

    O padrão, Resultados Apenas, mostra apenas os novos valores. A opção Inplace substitui os valores da coluna existentes pelos novos níveis.

  5. Para o nome de nível predefinido, digite um valor de cadeia para usar como substituto de todos os valores que não estejam explicitamente mapeados. Pode utilizar algo como "Desconhecido" ou "Padrão".

    Nota

    Este valor de nível predefinido é aplicado a todos os valores que não podem ser mapeados. Se acidentalmente incluísse colunas que não pretendia mapear, o valor seria aplicado a todos os valores das colunas. Portanto, verifique se a seleção da coluna está correta antes do processamento.

  6. Para o novo número de níveis, escreva um número que indique o número total de novas categorias (níveis), incluindo o nível padrão para valores não mapeados.

  7. Para nome do novo nível 1, forneça o novo nome de grupo para a primeira categoria.

  8. Na caixa de texto que se segue imediatamente, lista separada por coma de níveis antigos para mapear para o novo nível 1, tipo ou colar uma lista exaustiva de todos os valores para mapear para o novo nível. Não são permitidos caracteres wildcard e expressões regulares.

  9. Continue a escrever novos nomes de nível e valores de tipo ou pasta que devem ser mapeados para o novo nível.

    Recomendamos que guarde a sua lista de valores num ficheiro separado enquanto está a trabalhar. Se alterar o número de níveis, quaisquer cordas que tenha digitado anteriormente são removidas e deve recomeçar.

    No entanto, se estiver a editar um módulo previamente guardado, pode reverter para as definições originais.

  10. Execute a experimentação.

Resultados

Para ver os resultados, clique com o botão certo no módulo Valores Categóricos do Grupo, selecione Conjunto de dados de Resultadose clique em Visualizar.

Exemplos

Por exemplo, a aprendizagem automática em ação, consulte a Galeria Azure AI.

Você também pode experimentar este módulo para si mesmo, usando um pequeno conjunto de dados com algumas variáveis de cordas que podem ser facilmente agrupados, como o conjunto de dados de preços do Automóvel que é fornecido no Azure Machine Learning Studio (clássico).

Vamos supor que você quer agrupar carros no conjunto de dados de preços do Automóvel pelo tamanho do motor, usando o número de cilindros. Em vez de muitos tamanhos de motor diferentes, você vai criar os novos níveis, "grandes", "pequenos" e "outros" da seguinte forma:

  • Grandes motores: seis cilindros ou maiores
  • Motores pequenos: dois ou quatro cilindros
  • Outro: qualquer outra coisa
  1. Adicione as Colunas Selecione no módulo Dataset e selecione apenas a num-of-cylinders coluna.
  2. Adicione o módulo de metadados editar e altere a num-of-cylinders coluna para Categoricamente.
  3. Adicione o módulo Valores Categóricos do Grupo e ligue o conjunto de dados modificado.
  4. Para o nome de nível predefinido, escreva other . Não precisa fornecer valores para este nível.
  5. Para nome do novo nível 1, tipo big . Na lista de níveis antigos para mapear para o nível 1, cole em six, eight, twelve .
  6. Para nome do novo nível 2, tipo small . Para os valores mapeados, cole em two, four .
  7. Execute a experimentação.
  8. Quando visualiza os resultados, percebe que o conjunto de dados original tinha alguns tamanhos de motor ímpares que não contabilizou, tais como five e three . Todos estes itens estão mapeados ao other nível.

Notas técnicas

Esta secção contém detalhes de implementação, dicas e respostas a perguntas frequentes.

  • Pode encontrar a mensagem de erro, "Coluna com <columnname> nome" não está numa categoria permitida."

    Esta mensagem indica que a coluna selecionada não é uma coluna categórica. Pode marcar a coluna como Categorical utilizando Metadados de Edição,ou selecionar uma coluna diferente que contenha valores de categoria apropriados.

Entradas esperadas

Nome Tipo Descrição
Conjunto de dados Tabela de Dados Dados para agrupar

Parâmetros do módulo

Nome Intervalo Tipo Predefinição Descrição
Colunas selecionadas qualquer Seleção de Colunas CategoricalToall Selecione as colunas que serão agrupadas.
Modo de saída qualquer OutputTo ResultadoSOnly Especifique como as etiquetas de categoria devem ser de saída.
Nome de nível predefinido qualquer String Indique o nível predefinido a utilizar se não corresponderem os mapeamentos.
Novo número de níveis Lista Número de grupos Especifique o número de níveis após agrupar os valores, incluindo o nível de predefinição.

Saída

Nome Tipo Descrição
Conjunto de dados de resultados Tabela de Dados Dados agrupados

Ver também

Manipulação
Transformação de Dados
Lista de Módulos A-Z