Valores de cluster

Os valores de cluster criam automaticamente grupos com valores semelhantes usando um algoritmo de correspondência difusa e, em seguida, mapeiam o valor de cada coluna para o grupo de melhores correspondências. Essa transformação é muito útil quando você está trabalhando com dados que têm muitas variações diferentes do mesmo valor e você precisa combinar valores em grupos consistentes.

Considere uma tabela de exemplo com uma coluna de ID que contenha um conjunto de IDs e uma coluna Person contendo um conjunto de várias versões escritas e em maiúsculas dos nomes Miguel, Mike, William e Bill.

Tabela com nove linhas de entradas que contêm várias grafias e captilizations do nome Miguel e William.

Neste exemplo, o resultado que você está procurando é uma tabela com uma nova coluna que mostra os grupos de valores corretos da coluna Person e nem todas as diferentes variações das mesmas palavras.

Valores clusterizados como uma nova coluna chamada cluster na tabela inicial.

Observação

O recurso de valores de cluster está disponível somente para Power Query online.

Criar uma coluna de cluster

Para valores de cluster, primeiro selecione a coluna Person , vá para a guia adicionar coluna na faixa de opções e selecione a opção valores de cluster .

Ícone de valores de cluster dentro da guia adicionar coluna na faixa de Power Query online.

Na caixa de diálogo valores de cluster , confirme a coluna que você deseja usar para criar os clusters e insira o novo nome da coluna. Para esse caso, nomeie esse novo cluster de coluna.

Janela de valores de cluster com a coluna Person selecionada e a nova coluna chamada como cluster.

O resultado dessa operação produz o resultado mostrado na próxima imagem.

Valores clusterizados como uma nova coluna chamada cluster na tabela inicial.

Observação

Para cada cluster de valores, Power Query escolhe a instância mais frequente da coluna selecionada como a instância "canônica". Se várias instâncias ocorrerem com a mesma frequência, Power Query escolherá a primeira.

Usando as opções de cluster difuso

As opções a seguir estão disponíveis para os valores de clustering em uma nova coluna:

  • Limite de similaridade (opcional): essa opção indica o quão semelhantes dois valores devem ser agrupados juntos. A configuração mínima de 0 faz com que todos os valores sejam agrupados juntos. A configuração máxima de 1 permite apenas valores que correspondem exatamente a serem agrupados juntos. O padrão é 0,8.
  • Ignorar maiúsculas/minúsculas: ao comparar cadeias de texto, o caso é ignorado. Essa opção é habilitada por padrão.
  • Agrupar por combinar partes de texto: o algoritmo tenta combinar partes de texto (como combinar micro e soft no Microsoft) para agrupar valores.
  • Mostrar pontuações de similaridade: mostra as pontuações de similaridade entre os valores de entrada e os valores representativos computados após o clustering difuso.
  • Tabela de transformação (opcional): você pode selecionar uma tabela de transformação que mapeia valores (como mapear MSFT para a Microsoft) para agrupá-los.

Para este exemplo, uma nova tabela de transformação com o nome minha tabela de transformação é usada para demonstrar como os valores podem ser mapeados. Esta tabela de transformação tem duas colunas:

  • De: a cadeia de texto a ser procurada em sua tabela.
  • Para: a cadeia de texto a ser usada para substituir a cadeia de texto na coluna de .

Tabela mostrando os valores de Mike e William e os valores de Miguel e Bill.

Importante

É importante que a tabela de transformação tenha as mesmas colunas e nomes de coluna, conforme mostrado na imagem anterior (elas devem ser nomeadas "de" e "para"), caso contrário Power Query não reconhecerá essa tabela como uma tabela de transformação e nenhuma transformação ocorrerá.

Usando a consulta criada anteriormente, clique duas vezes na etapa valores clusterizados e, em seguida, na caixa de diálogo valores do cluster , expanda opções de cluster difusas. Em Opções de cluster difuso, habilite a opção Mostrar pontuações de similaridade . Para tabela de transformação (opcional), selecione a consulta que tem a tabela de transformação.

Coluna de cluster difuso com menu suspenso de tabela de transformação de exemplo.

Depois de selecionar a tabela de transformação e habilitar a opção Mostrar pontuações de similaridade , selecione OK. O resultado dessa operação fornecerá uma tabela que contém as mesmas colunas de ID e pessoa que a tabela original, mas também incluirá duas novas colunas à direita, chamadas de cluster e Person_Cluster_Similarity. A coluna cluster contém as versões corretas e em maiúsculas dos nomes Miguel para versões de Miguel e Mike e William para versões de Bill, Billy e William. A coluna Person_Cluster_Similarity contém as pontuações de similaridade para cada um dos nomes.

Tabela que contém o novo cluster e as colunas de Person_Cluster_Similarity.