Como funciona a correspondência difusa Power Query?

Power Query recursos como mesclagem difusa, valores de clustere agrupamento difuso usam os mesmos mecanismos para funcionar como correspondência difusa.

Este artigo explica muitos cenários que mostrarão como aproveitar as opções que a correspondência difusa tem com o objetivo de deixar "difuso" claro.

Ajustar o limite de similaridade

O melhor cenário para aplicar o algoritmo de combinação difusa é quando todas as cadeias de caracteres de texto em uma coluna contêm apenas as cadeias de caracteres que precisam ser comparadas e não componentes extras. Por exemplo, comparar com Apples 4ppl3s gera pontuações de similaridade mais altas do que comparar Apples com My favorite fruit, by far, is Apples. I simply love them! .

Isso porque a palavra na segunda cadeia de caracteres é apenas uma pequena parte da cadeia de caracteres de texto inteira que Apples produz uma pontuação de similaridade menor.

Dê uma olhada no seguinte conjuntos de dados que consistem em respostas de uma pesquisa que tinha apenas uma pergunta "Qual é sua comida favorita?"

Fruta
Mirtilos
As berries azuis são simplesmente as melhores
Morangos
Berries = <3
Maçãs
'sples
4ppl3s
Bananas
fav fruit is ltd
Banas
Minhas frutas favoritas, de longe, são maçãs. Eu simplesmente os amo!

A pesquisa forneceu uma única caixa de texto para inserir o valor e sem validação.

Agora você tem a tarefa de agrupar os valores. Para fazer isso, carregue a tabela anterior de frutos Power Query, selecione a coluna e, em seguida, selecione a opção que lê Valores de cluster dentro do menu Adicionar coluna na faixa de opções.

Ícone de valores de cluster dentro do menu Adicionar coluna na faixa de opções disponível depois de selecionar a coluna Fruit da tabela.

A caixa de diálogo Valores de cluster é exibida, na qual você pode especificar o nome da nova coluna. Nomeia essa nova coluna Cluster e selecione OK.

Caixa de diálogo Valores de cluster depois de selecionar a coluna Fruit. O novo campo de nome de coluna foi definido como 'Cluster'.

Por padrão, Power Query usará um limite de similaridade de 0,8 (ou 80%) e o resultado da operação anterior produzirá a tabela a seguir com uma nova coluna Cluster:

Saída padrão depois de executar a operação Valores de cluster na coluna Fruit com valores padrão.

Embora o clustering tenha sido feito, ele não está dando os resultados esperados para todas as linhas. A linha número dois (2) ainda tem o valor , mas deve ser clusterada para e algo semelhante acontece com as cadeias de caracteres de Blue berries are simply the best Blueberries texto , e Strawberries = <3 fav fruit is bananas My favorite fruit, by far, is Apples. I simply love them! .

Você deseja determinar o que está causando esse clustering. Para fazer isso, você pode clicar duas vezes na etapa Valores clusterados para trazer de volta a janela Valores de cluster. Dentro dessa janela, expanda o texto que lê opções de cluster difuso e habilita a opção que diz Mostrar pontuações de similaridade, conforme mostrado na imagem abaixo e clique no botão OK:

Janela valores de cluster com as opções de cluster difusas exibidas e a opção mostrar pontuações de similaridade selecionada.

A habilitação da opção Mostrar pontuações de similaridade levará uma nova coluna à tabela que mostra exatamente a pontuação de similaridade entre o cluster definido e o valor original.

Tabela com nova coluna de pontuação de similaridade com o nome Fruit_Cluster_Similarity.

Após uma inspeção mais próxima, Power Query não foi possível encontrar nenhum outro valor dentro do limite de similaridade para as cadeias de caracteres de texto Blue berries are simply the best , Strawberries = <3 , e fav fruit is bananas My favorite fruit, by far, is Apples. I simply love them! .

Você pode voltar para a caixa de diálogo Valores de cluster mais uma vez clicando duas vezes na etapa Valores clusterados e alterando o limite de Similaridade de 0,8 para 0,6, conforme mostrado na imagem abaixo:

Caixa de diálogo Valores de cluster com as opções de cluster difusas exibidas, o limite de similaridade definido como 0,6 e a opção mostrar pontuações de similaridade selecionada.

Essa alteração aproxima você do resultado que você está procurando, exceto pela cadeia de caracteres de texto My favorite fruit, by far, is Apples. I simply love them! . Isso porque, ao alterar o valor do limite de Similaridade de 0,8 para 0,6, o Power Query agora é capaz de usar os valores com uma pontuação de similaridade que começa de 0,6 até 1.

Tabela depois de definir o limite de similaridade em 0,6 com novos valores atribuídos na coluna Cluster.

Observação

Power Query sempre usa o valor mais próximo do limite para definir os clusters. O limite define o limite inferior da pontuação de similaridade que é aceitável para criar atribuir o valor a um cluster.

Você pode tentar novamente alterando a pontuação de Similaridade de 0,6 para um número menor até obter os resultados esperados. Nesse caso, altere a pontuação de Similaridade para 0,5, que produzirá o resultado exato que você está esperando com a cadeia de caracteres de texto agora atribuída ao cluster, conforme mostrado na My favorite fruit, by far, is Apples. I simply love them! próxima Apples imagem:

Tabela com os valores corretos na coluna Cluster em que a cadeia de caracteres "Minhas frutas favoritas, de longe, é Apples. Eu simplesmente os amo!' agora é atribuído ao cluster 'Apples'.

Observação

Atualmente, somente o recurso Valores de cluster Power Query Online fornecerá uma nova coluna com a pontuação de similaridade.