Mesclagem difusa

Artigo
03/23/2023

Mesclagem difusa é um recurso de preparação de dados inteligentes que você pode usar para aplicar algoritmos de correspondência difusa ao comparar colunas, para tentar encontrar correspondências entre as tabelas que estão sendo mescladas.

Para habilitar a correspondência difusa na parte inferior da caixa de diálogo Mesclagem, selecione o botão de opção Usar correspondência difusa para executar a mesclagem. Para mais informações, consulte: Visão geral das operações de mesclar

Observação

A correspondência difusa só é compatível com operações de mesclagem em colunas de texto. O Power Query usa o algoritmo de similaridade Jaccard para medir a semelhança entre pares de instâncias.

Cenário de exemplo

Um caso de uso comum para correspondência difusa é com campos de texto de forma livre, como em uma pesquisa. Neste artigo, a tabela de exemplo foi tirada diretamente de uma pesquisa online enviada a um grupo com apenas uma pergunta: Qual é a sua fruta favorita?

Os resultados dessa pesquisa são mostrados na imagem a seguir.

Pesquisa de exemplo com entradas brutas.

Os nove registros refletem os envios da pesquisa. O problema com os envios de pesquisa é que alguns têm erros de digitação, estão no plural, no singular, com letras maiúsculas ou minúsculas.

Para ajudar a padronizar esses valores, neste exemplo, você tem uma tabela de referência Frutas.

Tabela de referência Frutas.

Observação

Para simplificar, essa tabela de referência Frutas inclui apenas o nome das frutas que serão necessárias nesse cenário. Sua tabela de referência pode ter quantas linhas você precisar.

O objetivo é criar uma tabela como a seguinte, em que você tenha padronizado todos esses valores para que possa fazer mais análises.

Exemplo de tabela de saída de pesquisa.

Operação de mesclagem difusa

Para fazer a mesclagem difusa, comece fazendo uma mesclagem. Nesse caso, você usará uma junção externa esquerda, onde a tabela esquerda é a da pesquisa e a tabela direita é a tabela de referência Frutas. Na parte inferior da caixa de diálogo, marque a caixa de seleção Usar correspondência difusa para executar a mesclagem.

Use a correspondência difusa para realizar a opção de mesclagem.

Depois de selecionar OK, você poderá ver uma nova coluna em sua tabela devido a essa operação de mesclagem. Se você expandi-la, vai observar que há uma linha que sem valor. Isso é exatamente o que a mensagem da caixa de diálogo na imagem anterior informava quando dizia "A seleção corresponde a 8 de 9 linhas da primeira tabela".

Opções de correspondência difusa

Você pode modificar as Opções de correspondência difusa para ajustar como a correspondência aproximada deve ser feita. Primeiro, selecione o comando Mesclar consultas e, em seguida, na caixa de diálogo Mesclar, expanda Opções de correspondência difusa.

Opções de correspondência difusa.

As opções disponíveis são:

Limite de similaridade (opcional): um valor entre 0,00 e 1,00 que permite combinar registros acima de uma determinada pontuação de similaridade. Um limite de 1,00 é o mesmo que especificar um critério de correspondência exata. Por exemplo, Uvas corresponderá a Uas (v faltando) somente se o limite estiver definido como menos de 0,90. Por padrão, esse valor está definido como 0,80.
Ignorar maiúsculas e minúsculas: permite registros correspondentes independentemente do uso de maiúsculas e minúsculas no texto.
Combinar partes do texto: permite combinar partes do texto para localizar correspondências. Por exemplo, Micro soft corresponderá a Microsoft se essa opção estiver habilitada.
Mostrar pontuações de similaridade: mostra pontuações de similaridade entre a entrada e os valores de correspondência após a correspondência difusa.
Número de correspondências (opcional): especifica o número máximo de linhas correspondentes que podem ser retornadas para cada linha de entrada.
Tabela de transformação (opcional): permite combinar registros com base nos mapeamentos de valor personalizados. Por exemplo, Uvas corresponde a Passas caso uma tabela de transformação seja fornecida em que a coluna De contém Uvas e a coluna Para contém Passas.

Tabela de transformação

Para o exemplo deste artigo, você pode usar uma tabela de transformação para mapear o valor que tem um par ausente. Esse valor é maca, que precisa ser mapeado para Maçã. Sua tabela de transformação tem duas colunas:

De contém os valores a serem encontrados.
Para contém os valores que serão usados para substituir os valores encontrados com a coluna De.

Neste artigo, a tabela de transformação terá a seguinte aparência:

De	Para
maca	Apple

Você pode voltar para a caixa de diálogo Mesclar e, em Opções de correspondência difusa em Número de correspondências, insira 1. Habilite a opção Mostrar pontuações de similaridade e, em seguida, na Tabela de transformação, selecione Transformar tabela no menu suspenso.

Caixa de diálogo Mesclar com o número de correspondências definido como 1 e Tabela de transformação definida como Tabela de transformação.

Depois de selecionar OK, você pode ir para a etapa de mesclagem. Ao expandir a coluna com valores de tabela, você observará que, além do campo Fruta, também verá o campo Pontuação de similaridade. Selecione ambos e expanda-os sem adicionar um prefixo.

Depois de você expandir esses dois campos, eles serão adicionados à sua tabela. Observe os valores obtidos para as pontuações de similaridade de cada valor. Essas pontuações podem ajudá-lo com transformações adicionais, se necessário, para determinar se você deve reduzir ou aumentar seu limite de similaridade.

A saída da tabela após a ocorrência do processo de mesclagem difusa exibindo os novos campos Fruta e Pontuação de similaridade para cada valor na consulta original.

Neste exemplo, a Pontuação similaridade serve apenas como informações adicionais e não é necessária na saída dessa consulta, portanto, você pode removê-la. Observe como o exemplo começou com nove valores distintos, mas, após a mesclagem difusa, há apenas quatro valores distintos.

Tabela de saída de pesquisa da mesclagem difusa.