Fuzzy samenvoegen
Fuzzy samenvoeging is een slimme functie voor gegevensvoorbereiding die u kunt gebruiken om algoritmen voor fuzzy overeenkomsten toe te passen bij het vergelijken van kolommen, om te zoeken naar overeenkomsten tussen de tabellen die worden samengevoegd.
U kunt fuzzy matching inschakelen onderaan het dialoogvenster Samenvoegen door de knop Fuzzy matching gebruiken om de samenvoegoptie uit te voeren te selecteren. Meer informatie: Overzicht van samenvoegbewerkingen
Notitie
Fuzzy matching wordt alleen ondersteund bij samenvoegbewerkingen voor tekstkolommen. Power Query maakt gebruik van het jaccard-vergelijkbaarheidsalgoritme om de overeenkomst tussen paren exemplaren te meten.
Voorbeeldscenario
Een veelvoorkomende use-case voor fuzzy matching is met vrije tekstvelden, zoals in een enquête. Voor dit artikel is de voorbeeldtabel rechtstreeks afkomstig uit een online enquête die is verzonden naar een groep met slechts één vraag: Wat is uw favoriete fruit?
De resultaten van die enquête worden weergegeven in de volgende afbeelding.
Voorbeelduitvoertabel voor enquête met de kolomdistributiegrafiek met negen afzonderlijke antwoorden met alle unieke antwoorden en de antwoorden op de enquête met alle typfouten, meervoud of enkelvoud, en caseproblemen.
De negen records geven de enquête-inzendingen weer. Het probleem met de enquête-inzendingen is dat sommige typfouten hebben, sommige meervoud, sommige enkelvoud, sommige hoofdletters en kleine letters.
Om deze waarden te helpen standaardiseren, hebt u in dit voorbeeld een Referentietabel Fruit.
Referentietabel voor fruit met kolomdistributiegrafiek met vier afzonderlijke vruchten met alle unieke vruchten en de lijst met fruit: appel, appel, watermeloen en kaas.
Notitie
Ter vereenvoudiging bevat deze Referentietabel voor Fruit alleen de naam van de vruchten die nodig zijn voor dit scenario. Uw referentietabel kan zoveel rijen hebben als u nodig hebt.
Het doel is om een tabel als de volgende te maken, waarin u al deze waarden hebt gestandaardiseerd, zodat u meer analyses kunt uitvoeren.
Voorbeelduitvoertabel voor enquête met de kolom Vraag met de kolomdistributiegrafiek met negen afzonderlijke antwoorden met alle unieke antwoorden en de antwoorden op de enquête met alle typfouten, meervoud of enkelvoud, en caseproblemen, en bevat ook de kolom Fruit met de kolomdistributiegrafiek met vier afzonderlijke antwoorden met één uniek antwoord en een lijst met alle goed gespelde soorten, enkelvoud, en juiste case.
Fuzzy samenvoegen
Als u de fuzzy samenvoeging wilt doen, begint u met het samenvoegen. In dit geval gebruikt u een left outer join, waarbij de linkertabel de tabel uit de enquête is en de rechtertabel de referentietabel Fruit. Schakel onderaan het dialoogvenster het selectievakje Fuzzy matching gebruiken om het samenvoegen uit te voeren in.

Nadat u OK hebt geselecteerd, ziet u een nieuwe kolom in uw tabel vanwege deze samenvoegingsbewerking. Als u deze uitv vouwt, ziet u dat er één rij is die geen waarden heeft. Dat is precies wat in het dialoogvensterbericht in de vorige afbeelding werd vermeld toen de tekst 'De selectie komt overeen met 8 van 9 rijen uit de eerste tabel'.
De kolom Fruit is toegevoegd aan de tabel Survey, waarbij alle rijen in de kolom Vraag zijn uit uitgebreid, met uitzondering van rij 9, die niet kan worden uitgebreid en de kolom Fruit null bevat.
Opties voor fuzzy matching
U kunt de opties voor fuzzy overeenkomst wijzigen om de manier waarop de overeenkomst moet worden uitgevoerd, aan te passen. Selecteer eerst de opdracht Query's samenvoegen en vouw vervolgens in het dialoogvenster Samenvoegen de optie Fuzzy overeenkomende opties uit.

De beschikbare opties zijn:
- Drempelwaarde voor overeenkomsten (optioneel): Een waarde tussen 0,00 en 1,00 die de mogelijkheid biedt om records boven een bepaalde vergelijkbaarheidsscore te vinden. Een drempel van 1,00 is gelijk aan het opgeven van criteria voor een exacte overeenkomst. Druiven komen bijvoorbeeld overeen met Graes (zonder letter p) alleen als de drempelwaarde is ingesteld op minder dan 0,90. Deze waarde is standaard ingesteld op 0,80.
- Negeren van case: hiermee staat u overeenkomende records toe, ongeacht het geval van de tekst.
- Overeenkomst door tekstonderdelen te combineren: hiermee kunt u tekstonderdelen combineren om overeenkomsten te vinden. Micro soft komt bijvoorbeeld overeen met Microsoft als deze optie is ingeschakeld.
- Aantal overeenkomsten (optioneel): hiermee geeft u het maximum aantal overeenkomende rijen op dat voor elke invoerrij kan worden geretourneerd.
- Transformatietabel (optioneel): Hiermee kunt u overeenkomende records op basis van aangepaste waardetoewijzingen. Druiven wordt bijvoorbeeld gematcht met Rozijnen als er een transformatietabel wordt opgegeven waarbij de kolom Van druiven bevat en de kolom Naar Rozijnen bevat.
Transformatietabel
Voor het voorbeeld in dit artikel kunt u een transformatietabel gebruiken om de waarde met een ontbrekend paar toe te geven. Deze waarde is apls, die moet worden toe te staan aan Apple. Uw transformatietabel heeft twee kolommen:
- Bevat de waarden die moeten worden gevonden.
- Bevat de waarden die worden gebruikt om de waarden te vervangen die zijn gevonden met behulp van de kolom Van.
Voor dit artikel ziet de transformatietabel er als volgt uit:
| Van | Tot |
|---|---|
| apls | Apple |
U kunt teruggaan naar het dialoogvenster Samenvoegen en in Opties voor fuzzy overeenkomsten onder Aantal overeenkomsten (optioneel) voert u 1 in. Selecteer onder Transformatietabel (optioneel) tabel transformeren in de vervolgkeuzelijst.

Nadat u OK hebt geselecteerd, maakt u een tabel die eruitziet als in de volgende afbeelding, met alle waarden correct zijn kaarten. Het voorbeeld is begonnen met negen afzonderlijke waarden, maar na de fuzzy samenvoeging zijn er slechts vier afzonderlijke waarden.
Fuzzy samenvoegingsuitvoertabel voor enquête met de kolom Vraag met de kolomdistributiegrafiek met negen afzonderlijke antwoorden met unieke antwoorden en de antwoorden op de enquête met alle typfouten, meervoud of enkelvoud, en caseproblemen. Bevat ook de kolom Fruit met de kolomdistributiegrafiek met vier afzonderlijke antwoorden met één uniek antwoord en een lijst met alle goed gespelde, enkelvoudige en juiste case.