Clusterwaarden

Clusterwaarden maken automatisch groepen met vergelijkbare waarden met behulp van een algoritme voor fuzzy overeenkomsten en wijs vervolgens de waarde van elke kolom toe aan de best overeenkomende groep. Deze transformatie is zeer nuttig wanneer u werkt met gegevens die veel verschillende variaties van dezelfde waarde hebben en u waarden moet combineren in consistente groepen.

Neem een voorbeeldtabel met een id-kolom die een set id's bevat en een kolom Person met een set met verschillende spellings- en hoofdletterversies van de namen Miguel, Mike, Mike en Bill.

Tabel met negen rijen vermeldingen die verschillende spellingen en captilizations van de naam Miguel enIngen bevatten.

In dit voorbeeld is het resultaat dat u zoekt een tabel met een nieuwe kolom met de juiste groepen waarden uit de kolom Person en niet alle verschillende variaties van dezelfde woorden.

Geclusterde waarden als een nieuwe kolom met de naam Cluster in de eerste tabel.

Notitie

De functie Clusterwaarden is alleen beschikbaar voor Power Query Online.

Een clusterkolom maken

Als u waarden wilt clusteren, selecteert u eerst de kolom Persoon, gaat u naar het tabblad Kolom toevoegen op het lint en selecteert u vervolgens de optie Clusterwaarden.

Het pictogram Clusterwaarden op het tabblad Kolom toevoegen in het Power Query online lint.

Bevestig in het dialoogvenster Clusterwaarden de kolom die u wilt gebruiken om de clusters te maken en voer de nieuwe naam van de kolom in. In dit geval noemt u deze nieuwe kolom Cluster.

Het venster Clusterwaarden met de kolom Persoon geselecteerd en de kolom Nieuw met de naam Cluster.

Het resultaat van die bewerking levert het resultaat op dat wordt weergegeven in de volgende afbeelding.

Geclusterde waarden als een nieuwe kolom met de naam Cluster in de eerste tabel.

Notitie

Voor elk cluster met waarden kiest Power Query meest voorkomende exemplaar uit de geselecteerde kolom als het canonieke exemplaar. Als er meerdere exemplaren met dezelfde frequentie optreden, Power Query de eerste instantie.

De opties voor fuzzy cluster gebruiken

De volgende opties zijn beschikbaar voor het clusteren van waarden in een nieuwe kolom:

  • Drempelwaarde voor overeenkomsten (optioneel): deze optie geeft aan hoe vergelijkbaar twee waarden moeten worden gegroepeerd. De minimale instelling van 0 zorgt ervoor dat alle waarden worden gegroepeerd. Met de maximale instelling van 1 kunnen alleen waarden die exact overeenkomen, worden gegroepeerd. De standaardwaarde is 0,8.
  • Negeer het volgende: bij het vergelijken van tekstreeksen wordt de case genegeerd. Deze optie is standaard ingeschakeld.
  • Groeperen door tekstonderdelen te combineren: het algoritme probeert tekstonderdelen (zoals het combineren van Micro en soft in Microsoft) te combineren om waarden te groeperen.
  • Overeenkomstenscores tonen: toont overeenkomstenscores tussen de invoerwaarden en berekende representatieve waarden na fuzzy clustering.
  • Transformatietabel (optioneel): u kunt een transformatietabel selecteren die waarden toewijst (zoals MSFT toewijzen aan Microsoft) om ze samen te groeperen.

In dit voorbeeld wordt een nieuwe transformatietabel met de naam Mijn transformatietabel gebruikt om te laten zien hoe waarden kunnen worden toegepast. Deze transformatietabel heeft twee kolommen:

  • Van: de tekenreeks die u in uw tabel wilt zoeken.
  • Naar: de tekenreeks die moet worden gebruikt om de tekenreeks in de kolom Van te vervangen.

Tabel met De waarden van Mike en Mike, en Naar van Miguel en Bill.

Belangrijk

Het is belangrijk dat de transformatietabel dezelfde kolommen en kolomnamen heeft als in de vorige afbeelding (ze moeten de namen 'Van' en 'Naar' hebben), anders herkent Power Query deze tabel niet als een transformatietabel en vindt er geen transformatie plaats.

Dubbelklik met behulp van de eerder gemaakte query op de stap Geclusterde waarden en vouw in het dialoogvenster Clusterwaarden de optie Fuzzy cluster uit. Schakel onder Opties voor fuzzy clusters de optie Overeenkomstenscores tonen in. Selecteer bij Transformatietabel (optioneel) de query die de transformatietabel heeft.

De vervolgkeuzelijst Fuzzy clusterkolom met voorbeeldtransformatietabel.

Nadat u de transformatietabel hebt geselecteerd en de optie Overeenkomstenscores tonen hebt inschakelen, selecteert u OK. Het resultaat van deze bewerking geeft u een tabel die dezelfde id en person-kolommen bevat als de oorspronkelijke tabel, maar die ook twee nieuwe kolommen aan de rechterkant bevat met de naam Cluster en Person_Cluster_Similarity. De kolom Cluster bevat de correct gespelde en in hoofdletters opgenomen versies van de namen Miguel voor versies van Miguel en Mike, en Mike voor versies van Bill, Moet en Mike. De Person_Cluster_Similarity kolom bevat de overeenkomstenscores voor elk van de namen.

Tabel met de nieuwe cluster- en Person_Cluster_Similarity kolommen.