Hodnoty klastra

Klastrové hodnoty automaticky vytvárajú skupiny s podobnými hodnotami pomocou fuzzy zodpovedajúceho algoritmu a potom mapujú hodnotu každého stĺpca do najlepšie zodpovedajúcej skupiny. Táto transformácia je veľmi užitočná, keď pracujete s údajmi, ktoré majú mnoho rôznych variácií rovnakej hodnoty a musíte kombinovať hodnoty do konzistentných skupín.

Zvážte vzorovú tabuľku so stĺpcom identifikácie, ktorý obsahuje množinu ID a stĺpec Osoba obsahujúci množinu rôznych hláskovaných a kapitalizovaných verzií mien Miguel, Mike, William a Bill.

Tabuľka s deviatimi riadkami položiek, ktoré obsahujú rôzne pravopisy a kaptilizácie mena Miguel a William.

V tomto príklade je hľadaným výsledkom tabuľka s novým stĺpcom, ktorá zobrazuje správne skupiny hodnôt zo stĺpca Osoba a nie všetky rôzne variácie rovnakých slov.

Zoskupené hodnoty ako nový stĺpec s názvom Klastra v počiatočnej tabuľke.

Poznámka

Funkcia Hodnôt klastra je k dispozícii iba pre Power Query Online.

Vytvorenie stĺpca klastra

Ak chcete zoskupiť hodnoty, najprv vyberte stĺpec Osoba, prejdite na kartu Pridať stĺpec na páse s nástrojmi a potom vyberte možnosť Hodnoty klastra.

Ikona hodnôt klastra na karte Pridať stĺpec na páse s nástrojmi Power Query online.

V dialógovom okne Hodnoty klastra potvrďte stĺpec, z ktorého chcete vytvoriť klastre, a zadajte nový názov stĺpca. V takom prípade pomenujte tento nový stĺpec Cluster.

Okno Hodnôt klastra s vybratým stĺpcom Osoba a novým stĺpcom s názvom Klastra.

Výsledok tejto operácie prináša výsledok zobrazený na nasledujúcom obrázku.

Zoskupené hodnoty ako nový stĺpec s názvom Klastra v počiatočnej tabuľke.

Poznámka

Pre každý zhluk hodnôt power query vyberie najčastejšiu inštanciu z vybratého stĺpca ako "kanonickú" inštanciu. Ak sa vyskytne viacero inštancií s rovnakou frekvenciou, Power Query vyberie prvú inštanciu.

Používanie možností fuzzy klastra

Pre klastrovanie hodnôt v novom stĺpci sú k dispozícii nasledujúce možnosti:

  • Prah podobnosti (voliteľný): Táto možnosť označuje, ako sa majú zoskupiť podobné dve hodnoty. Minimálne nastavenie 0 spôsobí zoskupenie všetkých hodnôt. Maximálne nastavenie 1 umožňuje len zoskupenie hodnôt, ktoré presne zodpovedajú. Predvolená hodnota je 0,8.
  • Ignorovať prípad: Pri porovnávaní textových reťazcov sa prípad ignoruje. Táto možnosť je predvolene povolená.
  • Zoskupenie kombináciou častí textu: Algoritmus sa pokúša kombinovať časti textu (napríklad kombinovanie mikro a mäkkých do spoločnosti Microsoft) do skupinových hodnôt.
  • Zobraziť skóre podobnosti: Zobrazuje skóre podobnosti medzi vstupnými hodnotami a vypočítanými reprezentatívnymi hodnotami po rozmazanom zoskupení.
  • Tabuľka transformácie (voliteľná): Môžete vybrať tabuľku transformácie, ktorá mapuje hodnoty (napríklad priradenie MSFT k spoločnosti Microsoft) a zoskupiť ich.

V tomto príklade sa napríklad použije nová tabuľka transformácie s názvom Tabuľka Transformácia Moja transformácia na demonštráciu spôsobu priradenia hodnôt. Táto tabuľka transformácie má dva stĺpce:

  • Od: Textový reťazec, ktorý sa má vyhľadať v tabuľke.
  • Na: Textový reťazec, ktorý sa má použiť na nahradenie textového reťazca v stĺpci Od.

Tabuľka zobrazujúca hodnoty Mikea a Williama a hodnoty Miguela a Billa.

Dôležité

Je dôležité, aby tabuľka transformácie mala rovnaké stĺpce a názvy stĺpcov, ako je znázornené na predchádzajúcom obrázku (musia byť pomenované "Od" a "Do"), inak power query nerozpozná túto tabuľku ako transformačnú tabuľku a nedôjde k žiadnej transformácii.

Pomocou predtým vytvoreného dotazu dvakrát kliknite na krok Klastrové hodnoty a potom v dialógovom okne Hodnoty klastra rozbaľte možnosti klastra Fuzzy. V časti Možnosti klastra Fuzzy povoľte možnosť Zobraziť skóre podobnosti. V prípade tabuľky Transformácia (voliteľná) vyberte dotaz s transformačnou tabuľkou.

Fuzzy cluster stĺpec so vzorovou transformačnou tabuľkou rozbaľovacej ponuky.

Po výbere tabuľky transformácie a zapnutí možnosti Zobraziť skóre podobnosti vyberte tlačidlo OK. Výsledok tejto operácie vám poskytne tabuľku, ktorá obsahuje rovnaké stĺpce identifikácie a osoby ako pôvodná tabuľka, ale obsahuje aj dva nové stĺpce vpravo s názvom Klastr a Person_Cluster_Similarity. Stĺpec Klastra obsahuje správne napísané a kapitalizované verzie mien Miguel pre verzie Miguela a Mikea a Williama pre verzie Billa, Billyho a Williama. Stĺpec Person_Cluster_Similarity obsahuje skóre podobnosti pre každý z názvov.

Tabuľka obsahujúca nové stĺpce Klastra a Person_Cluster_Similarity.