Ako funguje priradenie na základe fuzzy v Power Query?

Power Query funkciami, ako je napríklad zlúčenie na základe fuzzy,hodnoty klastra a fuzzy zoskupenie, používajú rovnaký mechanizmus, aby fungujú s fuzzy zhodním.

Tento článok sa využíva v mnohých scenároch, ktoré vám ukážu, ako využiť možnosti, ktoré sa zhodujú s cieľom vytvoriť "fuzzy" prehľadné.

Úprava prahovej hodnoty podobnosti

Najlepším scenárom použitia algoritmu fuzzy match je to, že všetky textové reťazce v stĺpci obsahujú iba reťazce, ktoré je potrebné porovnať, a nie ďalšie komponenty. Napríklad pri porovnávaní Apples s 4ppl3s výnosmi s vyššou podobnosťou ako pri Apples porovnávaní s My favorite fruit, by far, is Apples. I simply love them! .

Je to spôsobené tým, že slovo v druhom reťazci je len malou časťou celého textového reťazca, Apples ktoré vráti skóre nižšej podobnosti.

Pozrite sa na nasledujúcu množinu údajov, ktorá pozostáva z odpovedí z prieskumu, v ktorých sa nachádza len jedna otázka: "Aké je vaše obľúbené ovocie?"

Ovocie
Čučoriedky
Modrá modrá farba sú jednoducho najlepšie
Jahody
Strawberries = <3
Jablká
'sples 'sples
4ppl3s
Banány
ovocie je banány
Banas
Moje obľúbené ovocie je dosiaľ jablká. Jednoducho sa mi páčia!

Prieskum poskytol jedno textové pole na zadanie hodnoty a bez overenia.

Teraz máte za úlohu klastrovať hodnoty. Ak to chcete urobiť, načítajte predchádzajúcu tabuľku ovocia do tabuľky Power Query, vyberte stĺpec a potom vyberte možnosť, ktorá prečíta hodnoty klastra v ponuke Pridať stĺpec na páse s nástrojmi.

Ikona skupinových hodnôt v ponuke Pridať stĺpec na páse s nástrojmi, ktorý je k dispozícii po výbere stĺpca Fruit (Ovocie) v tabuľke.

Zobrazí sa dialógové okno Klastrové hodnoty, kde môžete zadať názov nového stĺpca. Pomen vyberte tento nový stĺpec Klaster a vyberte OK.

Dialógové okno Hodnoty klastra po výbere stĺpca Fruit (Ovocie). Pole názov nového stĺpca je nastavené na cluster.

V predvolenom nastavení Power Query hodnota podobnosti 0,8 (alebo 80 %) a výsledok predchádzajúcej operácie prinesie nasledujúcu tabuľku s novým stĺpcom klastra:

Predvolený výstup po vykonaní operácie Hodnoty klastra v stĺpci Fruit s predvolenými hodnotami.

Hoci sa klastrovanie vykonáva, nevynechá vám očakávané výsledky pre všetky riadky. Číslo riadku 2 (2) má aj naďalej hodnotu , ale malo by byť zoskupené do a niečo sa stane s textovými reťazcami Blue berries are simply the best Blueberries , a Strawberries = <3 fav fruit is bananas My favorite fruit, by far, is Apples. I simply love them! .

Chcete zistiť, čo spôsobuje toto klastrovanie. Ak to chcete urobiť, môžete dvakrát kliknúť na krok Skupinový hodnoty a vrátiť okno Hodnoty klastra. V tomto okne rozbaľte text, ktorý prečíta možnosti klastra Fuzzy, a povoľte možnosť Zobraziť skóre podobnosti, ako je to znázornené na obrázku nižšie, a stlačte tlačidlo OK:

Okno Klastrové hodnoty so zobrazenými možnosťami fuzzy klastra a vybratou možnosťou zobraziť skóre podobnosti.

Povolením možnosti Zobraziť skóre podobnosti sa do tabuľky prenesie nový stĺpec, ktorý zobrazí presne skóre podobnosti medzi definovaným klastrom a pôvodnou hodnotou.

Tabuľka s novým stĺpcom skóre podobnosti s názvom Fruit_Cluster_Similarity.

Po bližšiej kontrole uvidíte, že Power Query nepodarilo nájsť žiadne iné hodnoty v rámci prahovej hodnoty podobnosti pre textové reťazce Blue berries are simply the best Strawberries = <3 , , a fav fruit is bananas My favorite fruit, by far, is Apples. I simply love them! .

Do dialógového okna Hodnoty klastra sa môžete vrátiť ešte raz tak, že dvakrát kliknete na krok Skupinový hodnoty a zmeníte prah podobnosti od 0,8 do 0,6, ako je znázornené na obrázku nižšie:

Dialógové okno Hodnoty klastra so zobrazenými možnosťami fuzzy klastra, prahovou hodnotou podobnosti nastaveným na 0,6 a vybratou možnosťou zobraziť skóre podobnosti.

Táto zmena sa bližšie priblíži k výsledku, ktorý hľadáte, s výnimkou textového reťazca My favorite fruit, by far, is Apples. I simply love them! . Je to spôsobené tým, že zmeníte hodnotu podobnosti od 0,8 na 0,6 Power Query, teraz je možné použiť hodnoty s skóre podobnosti, ktoré začína od 0,6 až po 1.

Tabuľku po definovaní prahovej hodnoty podobnosti s hodnotou 0,6 s novými hodnotami priradenými v stĺpci klastra.

Poznámka

Power Query vždy používa hodnotu, ktorá je najbližšie k prahovej hodnote na definovanie klastrov. Prahová hodnota definuje dolnú hranicu skóre podobnosti, ktoré je prijateľné na vytvorenie priradenia hodnoty klastru.

Skúste to znova tak, že zmeníte skóre podobnosti z 0,6 na nižšie číslo, kým nenájdete výsledky, ktoré očakávate. V tomto prípade zmeňte skóre podobnosti na hodnotu 0,5, čo prinesie presný výsledok, ktorý očakávate, s textovým reťazcom, ktorý je teraz priradený ku klastru, ako je to znázornené na My favorite fruit, by far, is Apples. I simply love them! Apples nasledujúcom obrázku:

Tabuľka so s správnymi hodnotami v stĺpci Cluster, kde reťazec "Moje obľúbené ovocie je ďaleko, je Apples. Jednoducho ich páčia!' je teraz priradený ku klastru Apples .

Poznámka

V súčasnosti bude nový stĺpec s hodnotou klastra Power Query Online poskytovať nový stĺpec s skóre podobnosti.