Ako približná zhoda funguje v Power Query

Funkcie Power Query, ako napríklad približné zlúčenie, hodnoty klastrov a približné zoskupenie , používajú rovnaké mechanizmy na to, aby fungovali ako približná zhoda.

Tento článok prechádza mnohými scenármi, ktoré ukazujú, ako využiť možnosti, ktoré približná zhoda má, s cieľom urobiť 'približné' jasné.

Úprava prahovej hodnoty podobnosti

Najlepším scenárom použitia algoritmu približnej zhody je, že všetky textové reťazce v stĺpci obsahujú iba reťazce, ktoré je potrebné porovnať, a žiadne ďalšie súčasti. Porovnanie s 4ppl3s výnosmi má Apples napríklad vyššie skóre podobnosti ako porovnanie ApplesMy favorite fruit, by far, is Apples. I simply love them!s .

Keďže slovo Apples v druhom reťazci je len malou časťou celého textového reťazca, toto porovnanie prináša nižšie skóre podobnosti.

Nasledujúca množina údajov napríklad pozostáva z odpovedí z prieskumu, ktorý mal iba jednu otázku: "Aké je vaše obľúbené ovocie?"

Ovocie
Čučoriedky
Modré bobule sú jednoducho najlepšie
Jahody
Jahody = <3
Jablká
'sples'
4ppl3s
Banány
fav ovocie sú banány
Banas
Moje obľúbené ovocie, zďaleka, je Apples. Jednoducho ich milujem!

Prieskum poskytol jedno textové pole na zadanie hodnoty a nemal žiadne overenie.

Teraz máte za úlohu klastrovať hodnoty. Ak chcete vykonať túto úlohu, načítajte predchádzajúcu tabuľku ovocia do Power Query, vyberte stĺpec a potom vyberte možnosť Hodnoty klastra na karte Pridať stĺpec na páse s nástrojmi.

Možnosť Hodnoty klastra v karte Pridať stĺpec na páse s nástrojmi, ktorá je k dispozícii po výbere stĺpca Ovocie v tabuľke.

Zobrazí sa dialógové okno Hodnoty klastra, kde môžete zadať názov nového stĺpca. Pomenujte tento nový stĺpec Klaster a vyberte tlačidlo OK.

Dialógové okno Hodnoty klastra po výbere stĺpca Fruit (Ovocie). Pole názvu nového stĺpca je nastavené na možnosť Klaster.

V predvolenom nastavení používa Power Query prah podobnosti 0,8 (alebo 80 %) a výsledok predchádzajúcej operácie prináša nasledujúcu tabuľku s novým stĺpcom klastra .

Predvolený výstup s novým stĺpcom klastra po vykonaní operácie Hodnoty klastra v stĺpci Ovocie s predvolenými hodnotami.

Zatiaľ čo klastrovanie bolo vykonané, neposkytne vám očakávané výsledky pre všetky riadky. Riadok číslo dva (2) má stále hodnotu Blue berries are simply the best, ale mala by byť zoskupená do Blueberries, a niečo podobné sa stane textovými reťazcami Strawberries = <3, fav fruit is bananasa My favorite fruit, by far, is Apples. I simply love them!.

Ak chcete zistiť, čo spôsobuje toto klastrovanie, dvakrát kliknite na položku Skupinové hodnotyna paneli Použité kroky , čím sa vráti dialógové okno Hodnoty klastra. V tomto dialógovom okne rozbaľte možnosti klastra Fuzzy. Povoľte možnosť Zobraziť skóre podobnosti a potom vyberte položku OK.

Okno hodnoty klastra so zobrazenými možnosťami približného klastra a vybratou možnosťou zobraziť skóre podobnosti.

Povolením možnosti Zobraziť skóre podobnosti sa vytvorí nový stĺpec v tabuľke. V tomto stĺpci sa zobrazuje presné skóre podobnosti medzi definovaným klastrom a pôvodnou hodnotou.

Tabuľka s novým stĺpcom skóre podobnosti s názvom Fruit_Cluster_Similarity.

Po bližšom dozore sa v doplnku Power Query nepodarilo nájsť žiadne iné hodnoty v prahovej hodnote podobnosti pre textové reťazce Blue berries are simply the best,Strawberries = <3, fav fruit is bananasa My favorite fruit, by far, is Apples. I simply love them!.

Ak sa chcete znova vrátiť do dialógového okna Hodnoty klastra, dvakrát kliknite na položku Skupinové hodnoty na paneli Použité kroky . Zmeňte prahovú hodnotu podobnosti z 0,8 na 0,6 a potom vyberte položku OK.

Dialógové okno Hodnoty klastra so zobrazenými možnosťami približného klastra, prahovou hodnotou podobnosti nastavenou na hodnotu 0,6 a vybratou možnosťou Zobraziť skóre podobnosti.

Táto zmena sa dostanete bližšie k výsledku, ktorý hľadáte, okrem textového reťazca My favorite fruit, by far, is Apples. I simply love them!. Keď ste zmenili prahovú hodnotu podobnosti z 0,8 na 0,6, doplnok Power Query bol teraz schopný používať hodnoty s skóre podobnosti, ktoré začínalo od 0,6 až po 1.

Tabuľka po definovaní prahovej hodnoty podobnosti na úrovni 0,6 s novými hodnotami priradenými v stĺpci klastra.

Poznámka

Power Query vždy používa hodnotu, ktorá je najbližšie k prahovej hodnote, na definovanie klastrov. Prahová hodnota definuje nižší limit skóre podobnosti, ktoré je prijateľné na priradenie hodnoty klastru.

Môžete to skúsiť znova tak, že zmeníte skóre podobnosti z 0,6 na nižšie číslo, kým nenájdete výsledky, ktoré hľadáte. V tomto prípade zmeňte skóre podobnosti na hodnotu 0,5. Táto zmena vráti presný výsledok, ktorý očakávate, keď je textový reťazec My favorite fruit, by far, is Apples. I simply love them! teraz priradený ku klastru Apples.

Tabuľka so správnymi hodnotami v stĺpci Klastr, kde reťazec Moje obľúbené ovocie je zďaleka Apples. Jednoducho ich milujem! je teraz priradená ku klastru Apples .

Poznámka

V súčasnosti poskytuje v službe Power Query Online len funkcia Hodnoty klastra nový stĺpec s skóre podobnosti.

Osobitné informácie týkajúce sa tabuľky transformácie

Tabuľka transformácie pomáha mapovať hodnoty zo stĺpca na nové hodnoty pred vykonaním približného zhodného algoritmu.

Niekoľko príkladov použitia tabuľky transformácie:

Dôležité

Pri použití tabuľky transformácie je maximálne skóre podobnosti pre hodnoty z tabuľky transformácie 0,95. Tento zámerný trest 0,05 platí na rozlíšenie, že pôvodná hodnota z takéhoto stĺpca sa nerovná hodnotám, ktoré sa porovnali s hodnotami od doby, keď došlo k transformácii.

Pre scenáre, v ktorých chcete najskôr mapovať hodnoty a potom vykonať približné zhody bez pokuty 0,05, odporúčame, aby ste nahradili hodnoty zo stĺpca a potom vykonali približné zhody.