Približné zlúčenie

Zlúčenie na základe približnej hodnoty je inteligentná funkcia prípravy údajov, ktorú môžete použiť na použitie približných zhôd s algoritmami pri porovnávaní stĺpcov a pokúsiť sa nájsť zhody v tabuľkách, ktoré sa zlučujú.

Približné zladenie v dolnej časti dialógového okna Zlúčiť môžete povoliť výberom tlačidla Použiť približné zhody na vykonanie možnosti zlúčenia . Ďalšie informácie: Prehľad operácií zlúčenia

Poznámka

Približná zhoda sa podporuje len pri operáciách zlúčenia textových stĺpcov. Power Query používa algoritmus podobnosti Jaccard na meranie podobnosti medzi pármi inštancií.

Vzorový scenár

Bežným príkladom použitia pri približnej zhode je s voľnými textovými poľami, napríklad v prieskume. Pre tento článok bola vzorová tabuľka prevzatá priamo z online prieskumu odoslaného do skupiny s iba jednou otázkou: Aké je vaše obľúbené ovocie?

Výsledky tohto prieskumu sú zobrazené na nasledujúcom obrázku.

Ukážkový prieskum so nespracovanými položkami.

Výstupná tabuľka ukážky prieskumu obsahujúca graf distribúcie stĺpcov zobrazujúci deväť odlišných odpovedí so všetkými odpoveďami, ktoré sú jedinečné, a odpovede na prieskum so všetkými preklepmi, množným alebo jedinečným číslom a problémami s prípadmi.

Deväť záznamov odráža odoslania prieskumu. Problém s prieskumom podania je, že niektoré majú preklepy, niektoré sú v množnom čísle, niektoré sú jednotné, niektoré sú veľké, a niektoré sú malé.

Ak chcete tieto hodnoty štandardizovať, v tomto príklade máte referenčnú tabuľku Ovocie .

Referenčná tabuľka ovocie.

Referenčná tabuľka Ovocie obsahujúca graf distribúcie stĺpcov zobrazujúci štyri rôzne druhy ovocia s jedinečným obsahom ovocia a zoznam ovocia: jablko, ananás, watermelon a banány.

Poznámka

Pre jednoduchosť táto referenčná tabuľka Ovocie obsahuje iba názov ovocia, ktoré budú potrebné pre tento scenár. Referenčná tabuľka môže obsahovať toľko riadkov, koľko potrebujete.

Cieľom je vytvoriť napríklad tabuľku, v ktorej ste štandardizovali všetky tieto hodnoty, aby ste mohli vykonať ďalšiu analýzu.

Výstupná tabuľka ukážky prieskumu.

Výstupná tabuľka ukážky prieskumu so stĺpcom Otázka obsahujúca graf distribúcie stĺpcov znázorňujúci deväť jedinečných odpovedí so všetkými odpoveďami a odpoveďami na prieskum so všetkými preklepmi, množným číslom alebo v jednotnom čísle a problémami s prípadmi a tiež obsahuje stĺpec Fruit obsahujúci graf distribúcie stĺpcov zobrazujúci štyri odlišné odpovede s jednou jedinečnou odpoveďou a zoznam všetkých správne napísaného ovocia, písmenami jednotného čísla a náležitým písmenom.

Operácia na približné zlúčenie

Ak chcete vykonať približné zlúčenie, začnite zlúčením. V tomto prípade použijete vonkajšie spojenie zľava, kde ľavá tabuľka je tá z prieskumu a pravá tabuľka je referenčná tabuľka Ovocie . V dolnej časti dialógového okna začiarknite políčko Použiť približné zhody na vykonanie zlúčenia .

Na vykonanie možnosti zlúčenia použite približné zhody.

Po výbere tlačidla OK sa v tabuľke zobrazí nový stĺpec z dôvodu tejto operácie zlúčenia. Ak ju rozbalíte, všimnete si, že sa tu nachádza jeden riadok, ktorý neobsahuje žiadne hodnoty. To je presne to, čo dialógové okno správy na predchádzajúcom obrázku uviedol, keď povedal: "Výber zodpovedá 8 z 9 riadkov z prvej tabuľky."

Výsledky približnej zhody v stĺpci Fruit (Ovocie).

Stĺpec Fruit (Ovocie) pridaný do tabuľky Survey (Prieskum) s rozbalenými všetkými riadkami v stĺpci Question (Otázka) s výnimkou riadka 9, ktorý sa nepodarilo rozbaliť a stĺpec Fruit (Ovocie) obsahuje hodnotu null.

Možnosti približnej zhody

Môžete upraviť možnosti približnej zhody a vylepšiť spôsob približnej zhody. Najprv vyberte príkaz Zlúčiť dotazy a potom v dialógovom okne Zlúčiť rozbaľte možnosti približnej zhody.

Približné možnosti zhody.

K dispozícii sú tieto možnosti:

  • Prahová hodnota podobnosti (voliteľné): Hodnota medzi 0,00 a 1,00, ktorá poskytuje možnosť zhody záznamov nad daným skóre podobnosti. Prahová hodnota 1,00 je rovnaká ako zadanie kritéria presnej zhody. Napríklad reťazec Hrozno sa zhoduje s reťazcom Graes (chýba písmeno p) iba v prípade, že prah je nastavený na hodnotu menšiu ako 0,90. Predvolene je táto hodnota nastavená na 0,80.
  • Ignorovať malé a veľké písmená: umožňuje záznamy zhody bez ohľadu na veľkosť písma v texte.
  • Zhôd kombináciou textov častí: Umožňuje nájsť zhody pomocou kombinovania textovej časti. Napríklad micro soft sa bude zhodovať so spoločnosťou Microsoft, ak je táto možnosť povolená.
  • Zobraziť skóre podobnosti: Zobrazí skóre podobnosti medzi vstupom a hodnotami zhody po približnej zhode.
  • Počet zhôd (voliteľné): Určuje maximálny počet zhodných riadkov, ktoré možno vrátiť pre každý vstupný riadok.
  • Tabuľka transformácií (voliteľné): umožňuje zisťovanie zhody záznamov na základe mapovania vlastných hodnôt. Reťazec Hrozno sa napríklad bude zhodovať s hrozienkami, ak je uvedená tabuľka transformácie, v ktorej stĺpec Od obsahuje reťazec Hrozno a stĺpec Do obsahuje Hrozienka.

Tabuľka transformácie

V príklade v tomto článku môžete použiť tabuľku transformácie na mapovanie hodnoty, ktorá chýba. Táto hodnota je apls, ktorá je potrebné mapovať na Apple. Tabuľka transformácie má dva stĺpce:

  • Z obsahuje hodnoty, ktoré sa majú vyhľadať.
  • Ak chcete obsahovať hodnoty, ktoré sa použijú na nahradenie hodnôt nájdených pomocou stĺpca Od .

V tomto článku bude tabuľka transformácie vyzerať takto:

Z Akcia
apls (apls) Apple

Môžete sa vrátiť do dialógového okna Zlúčiť a v časti Počet zhôd s zhodou zadajte hodnotu 1. Povoľte možnosť Zobraziť skóre podobnosti a potom v časti Tabuľka transformácie v rozbaľovacej ponuke vyberte položku Transformovať tabuľku.

Dialógové okno Zlúčiť s počtom zhôd nastaveným na 1 a tabuľkou Transformácia nastavenou na možnosť Transformovať tabuľku.

Po výbere tlačidla OK môžete prejsť na krok zlúčenia. Keď rozbalíte stĺpec s hodnotami tabuľky, všimnete si, že okrem poľa Ovocie sa zobrazí aj pole Skóre podobnosti. Vyberte ich a rozbaľte ich bez pridania predpony.

Dialógové okno Tabuľka rozbalenia pre stĺpec Ovocie, ktorý obsahuje vybraté polia Skóre ovocia a podobnosti.

Po rozbalení týchto dvoch polí sa tieto dve polia pridajú do tabuľky. Všimnite si hodnoty, ktoré získate pre skóre podobnosti každej hodnoty. Tieto skóre vám v prípade potreby môžu pomôcť s ďalšími transformáciami, aby ste mohli určiť, či máte znížiť alebo zvýšiť prah podobnosti.

Výstup tabuľky po tom, ako sa proces približného zlúčenia vyskytol, sa zobrazia nové polia skóre ovocia a podobnosti pre každú hodnotu z pôvodného dotazu.

V tomto príklade skóre podobnosti slúži len ako ďalšie informácie a nie je potrebné vo výstupe tohto dotazu, takže ho môžete odstrániť. Všimnite si, ako sa v príklade začalo s deviatimi odlišnými hodnotami, ale po približnej zlúčenie sú k dispozícii len štyri odlišné hodnoty.

Výstupná tabuľka prieskumu na približnej zlúčenie.

Výstupná tabuľka fuzzy zlúčenia prieskumu so stĺpcom Otázka obsahujúca graf distribúcie stĺpcov zobrazujúci deväť jedinečných odpovedí so všetkými odpoveďami a odpoveďami na prieskum so všetkými preklepmi, množným číslom alebo číslami a problémami s prípadmi. Taktiež obsahuje stĺpec Fruit (ovocie) s grafom distribúcie stĺpcov zobrazujúci štyri odlišné odpovede s jednou jedinečnou odpoveďou a zoznam všetkých plodov správne hláskovaných, jedinečných a správnych písmen.