Zoskupenie alebo súhrn riadkov

V doplnku Power Query môžete zoskupiť hodnoty v rôznych riadkoch do jednej hodnoty zoskupením riadkov podľa hodnôt v jednom alebo viacerých stĺpcoch. Môžete si vybrať z dvoch typov operácií zoskupenia:

  • Zoskupenia stĺpcov.

  • Zoskupenia riadkov.

V tomto kurze budete používať nasledujúcu ukážková tabuľku.

Počiatočná ukážka tabuľky.

Tabuľka so stĺpcami zobrazujúcimi Rok (2020), Krajina (USA, Panama alebo Kanada), Produkt (tričko alebo šortky), predajný kanál (online alebo predajca) a jednotky (rôzne hodnoty od 55 do 7500)

Kde nájdete tlačidlo Zoskupiť podľa

Tlačidlo Zoskupiť podľa nájdete na troch miestach:

  • Na karte Domov v skupine Transformovať .

    Možnosť Zoskupovať podľa na karte Domov.

  • Na karte Transformovať v skupine Tabuľka .

    Možnosť Zoskupovať podľa na karte Transformovať.

  • Keď kliknete pravým tlačidlom myši v kontextovej ponuke, vyberte stĺpce.

    Zoskupte podľa v kontextovej ponuke.

Použitie agregovanej funkcie na zoskupenie podľa jedného alebo viacerých stĺpcov

V tomto príklade bude vaším cieľom sumarizovať celkový počet predaných jednotiek na úrovni krajiny a predajného kanála. Na vykonanie skupiny podľa operácie budete používať stĺpce Country (Krajina ) a Sales Channel (Kanál predaja).

  1. Na karte Domov vyberte položku Zoskupovať podľa.
  2. Vyberte možnosť Rozšírené, aby ste mohli vybrať viacero stĺpcov, podľa ktoré chcete zoskupiť.
  3. Vyberte stĺpec Country ( Krajina ).
  4. Vyberte položku Pridať zoskupenie.
  5. Vyberte stĺpec Sales Channel (Kanál predaja).
  6. Do poľa Názov nového stĺpca zadajte Text Celkový odbyt jednotiek, do časti Operácia vyberte položku Súčet a do poľa Stĺpec vyberte možnosť Jednotky.
  7. Vyberte položku OK

Dialógové okno Zoskupovať podľa s agregovanými stĺpcami.

V tejto operácii je uvedená nasledujúca tabuľka.

Ukážková výstupná tabuľka so stĺpcami Country (Krajina), Sales Channel (Predajný kanál) a Total units (Celkový počet jednotiek).

Dostupné operácie

S funkciou Zoskupiť podľa možno dostupné operácie kategorizovať dvoma spôsobmi:

  • Operácia na úrovni riadkov
  • Operácia na úrovni stĺpca

Nasledujúca tabuľka popisuje každú z týchto operácií.

Názov operácie Kategória Description
Sum Operácia stĺpca Sčíta všetky hodnoty zo stĺpca
Priemerná Operácia stĺpca Vypočíta priemernú hodnotu zo stĺpca
Medián Operácia stĺpca Vypočíta medián zo stĺpca
Min Operácia stĺpca Vypočíta minimálnu hodnotu zo stĺpca
Max Operácia stĺpca Vypočíta maximálnu hodnotu zo stĺpca
Percentil Operácia stĺpca Vypočíta percentil zo stĺpca pomocou vstupnej hodnoty od 0 do 100.
Spočítať jedinečné hodnoty Operácia stĺpca Vypočíta počet jedinečných hodnôt zo stĺpca
Spočítať riadky Operácia riadka Vypočíta celkový počet riadkov z danej skupiny
Spočítať jedinečné riadky Operácia riadka Vypočíta počet jedinečných riadkov z danej skupiny
Všetky riadky Operácia riadka Výstupom sú všetky zoskupené riadky v hodnote tabuľky bez agregácií.

Poznámka

Jedinečné hodnoty Počtu a Operácie percentilu sú k dispozícii iba v Power Query Online.

Vykonanie operácie na zoskupenie podľa jedného alebo viacerých stĺpcov

Od pôvodnej vzorky vytvoríte v tomto príklade stĺpec obsahujúci celkový počet jednotiek a ďalšie dva stĺpce, ktoré vám dajú názov a predané jednotky pre produkt s najvyšším výkonom, ktorý je zhrnutý na úrovni krajiny a predajného kanála.

Ukážka výstupnej tabuľky s operáciami.

  1. Nasledujúce stĺpce použite ako skupinu podľa stĺpcov:

    • Krajina
    • Predajný kanál
  2. Vytvorte dva nové stĺpce pomocou nasledujúcich krokov:

    1. Agregácia stĺpca Jednotky pomocou operácie Súčet . Pomenujte tento stĺpec Celkový predaj jednotiek.
    2. Pridajte nový stĺpec Products pomocou operácie Všetky riadky .

    Dialógové okno Zoskupovať podľa s neagregovaným stĺpcom.

Po dokončení tejto operácie si všimnite, ako má stĺpec Products v každej bunke hodnoty [Tabuľka]. Každá hodnota [Tabuľka] obsahuje všetky riadky, ktoré boli zoskupené podľa stĺpcov Country (Krajina ) a Sales Channel (Kanál predaja) z pôvodnej tabuľky. Môžete vybrať prázdny priestor vo vnútri bunky a zobraziť ukážku obsahu tabuľky v dolnej časti dialógového okna.

Tabla s ukážkou podrobností tabuľky.

Poznámka

Na table s ukážkou podrobností sa nemusia zobrazovať všetky riadky použité pre operáciu zoskupenia. Môžete vybrať hodnotu [Tabuľka], aby sa zobrazili všetky riadky týkajúce sa zodpovedajúcej operácie zoskupenia.

Potom je potrebné extrahovať riadok, ktorý má najvyššiu hodnotu v stĺpci Jednotky v tabuľkách v novom stĺpci Products , a zavolať tento nový stĺpec Produkt s najvyšším výkonom.

Extrahovanie informácií o produkte s najvyšším výkonom

V novom stĺpci Products (Produkty ) s hodnotami [Tabuľka] vytvoríte nový vlastný stĺpec tak, že na karte Pridať stĺpec na páse s nástrojmi vyberiete položku Vlastný stĺpec zo skupiny Všeobecné .

Pridať vlastný stĺpec.

Pomenujte nový stĺpec Produkt s najvyšším výkonom. Zadajte vzorec Table.Max([Products], "Units" ) do časti Vzorec vlastného stĺpca.

Vzorec vlastného stĺpca s tabuľkou Table.Max.

Výsledkom tohto vzorca sa vytvorí nový stĺpec s hodnotami [Záznam]. Tieto hodnoty záznamu sú v podstate tabuľkou len s jedným riadkom. Tieto záznamy obsahujú riadok s maximálnou hodnotou pre stĺpec Jednotky každej hodnoty [Tabuľka] v stĺpci Produkty .

Výsledok vzorca vlastného stĺpca so stĺpcom Table.Max.

S týmto novým stĺpcom produktu Top performer (Najlepšie výsledky), ktorý obsahuje hodnoty [Record], môžete vybrať Rozšíriť. ikonu rozbalenia, vybrať polia Produkt a Jednotky a potom vybrať položku OK.

Rozbaliť operáciu pre hodnotu záznamu v stĺpci produktu Top performer (Najlepšie výkon).

Po odstránení stĺpca Products a nastavení typu údajov pre obe novo rozbalené stĺpce sa výsledok bude podobať na nasledujúci obrázok.

Konečná tabuľka so všetkými transformáciami.

Približné zoskupenie

Poznámka

Nasledujúca funkcia je k dispozícii len v Power Query Online.

Ak chcete ukázať, ako na to "približné zoskupenie", zvážte ukážku tabuľky zobrazenú na nasledujúcom obrázku.

Tabuľka s deviatimi riadkami položiek, ktoré obsahujú rôzne pravopisy a veľké písmená mena Miguel a William.

Cieľom približného zoskupenia je vykonať operáciu zoskupenia, ktorá pre textové reťazce používa algoritmus približnej zhody. Power Query používa algoritmus podobnosti Jaccard na meranie podobnosti medzi pármi inštancií. Potom použije aglomeratívne hierarchické klastrovanie na zoskupenie inštancií. Nasledujúci obrázok znázorňuje očakávaný výstup, v ktorom bude tabuľka zoskupená podľa stĺpca Osoba .

Tabuľka zobrazujúca položky pre osoby ako

Ak chcete vykonať približné zoskupenie, vykonajte rovnaké kroky, aké boli predtým popísané v tomto článku. Jediný rozdiel je v tom, že tentoraz v dialógovom okne Zoskupiť podľa začiarknite políčko Použiť približné zoskupenie .

Začiarkavacie políčko Približné zoskupenie v dialógovom okne Zoskupiť podľa.

Pre každú skupinu riadkov power query vyberie najčastejšiu inštanciu ako "kanonickú" inštanciu. Ak sa vyskytujú viaceré inštancie s rovnakou frekvenciou, Power Query vyberie prvú inštanciu. Po výbere tlačidla OK v dialógovom okne Zoskupiť podľa získate očakávaný výsledok.

Finálna tabuľka približnej zoskupovania, žiadna tabuľka transformácie.

Nad operáciou približného zoskupenia však máte väčšiu kontrolu tým, že rozbalíte možnosti skupiny Fuzzy.

Možnosti približnej skupiny.

Pre približné zoskupenie sú k dispozícii tieto možnosti:

  • Prahová hodnota podobnosti (voliteľné): Táto možnosť označuje, ako musia byť podobné dve hodnoty zoskupené. Minimálne nastavenie 0 spôsobí, že všetky hodnoty sa zoskupia. Maximálne nastavenie 1 umožní zoskupiť iba hodnoty, ktoré sa presne zhodujú. Predvolená hodnota je 0,8.
  • Ignorovať malé a veľké písmená: Pri porovnávaní textových reťazcov sa veľké a malé písmená ignorujú. Táto možnosť je predvolene zapnutá.
  • Zoskupenie skombinovaním častí textu: Algoritmus sa pokúsi skombinovať textové časti (ako napríklad skombinovanie mikro a mäkké do spoločnosti Microsoft) a zoskupiť hodnoty.
  • Zobraziť skóre podobnosti: Zobrazí skóre podobnosti medzi vstupnými hodnotami a vypočítavaným reprezentatívnymi hodnotami po približnom zoskupení. Vyžaduje pridanie operácie, ako sú napríklad všetky riadky , na prezentovanie tejto informácie na úrovni riadkov.
  • Tabuľka transformácie (voliteľné): Môžete vybrať tabuľku transformácie, ktorá primapuje hodnoty (napríklad priraďovanie MSFT do spoločnosti Microsoft) a zoskupí ich.

V tomto príklade sa použije tabuľka transformácie na znázornenie toho, ako možno mapovať hodnoty. Tabuľka transformácie má dva stĺpce:

  • Od: Textový reťazec, ktorý sa má vyhľadať v tabuľke.
  • Ak chcete: Textový reťazec, ktorý sa má použiť na nahradenie textového reťazca v stĺpci Od .

Na nasledujúcom obrázku je znázornená tabuľka transformácií použitá v tomto príklade.

Tabuľka znázorňujúca hodnoty Z hodnôt mikrofónu a Williama a Do v zoznamoch Miguel a Bill.

Dôležité

Je dôležité, aby mala tabuľka transformácie rovnaké názvy stĺpcov a stĺpcov ako je uvedené vyššie (musia ísť od" alebo "Do"), v opačnom prípade ich Power Query nerozpozná.

Vráťte sa do dialógového okna Zoskupiť podľa , rozbaľte možnosti skupiny Fuzzy, zmeňte operáciu z možnosti Počet riadkov na možnosť Všetky riadky, povoľte možnosť Zobraziť skóre podobnosti a potom vyberte rozbaľovaciu ponuku Tabuľka transformácie.

Rozbaľovacia ponuka s rozbaľovacou ponukou ukážky transformácie zoskupenia na približné zoskupenie.

Po výbere tabuľky transformácie vyberte tlačidlo OK. Výsledok tejto operácie vám poskytne nasledujúce informácie:

Približná finálna tabuľka zoskupenia s tabuľkou transformácie.

V tomto príklade bola povolená možnosť Ignorovať prípad, takže hodnoty v stĺpci Od v tabuľke transformácie sa používajú na vyhľadanie textového reťazca bez toho, aby sa uvažovalo o prípade reťazca. Táto operácia transformácie sa vykoná najprv a potom sa vykoná približná operácia zoskupenia.

Skóre podobnosti sa zobrazuje aj v hodnote tabuľky vedľa stĺpca osoba, ktorá presne odráža, ako boli hodnoty zoskupené a ich príslušné skóre podobnosti. Tento stĺpec môžete v prípade potreby rozbaliť alebo môžete použiť hodnoty z nových stĺpcov Frequency pre iné druhy transformácií.

Poznámka

Pri zoskupovaní podľa viacerých stĺpcov vykoná tabuľka transformácie operáciu nahradenia vo všetkých stĺpcoch, ak nahradením hodnoty sa zvýši skóre podobnosti.

Pozrite si tiež

Pridanie vlastného stĺpca
Odstránenie duplikátov