Odebrat komponentu Duplicitní řádky

Tento článek popisuje komponentu v návrháři služby Azure Machine Learning.

Tato komponenta slouží k odebrání potenciálních duplicit z datové sady.

Předpokládejme například, že vaše data vypadají takto a představují více záznamů pro pacienty.

Id pacienta Iniciály Pohlaví Věk Přijaty
1 F.M. M 53 Jan
2 A.M. M 53 Jan
3 A.M. M 24 Jan
3 F.M. M 24 Feb
4 F.M. M 23 Feb
F.M. M 23
5 A.M. M 53
6 A.M. M Není číslo
7 A.M. M Není číslo

Je zřejmé, že tento příklad obsahuje více sloupců s potenciálně duplicitními daty. To, jestli se jedná o duplikáty, závisí na vašich znalostech dat.

  • Můžete například vědět, že mnoho pacientů má stejné jméno. Duplicity byste neodstranily pomocí žádných sloupců názvů, pouze sloupce ID . Tímto způsobem se vyfiltrují jenom řádky s duplicitními hodnotami ID bez ohledu na to, jestli mají pacienti stejné jméno nebo ne.

  • Případně se můžete rozhodnout povolit duplicity v poli ID a použít jinou kombinaci souborů k vyhledání jedinečných záznamů, jako je jméno, příjmení, věk a pohlaví.

Pokud chcete nastavit kritéria pro to, zda je řádek duplicitní, zadejte jeden sloupec nebo sadu sloupců, které se mají použít jako klíče. Dva řádky se považují za duplicitní pouze v případech, kdy jsou hodnoty ve všech klíčových sloupcích stejné. Pokud u některého řádku chybí hodnota pro klíče, nebudou považovány za duplicitní řádky. Pokud jsou například ve výše uvedené tabulce jako Klíče nastaveny pohlaví a věk, nejsou řádky 6 a 7 duplicitními řádky, protože ve věku chybí jejich hodnota.

Když komponentu spustíte, vytvoří kandidátní datovou sadu a vrátí sadu řádků, které nemají žádné duplicity v zadané sadě sloupců.

Důležité

Zdrojová datová sada se nezmění. tato komponenta vytvoří novou datovou sadu, která je filtrována tak, aby se vyloučily duplicity na základě zadaných kritérií.

Jak používat odebrání duplicitních řádků

  1. Přidejte komponentu do kanálu. Komponentu Odebrat duplicitní řádky najdete v části Transformace dat, Manipulace.

  2. Připojte datovou sadu, u které chcete zkontrolovat duplicitní řádky.

  3. V podokně Vlastnosti v části Výraz filtru výběru sloupce klíč klikněte na Spustit selektor sloupců a zvolte sloupce, které se mají použít k identifikaci duplicit.

    Klíč v tomto kontextu neznamená jedinečný identifikátor. Všechny sloupce, které vyberete pomocí selektoru sloupců, se označí jako klíčové sloupce. Všechny nevybrané sloupce se považují za sloupce, které nejsou klíčové. Jedinečnost záznamů určuje kombinace sloupců, které vyberete jako klíče. (Představte si ho jako příkaz SQL, který používá více spojení s rovnostmi.)

    Příklady:

    • "Chci zajistit, aby ID byla jedinečná": Zvolte pouze sloupec ID.
    • "Chci zajistit, aby kombinace křestního jména, příjmení a ID byla jedinečná": Vyberte všechny tři sloupce.
  4. Pomocí zaškrtávacího políčka Zachovat první duplicitní řádek označte, který řádek se má vrátit při nalezení duplicit:

    • Pokud je tato možnost vybraná, vrátí se první řádek a ostatní se zahodí.
    • Pokud zaškrtnutí této možnosti zrušíte, zůstane ve výsledcích zachován poslední duplicitní řádek a ostatní se zahodí.
  5. Odešlete kanál.

  6. Pokud chcete zkontrolovat výsledky, klikněte pravým tlačítkem na komponentu a vyberte Vizualizovat.

Tip

Pokud jsou výsledky obtížně pochopitelné nebo pokud chcete některé sloupce z úvahy vyloučit, můžete sloupce odebrat pomocí komponenty Vybrat sloupce v datové sadě .

Další kroky

Projděte si sadu komponent dostupných pro Azure Machine Learning.