Oříznutí hodnot

Tento článek popisuje komponentu návrháře služby Azure Machine Learning.

Pomocí komponenty Hodnoty klipů můžete identifikovat datové hodnoty nad nebo pod zadanou prahovou hodnotou a volitelně je nahradit střední hodnotou, konstantou nebo jinou náhradní hodnotou.

Připojíte komponentu k datové sadě obsahující čísla, která chcete vystřihovat, zvolíte sloupce, se kterými chcete pracovat, nastavíte prahovou hodnotu nebo rozsah hodnot a metodu nahrazení. Komponenta může výstupovat buď jenom výsledky, nebo změněné hodnoty připojené k původní datové sadě.

Jak nakonfigurovat hodnoty klipů

Než začnete, identifikujte sloupce, které chcete vystřihovat, a metodu, kterou chcete použít. Doporučujeme nejprve otestovat jakoukoli metodu oříznutí na malé podmnožině dat.

Komponenta použije stejná kritéria a metodu nahrazení u všech sloupců, které zahrnete do výběru. Proto nezapomeňte vyloučit sloupce, které nechcete změnit.

Pokud u některých sloupců potřebujete použít metody oříznutí nebo jiná kritéria, musíte pro každou sadu podobných sloupců použít novou instanci hodnoty klipu .

  1. Přidejte do kanálu komponentu Clip Values (Hodnoty klipu ) a připojte ji k datové sadě, kterou chcete upravit. Tuto komponentu najdete v kategorii Škálování a redukce v části Transformace dat.

  2. V seznamu Seznam sloupců pomocí selektoru sloupců vyberte sloupce, na které se mají použít hodnoty klipů .

  3. V části Sada prahových hodnot zvolte v rozevíracím seznamu jednu z následujících možností. Tyto možnosti určují, jak nastavíte horní a dolní hranice přijatelných hodnot oproti hodnotám, které musí být oříznuty.

    • ClipPeaks: Když vystřižujete hodnoty podle vrcholů, zadáte jenom horní hranici. Hodnoty, které jsou větší než tato hodnota hranice, se nahradí.

    • ClipSubpeaks: Při oříznutí hodnot podle podozetí zadáváte jenom dolní hranici. Hodnoty, které jsou menší než tato hodnota hranice, se nahradí.

    • ClipPeaksAndSubpeaks: Při oříznutí hodnot podle vrcholů a podúsek můžete zadat horní i dolní hranici. Hodnoty, které jsou mimo tento rozsah, se nahradí. Hodnoty, které odpovídají hodnotám hranic, se nezmění.

  4. V závislosti na vašem výběru v předchozím kroku můžete nastavit následující prahové hodnoty:

    • Nižší prahová hodnota: Zobrazí se jenom v případě, že zvolíte ClipSubPeaks.
    • Horní prahová hodnota: Zobrazí se jenom v případě, že zvolíte ClipPeaks.
    • Prahová hodnota: Zobrazí se jenom v případě, že zvolíte ClipPeaksAndSubPeaks.

    Pro každý typ prahové hodnoty zvolte konstantní nebo percentil.

  5. Pokud vyberete Možnost Konstanta, zadejte do textového pole maximální nebo minimální hodnotu. Předpokládejme například, že víte, že se jako zástupná hodnota použila hodnota 999. Jako horní prahovou hodnotu můžete zvolit Konstantní a jako horní prahovou hodnotu zadat 999.

  6. Pokud zvolíte percentil, omezíte hodnoty sloupců na rozsah percentilu.

    Předpokládejme například, že chcete zachovat pouze hodnoty v rozsahu 10–80 percentilu a nahradit všechny ostatní. Zvolte Percentil a pak jako hodnotu percentilu pro dolní prahovou hodnotu zadejte 10 a jako hodnotu percentilu zadejte 80 pro horní prahovou hodnotu.

    Některé příklady použití rozsahů percentilu najdete v části o percentilech.

  7. Definujte náhradní hodnotu.

    Čísla, která přesně odpovídají zadaným hranicím, se považují za čísla uvnitř povoleného rozsahu hodnot, a proto se nenahrazují. Všechna čísla, která spadají mimo zadaný rozsah, se nahradí náhradní hodnotou.

    • Náhradní hodnota pro špičky: Definuje hodnotu, která se nahradí všemi hodnotami sloupců, které jsou větší než zadaná prahová hodnota.
    • Náhradní hodnota dílčích hodnot: Definuje hodnotu, která se použije jako náhrada všech hodnot sloupců, které jsou menší než zadaná prahová hodnota.
    • Pokud použijete možnost ClipPeaksAndSubpeaks , můžete zadat samostatné náhradní hodnoty pro horní a dolní oříznuté hodnoty.

    Podporují se následující náhradní hodnoty:

    • Prahová hodnota: Nahradí vyříznuté hodnoty zadanou prahovou hodnotou.

    • Střední: Nahradí vyříznuté hodnoty střední hodnotou hodnot sloupců. Průměr se vypočítá před oříznutím hodnot.

    • Medián: Nahradí vyříznuté hodnoty mediánem hodnot sloupců. Medián se vypočítá před oříznutím hodnot.

    • Chybí. Nahradí vyříznuté hodnoty chybějící (prázdnou) hodnotou.

  8. Přidat sloupce indikátorů: Tuto možnost vyberte, pokud chcete vygenerovat nový sloupec s informacemi o tom, jestli se zadaná operace oříznutí použila na data v daném řádku. Tato možnost je užitečná při testování nové sady hodnot oříznutí a nahrazení.

  9. Příznak přepsání: Určuje, jak se mají nové hodnoty generovat. Hodnoty klipů ve výchozím nastavení vytvoří nový sloupec s maximálními hodnotami oříznutými na požadovanou prahovou hodnotu. Nové hodnoty přepíšou původní sloupec.

    Pokud chcete zachovat původní sloupec a přidat nový sloupec s vyříznutými hodnotami, zrušte výběr této možnosti.

  10. Odešlete kanál.

    Klikněte pravým tlačítkem na komponentu Clip Values (Hodnoty klipů ) a vyberte Visualize (Vizualizovat ) nebo vyberte komponentu a na pravém panelu přepněte na kartu Outputs (Výstupy ). Klikněte na ikonu histogramu ve výstupech portu, zkontrolujte hodnoty a ujistěte se, že operace oříznutí splňuje vaše očekávání.

Příklady výřezu pomocí percentilů

Abyste pochopili, jak funguje oříznutí podle percentilů, podívejte se na datovou sadu s 10 řádky, které mají po jedné instanci každý z hodnot 1–10.

  • Pokud jako horní prahovou hodnotu používáte percentil, při hodnotě 90. percentilu musí být 90 procent všech hodnot v datové sadě menší než tato hodnota.

  • Pokud jako dolní prahovou hodnotu používáte percentil, při 10. percentilu musí být 10 procent všech hodnot v datové sadě menší než tato hodnota.

  1. V části Sada prahových hodnot zvolte ClipPeaksAndSubPeaks.

  2. Jako Horní prahová hodnota zvolte Percentil a jako číslo percentilu zadejte 90.

  3. Pro horní náhradní hodnotu zvolte Chybějící hodnota.

  4. Jako Dolní prahová hodnota zvolte Percentil a jako Číslo percentilu zadejte 10.

  5. V části Nižší náhradní hodnota zvolte Chybějící hodnota.

  6. Zrušte výběr možnosti Příznak přepsání a vyberte možnost Přidat sloupec indikátoru.

Teď zkuste použít stejný kanál s hodnotou 60 jako horní prahovou hodnotou percentilu a hodnotou 30 jako dolní prahovou hodnotou percentilu a jako hodnotu pro nahrazení použijte prahovou hodnotu. Následující tabulka porovnává tyto dva výsledky:

  1. Nahraďte chybějícím; Horní prahová hodnota = 90; Dolní prahová hodnota = 20

  2. Nahradit prahovou hodnotou; Horní percentil = 60; Dolní percentil = 40

Původní data Nahradit chybějícím Nahradit prahovou hodnotou
1

2

3

4

5

6

7

8

9

10
TRUE

PRAVDA

3, NEPRAVDA

4, NEPRAVDA

5, NEPRAVDA

6, NEPRAVDA

7, NEPRAVDA

8, NEPRAVDA

9, NEPRAVDA

TRUE
4, PRAVDA

4, PRAVDA

4, PRAVDA

4, PRAVDA

5, NEPRAVDA

6, NEPRAVDA

7, PRAVDA

7, PRAVDA

7, PRAVDA

7, PRAVDA

Další kroky

Podívejte se na sadu komponent dostupných pro Azure Machine Learning.