Rozdělení dat pomocí regulárního výrazu

Důležité

Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.

Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).

Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.

Tento článek popisuje, jak používat možnost Rozdělení regulárního výrazu v modulu Rozdělit data v Machine Learning Studiu (klasickém). Tato možnost je užitečná, když potřebujete u textového sloupce použít kritéria filtru. Datovou sadu můžete například rozdělit podle toho, jestli je zmíněn konkrétní produkt.

Poznámka

Platí pro: Machine Learning Studio (classic)

Podobné moduly s přetahováním jsou k dispozici v Azure Machine Learning návrháři.

Můžete použít regulární výraz rozdělený na jeden textový sloupec. Definujete regulární výraz, který obsahuje název textového sloupce, a potom nastavíte podmínky, které se na sloupec vztahují, například "začíná na", ""obsahuje" nebo "neobsahuje".

Obecné informace o dělení dat pro experimenty strojového učení najdete v tématu Rozdělení dat a Rozdělení.

Další možnosti v modulu Rozdělit data:

Rozdělení datové sady pomocí regulárního výrazu

  1. Přidejte do experimentu modul Rozdělit data a připojte ho jako vstup k datové sadě, kterou chcete rozdělit.

  2. V části Režim rozdělení vyberte Rozdělení regulárního výrazu.

  3. Do pole Regulární výraz zadejte platný regulární výraz. Tady najdete několik příkladů.

    Regulární výraz se použije pouze na zadaný sloupec, který musí být řetězcový datový typ.

    Nápovědu k vytváření regulárních výrazů najdete v tématu Jazyk regulárních výrazů – stručná referenční příručka.

  4. Spusťte experiment nebo klikněte pravým tlačítkem na modul a vyberte Spustit vybrané.

    Na základě regulárního výrazu, který poskytnete, se datová sada rozdělí do dvou sad řádků: řádků s hodnotami, které odpovídají výrazu a všem zbývajícím řádkům.

Příklady

Následující příklady ukazují, jak rozdělit datovou sadu pomocí možnosti Regulární výraz .

Jedno celé slovo

V tomto příkladu se do první datové sady zavedou všechny řádky, které obsahují text GryphonTextve sloupci , a ostatní řádky se převedou do druhého výstupu funkce Rozdělit data:

    \"Text" Gryphon  

Podřetězec

Tento příklad hledá zadaný řetězec na libovolné pozici ve druhém sloupci datové sady, který je zde označen hodnotou indexu 1. Shoda rozlišuje velká a malá písmena.

(\1) ^[a-f]

První výsledná datová sada obsahuje všechny řádky, kde indexový sloupec začíná jedním z těchto znaků: a, b, c, d, , e, . f Všechny ostatní řádky se směrují na druhý výstup.

Shoda řetězců na IP adresách

Tento příklad rozděluje některá data protokolu serveru do dvou kategorií pro analýzu: připojení za bránou firewall a připojení s IP adresami mimo bránu firewall. Regulární výraz se použije na pole IP_Address (datový typ řetězce).

(\IP_Address) ^[10]

První výstup obsahuje všechny adresy, které začínají na 10.

Viz také

Ukázka a rozdělení
Rozdělení a ukázky