Rozdělení dat

Rozdělí řádky datové sady do dvou různých sad.

Kategorie: transformace/ukázka a rozdělení dat

Poznámka

Platí pro: Machine Learning Studio (Classic)

Tento obsah se týká pouze studia (Classic). Podobné moduly přetažení byly přidány do návrháře Azure Machine Learning. Další informace najdete v tomto článku porovnávající tyto dvě verze.

Přehled modulu

Toto téma popisuje, jak použít modul rozdělit data v Azure Machine Learning Studio (Classic) k rozdělení datové sady do dvou různých sad.

Tento modul je zvláště užitečný v případě, že potřebujete oddělit data do sad pro školení a testování. Můžete přizpůsobit také způsob, jakým jsou data rozdělena. Některé možnosti podporují náhodnost dat; jiné jsou přizpůsobené pro určitý typ dat nebo model.

Jak nakonfigurovat rozdělená data

Tip

Než zvolíte režim rozdělování, přečtěte si všechny možnosti a určete typ rozdělení, který potřebujete. Pokud změníte rozdělovací režim, můžete obnovit všechny ostatní možnosti.

  1. Přidejte modul rozdělit data do experimentu v studiu. Tento modul můžete najít v části transformace datv kategorii Ukázka a rozdělení .

  2. Režim rozdělení: v závislosti na typu dat a způsobu, jakým je chcete rozdělit, vyberte jeden z následujících režimů. Každý režim rozdělování má různé možnosti. Podrobné pokyny a příklady získáte kliknutím na následující témata.

    • Rozdělit řádky: tuto možnost použijte, pokud chcete pouze rozdělit data do dvou částí. Můžete určit procento dat, která mají být vložena do každého rozdělení, ale ve výchozím nastavení jsou data rozdělena 50-50.

      Můžete také náhodně vybrat řádky v každé skupině a použít vzorkování stratified. V stratified vzorkování musíte vybrat jeden sloupec dat, pro který chcete hodnoty rozdělit rovnoměrně mezi dvě datové sady výsledků.

    • Rozdělení doporučení: vždy vyberte tuto možnost, pokud připravujete data pro použití v systému doporučování. Pomáhá rozdělit datové sady do skupin pro školení a testování a zároveň zajistit, aby byly důležité hodnoty, jako jsou páry a hodnocení uživatelských položek, rovnoměrně rozdělené mezi skupiny.

    • Rozdělení regulárního výrazu: tuto možnost vyberte, pokud chcete datovou sadu rozdělit tak, že otestujete jeden sloupec s hodnotou.

      Pokud například analyzujete mínění, mohli byste vyhledat přítomnost konkrétního názvu produktu v textovém poli a potom datovou sadu rozdělit do řádků s cílovým názvem produktu a bez.

    • Rozdělení relativního výrazu: tuto možnost použijte vždy, když chcete použít podmínku pro sloupec s čísly. Toto číslo může být pole Datum a čas, sloupec obsahující věkové nebo dolarové částky nebo dokonce i procento. Například můžete chtít rozdělit datovou sadu podle nákladů na položky, seskupit lidi podle věkových rozsahů nebo jednotlivé údaje podle kalendářního data.

Požadavky

  • Rozdělená data mohou vytvořit maximálně dvě sady datových sad najednou a tyto sady musí být exkluzivní.

    Proto, pokud máte komplexní rozdělení s více podmínkami a výstupy, možná budete muset zřetězit dohromady více modulů rozdělených dat .

    Alternativně můžete použít příkaz CASE a modul použití transformace SQL .

  • Tento modul neodstraní data nebo je z datové sady neodstraní. pouze rozdělí data, jak je uvedeno mezi prvním a druhým výstupem modulu.

  • Rozdělení dat pro doporučující systém zahrnuje některé další požadavky. Obecně platí, že datová sada může obsahovat pouze dvojice uživatel-položka nebo troje hodnocení uživatelem. Proto modul Split data nemůže pracovat u datových sad, které mají více než tři sloupce, aby nedocházelo k záměně s daty typu funkce. Pokud vaše datová sada obsahuje příliš mnoho sloupců, může se zobrazit tato chyba:

    Chyba 0022: počet vybraných sloupců ve vstupní datové sadě se nerovná x

    Jako alternativní řešení můžete použít možnost vybrat sloupce v datové sadě k odebrání některých sloupců a pak později přidat sloupce pomocí Přidat sloupce. Případně, pokud vaše datová sada obsahuje mnoho funkcí, které chcete použít v modelu, rozdělte datovou sadu pomocí jiné možnosti a pomocí modelu výuky použijte model vlaků místo doporučení Matchbox.

Příklady

Příklady, jak se používá modul dělení dat , naleznete v Azure AI Gallery:

  • Vzájemné ověřování pro binární klasifikaci: datová sada pro dospělé: pro vytvoření menší náhodně navzorkovaných datové sady se použije sazba vzorkování s 20%. (Původní objektovou datovou sadu obsahovalo více než 30 000 řádků; datová sada školení má přibližně 6500). Tato datová sada se vyčistí pro chybějící hodnoty a potom se předává do pěti různých modelů pro školení a křížové ověření.

Technické poznámky

Následující požadavky platí pro všechna použití rozdělených dat:

  • Vstupní datová sada musí obsahovat alespoň dva řádky, nebo je vyvolána chyba.
  • Pokud použijete možnost pro zadání požadovaného počtu řádků, musí být zadané číslo kladné celé číslo a číslo musí být menší než celkový počet řádků v datové sadě.
  • Pokud zadáte číslo jako procento nebo pokud použijete řetězec, který obsahuje znak "%", hodnota je interpretována jako procento. Všechny procentuální hodnoty musí být v rozsahu (0, 100), včetně hodnot 0 a 100.
  • Pokud zadáte číslo nebo procento, které je číslo s plovoucí desetinnou čárkou menší než 1, a nepoužijete symbol procenta (%), číslo je interpretováno jako proporcionální hodnota.
  • Pokud použijete možnost pro rozdělení stratified, můžete výstupní datové sady dále dělit podskupinami, a to tak, že vyberete sloupec vrstev.

Očekávané vstupy

Název Typ Popis
Datová sada Tabulka dat Datová sada k rozdělení

Parametry modulu

Název Typ Rozsah Volitelné Popis Výchozí
Režim rozdělení Režim rozdělení Rozdělené řádky, rozdělovat doporučení, regulární výraz nebo relativní výraz Vyžadováno Rozdělit řádky Zvolit metodu rozdělení datové sady

Výstupy

Název Typ Popis
DataSet1. výsledků Tabulka dat Datová sada obsahující vybrané řádky
Dataset2 výsledků Tabulka dat Datová sada, která obsahuje všechny ostatní řádky

Viz také

Ukázka a rozdělení
Oddíl a ukázka
Seznam modulů a-Z