Rozdělení dat

Článek
05/06/2019

Důležité

Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.

Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).

přečtěte si informace o přesunu projektů strojového učení z ML Studio (classic) do Azure Machine Learning.
přečtěte si další informace o Azure Machine Learning.

Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.

Rozdělí řádky datové sady do dvou různých sad.

Kategorie: transformace/ukázka a rozdělení dat

Poznámka

platí pro: jenom Machine Learning Studio (classic)

podobné moduly přetažení jsou k dispozici v návrháři Azure Machine Learning.

Přehled modulu

toto téma popisuje, jak použít modul rozdělit Data v aplikaci Machine Learning Studio (classic) k rozdělení datové sady do dvou různých sad.

Tento modul je zvláště užitečný v případě, že potřebujete oddělit data do sad pro školení a testování. Můžete přizpůsobit také způsob, jakým jsou data rozdělena. Některé možnosti podporují náhodnost dat; jiné jsou přizpůsobené pro určitý typ dat nebo model.

Jak nakonfigurovat rozdělená data

Tip

Než zvolíte režim rozdělování, přečtěte si všechny možnosti a určete typ rozdělení, který potřebujete. Pokud změníte rozdělovací režim, můžete obnovit všechny ostatní možnosti.

Přidejte modul rozdělit data do experimentu v studiu. Tento modul můžete najít v části transformace datv kategorii Ukázka a rozdělení .
Režim rozdělení: v závislosti na typu dat a způsobu, jakým je chcete rozdělit, vyberte jeden z následujících režimů. Každý režim rozdělování má různé možnosti. Podrobné pokyny a příklady získáte kliknutím na následující témata.
- Rozdělit řádky: tuto možnost použijte, pokud chcete pouze rozdělit data do dvou částí. Můžete určit procento dat, která mají být vložena do každého rozdělení, ale ve výchozím nastavení jsou data rozdělena 50-50.
  
  Můžete také náhodně vybrat řádky v každé skupině a použít vzorkování stratified. V stratified vzorkování musíte vybrat jeden sloupec dat, pro který chcete hodnoty rozdělit rovnoměrně mezi dvě datové sady výsledků.
- Rozdělení doporučení: vždy vyberte tuto možnost, pokud připravujete data pro použití v systému doporučování. Pomáhá rozdělit datové sady do skupin pro školení a testování a zároveň zajistit, aby byly důležité hodnoty, jako jsou páry a hodnocení uživatelských položek, rovnoměrně rozdělené mezi skupiny.
- Rozdělení regulárního výrazu: tuto možnost vyberte, pokud chcete datovou sadu rozdělit tak, že otestujete jeden sloupec s hodnotou.
  
  Pokud například analyzujete mínění, mohli byste vyhledat přítomnost konkrétního názvu produktu v textovém poli a potom datovou sadu rozdělit do řádků s cílovým názvem produktu a bez.
- Rozdělení relativního výrazu: tuto možnost použijte vždy, když chcete použít podmínku pro sloupec s čísly. Toto číslo může být pole Datum a čas, sloupec obsahující věkové nebo dolarové částky nebo dokonce i procento. Například můžete chtít rozdělit datovou sadu podle nákladů na položky, seskupit lidi podle věkových rozsahů nebo jednotlivé údaje podle kalendářního data.

Požadavky

Rozdělená data mohou vytvořit maximálně dvě sady datových sad najednou a tyto sady musí být exkluzivní.

Proto, pokud máte komplexní rozdělení s více podmínkami a výstupy, možná budete muset zřetězit dohromady více modulů rozdělených dat .

alternativně můžete použít příkaz CASE a modul použití SQL transformace .
Tento modul neodstraní data nebo je z datové sady neodstraní. pouze rozdělí data, jak je uvedeno mezi prvním a druhým výstupem modulu.
Rozdělení dat pro doporučující systém zahrnuje některé další požadavky. Obecně platí, že datová sada může obsahovat pouze dvojice uživatel-položka nebo troje hodnocení uživatelem. Proto modul Split data nemůže pracovat u datových sad, které mají více než tři sloupce, aby nedocházelo k záměně s daty typu funkce. Pokud vaše datová sada obsahuje příliš mnoho sloupců, může se zobrazit tato chyba:

Chyba 0022: počet vybraných sloupců ve vstupní datové sadě se nerovná x

Jako alternativní řešení můžete použít možnost vybrat sloupce v datové sadě k odebrání některých sloupců a pak později přidat sloupce pomocí Přidat sloupce. Případně, pokud vaše datová sada obsahuje mnoho funkcí, které chcete použít v modelu, rozdělte datovou sadu pomocí jiné možnosti a pomocí modelu výuky použijte model vlaků místo doporučení Matchbox.

Příklady

Příklady, jak se používá modul dělení dat , naleznete v Azure AI Gallery:

Vzájemné ověřování pro binární klasifikaci: datová sada pro dospělé: pro vytvoření menší náhodně navzorkovaných datové sady se použije sazba vzorkování s 20%. (Původní objektovou datovou sadu obsahovalo více než 30 000 řádků; datová sada školení má přibližně 6500). Tato datová sada se vyčistí pro chybějící hodnoty a potom se předává do pěti různých modelů pro školení a křížové ověření.

Technické poznámky

Následující požadavky platí pro všechna použití rozdělených dat:

Vstupní datová sada musí obsahovat alespoň dva řádky, nebo je vyvolána chyba.
Pokud použijete možnost pro zadání požadovaného počtu řádků, musí být zadané číslo kladné celé číslo a číslo musí být menší než celkový počet řádků v datové sadě.
Pokud zadáte číslo jako procento nebo pokud použijete řetězec, který obsahuje znak "%", hodnota je interpretována jako procento. Všechny procentuální hodnoty musí být v rozsahu (0, 100), včetně hodnot 0 a 100.
Pokud zadáte číslo nebo procento, které je číslo s plovoucí desetinnou čárkou menší než 1, a nepoužijete symbol procenta (%), číslo je interpretováno jako proporcionální hodnota.
Pokud použijete možnost pro rozdělení stratified, můžete výstupní datové sady dále dělit podskupinami, a to tak, že vyberete sloupec vrstev.

Očekávané vstupy

Název	Typ	Description
Datová sada	Tabulka dat	Datová sada k rozdělení

Parametry modulu

Název	Typ	Rozsah	Volitelné	Description	Výchozí
Režim rozdělení	Režim rozdělení	Rozdělené řádky, rozdělovat doporučení, regulární výraz nebo relativní výraz	Vyžadováno	Rozdělit řádky	Zvolit metodu rozdělení datové sady

Výstupy

Název	Typ	Description
DataSet1. výsledků	Tabulka dat	Datová sada obsahující vybrané řádky
Dataset2 výsledků	Tabulka dat	Datová sada, která obsahuje všechny ostatní řádky

Viz také

Ukázka a rozdělení
Rozdělení a ukázky
Seznam modulů a-Z