Rozdělení dat pomocí rozdělených řádků

Článek
03/05/2020

Důležité

Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.

Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).

přečtěte si informace o přesunu projektů strojového učení z ML Studio (classic) do Azure Machine Learning.
přečtěte si další informace o Azure Machine Learning.

Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.

tento článek popisuje, jak používat možnost rozdělit řádky v modulu rozdělení dat Machine Learning studia (classic). Tato možnost je užitečná hlavně v případě, že potřebujete rozdělit datové sady používané pro účely školení a testování, a to buď náhodně nebo pomocí některých kritérií.

Poznámka

platí pro: jenom Machine Learning Studio (classic)

podobné moduly přetažení jsou k dispozici v návrháři Azure Machine Learning.

Možnost rozdělit řádky podporuje náhodné i stratified rozdělení. Například můžete zadat rozdělení 70-30 nebo 10-90 rozdělení s cílovou proměnnou rovnoměrně reprezentovanou v obou datových sadách.

Obecné informace o vytváření oddílů dat pro experimenty strojového učení najdete v tématu rozdělení dat a rozdělení a rozdělení.

Další možnosti v modulu rozdělit data podporují různé způsoby rozdělení dat:

Rozdělení dat pomocí regulárních výrazů: použijte regulární výraz na jeden textový sloupec a vydělte datovou sadu na základě výsledků.
Rozdělit data pomocí relativních výrazů: použít výraz na číselný sloupec a rozdělit datovou sadu na základě výsledků
Oddělit Doporučené datové sady: rozdělit datové sady, které se používají v modelech doporučení. Datová sada musí mít tři sloupce: položky, uživatele a hodnocení.

Rozdělit datovou sadu do dvou skupin

Přidejte modul rozdělit data do experimentu v nástroji Studio (Classic) a připojte datovou sadu, kterou chcete rozdělit.
V režimu rozdělenívyberte rozdělit řádky.
Zlomek řádků v první výstupní datové sadě. Tuto možnost použijte k určení, kolik řádků přejde do prvního (levého) výstupu. Všechny ostatní řádky budou přejít na druhý (pravá ruka) výstup.

Poměr představuje procento řádků odeslaných na první výstupní datovou sadu, takže je nutné zadat desetinné číslo od 0 do 1.

Pokud například zadáte 0,75 jako hodnotu, datová sada bude rozdělena pomocí poměru 75:25 a 75% řádků odeslaných do první výstupní datové sady a 25% odesláno druhé výstupní datové sadě.
Vyberte možnost náhodného rozdělení , pokud chcete náhodně vybrat data do dvou skupin. Toto je upřednostňovaná možnost při vytváření školicích a testovacích datových sad.
Random seed: zadejte nezápornou celočíselnou hodnotu pro inicializaci pseudonáhodných sekvence instancí, které mají být použity. Toto výchozí osivo se používá ve všech modulech, které generují náhodná čísla.

Určením počáteční hodnoty se výsledky obvykle rereprodukovatelní. Pokud potřebujete výsledky operace rozdělení zopakovat, měli byste pro generátor náhodných čísel zadat počáteční hodnotu. V opačném případě je náhodné osazení nastaveno na hodnotu 0, což znamená, že počáteční počáteční hodnota se získá ze systémových hodin. V důsledku toho může být distribuce dat mírně odlišná pokaždé, když provedete rozdělení.
Stratified Split: tuto možnost nastavte na hodnotu true , chcete-li zajistit, aby dvě výstupní datové sady obsahovaly reprezentativní vzorek hodnot ve sloupci vrstvy nebo ve sloupci klíč rozdělenína více úrovní.

V případě vzorkování stratified jsou data rozdělena tak, že každá výstupní datová sada získá zhruba stejné procento každé cílové hodnoty. Například můžete chtít zajistit, aby vaše školicí a testovací sady byly zhruba vyvážené s ohledem na výsledek nebo s ohledem na jiný sloupec, například pohlaví.
Spusťte experiment nebo klikněte pravým tlačítkem na modul a vyberte Spustit vybrané.

Příklady

Následující příklady ukazují, jak provádět jednoduché rozdělení pomocí režimu rozdělení řádků .

Rozdělit na dvě stejné části

Přidejte modul rozdělení dat za datovou sadu bez dalších změn. Ve výchozím nastavení modul rozdělí datovou sadu ve dvou stejných částech. Pro data s lichým počtem řádků druhý výstup získá zbytek.

Rozdělit na třetiny

Předpokládejme, že chcete rozdělit datovou sadu do dvou částí s třetinou dat používaných pro školení a zbytek pro testování nebo další rozdělení.

Provedete to tak, že přidáte modul rozdělení dat a nastavíte zlomky řádků v prvním výstupu na 0,33. Druhý výstup obsahuje zbylé dvě třetiny.

Chcete-li rozdělit druhý výstup na stejné části, přidejte další instanci modulu Split data a tentokrát použijte výchozí hodnotu pro rozdělení 50-50.

Technické poznámky

Tato část obsahuje podrobné informace o implementaci, tipy a odpovědi na nejčastější dotazy.

Podrobnosti o implementaci

Tento modul vyžaduje, aby datová sada obsahovala alespoň dva řádky. v opačném případě je vyvolána chyba.
Pokud použijete možnost pro zadání požadovaného počtu řádků, musí být zadané číslo kladné celé číslo a číslo musí být menší než celkový počet řádků v datové sadě.
Všechny procentuální hodnoty musí být v rozsahu 0 až 1.
Pokud zadáte číslo nebo procento jako číslo s plovoucí desetinnou čárkou, které je menší než jedna, a nepoužijete symbol procenta (%), číslo je interpretováno jako proporcionální hodnota.

Další požadavky na vzorkování stratified

Sloupec vrstev může obsahovat pouze nominální nebo kategorií data. Pokud sloupec obsahuje kontinuální číselná data, je vyvolána chybová zpráva.
Sloupec s příliš velkým počtem jedinečných hodnot není dobrým kandidátem na rozvrstvení. Můžete zkusit sbalit některé kategorie nebo hodnoty seskupení předem.

Viz také

Ukázka a rozdělení oddílu a vzorku