Transformace dat v návrháři služby Azure Machine Učení

V tomto článku se dozvíte, jak transformovat a ukládat datové sady v návrháři služby Azure Machine Učení, abyste připravili vlastní data pro strojové učení.

Ukázkovou datovou sadu pro sčítání lidu pro dospělé použijete k přípravě dvou datových sad: jedné datové sady, která obsahuje informace o sčítání dospělých pouze z USA, a další datovou sadu, která obsahuje informace o sčítání lidu od dospělých mimo USA.

V tomto článku se naučíte:

  1. Transformujte datovou sadu a připravte ji na trénování.
  2. Exportujte výsledné datové sady do úložiště dat.
  3. Zkontrolujte výsledky.

Tento postup je předpokladem pro přetrénování článku o modelech návrháře . V tomto článku se dozvíte, jak pomocí transformovaných datových sad trénovat více modelů s parametry kanálu.

Důležité

Pokud v tomto dokumentu nevidíte grafické prvky, jako jsou tlačítka v sadě nebo návrháři, pravděpodobně nemáte správnou úroveň oprávnění k pracovnímu prostoru. Obraťte se na správce předplatného Azure a ověřte, že máte udělenou správnou úroveň přístupu. Další informace najdete v tématu Správa uživatelů a rolí.

Transformace datové sady

V této části se dozvíte, jak importovat ukázkovou datovou sadu a rozdělit je do datových sad USA a jiných než USA. Další informace o importu vlastních dat do návrháře najdete v tématu importu dat .

Importovat data

K importu ukázkové datové sady použijte tento postup:

  1. Přihlaste se k studio Azure Machine Learning a vyberte pracovní prostor, který chcete použít.

  2. Přejděte do návrháře. Výběrem možnosti Vytvořit nový kanál pomocí klasických předem připravených komponent vytvořte nový kanál.

  3. Na levé straně plátna kanálu rozbalte na kartě Komponentauzel Ukázková data .

  4. Přetáhněte datovou sadu pro sčítání lidu pro dospělé na plátno.

  5. Pravým tlačítkem myši vyberte komponentu datové sady Pro dospělé ze sčítání lidu a vyberte Náhled dat.

  6. K prozkoumání datové sady použijte okno náhledu dat. Poznamenejte si hodnoty sloupců "native-country" (nativní země).

Rozdělení dat

V této části použijete komponentu Rozdělit data k identifikaci a rozdělení řádků, které ve sloupci "native-country" obsahují "Spojené státy".

  1. Na levé straně plátna na kartě komponent rozbalte část Transformace dat a najděte komponentu Rozdělit data .

  2. Přetáhněte komponentu Split Data na plátno a přetáhněte ji pod komponentu datové sady.

  3. Připojení komponentu datové sady do Rozdělení datové komponenty

  4. Výběrem komponenty Rozdělit data otevřete podokno Rozdělit data.

  5. Napravo od plátna v ikoně Parametry nastavte režim rozdělení na regulární výraz.

  6. Zadejte regulární výraz:\"native-country" United-States

    Režim regulárního výrazu testuje jeden sloupec pro hodnotu. Další informace o komponentě Split Data najdete na referenční stránce komponenty souvisejícího algoritmu.

Váš kanál by měl vypadat podobně jako tento snímek obrazovky:

Snímek obrazovky znázorňující, jak nakonfigurovat kanál a komponentu Rozdělit data

Uložení datových sad

Teď, když nastavíte kanál pro rozdělení dat, musíte určit, kam se mají datové sady zachovat. V tomto příkladu použijte komponentu Exportovat data k uložení datové sady do úložiště dat. Další informace o úložištích dat najdete v Připojení do služeb úložiště Azure.

  1. Nalevo od plátna na paletě komponent rozbalte část Vstup a výstup dat a najděte komponentu Exportovat data .

  2. Přetáhněte dvě součásti exportu dat pod komponentu Rozdělit data .

  3. Připojení každý výstupní port Rozdělení datové komponenty na jinou komponentu exportu dat

    Kanál by měl vypadat přibližně takto:

    Snímek obrazovky znázorňující, jak připojit komponenty exportu dat

  4. Výběrem komponenty Exportovat data připojenou k levému portu komponenty Rozdělit data otevřete podokno Konfigurace exportu dat.

    U komponenty Split Data je důležité pořadí výstupních portů. První výstupní port obsahuje řádky, ve kterých je regulární výraz pravdivý. V tomto případě první port obsahuje řádky pro příjem založený na USA a druhý port obsahuje řádky pro příjem, který není založený na USA.

  5. V podokně podrobností komponenty napravo od plátna nastavte následující možnosti:

    Typ úložiště dat: Azure Blob Storage

    Úložiště dat: Vyberte existující úložiště dat nebo vyberte Nový úložiště dat a vytvořte nový.

    Cesta: /data/us-income

    Formát souboru: csv

    Poznámka:

    Tento článek předpokládá, že máte přístup k úložišti dat zaregistrovaným v aktuálním pracovním prostoru azure machine Učení. Pokyny k nastavení úložiště dat najdete v Připojení do služeb úložiště Azure.

    Úložiště dat můžete vytvořit, pokud ho teď nemáte. Tento článek například ukládá datové sady do výchozího účtu úložiště objektů blob přidruženého k pracovnímu prostoru. Uloží datové sady do kontejneru azureml do nové složky s názvem data

  6. Výběrem komponenty Exportovat data připojenou k pravému portu součásti Rozdělit data otevřete podokno Konfigurace exportu dat.

  7. Napravo od plátna v podokně podrobností komponenty nastavte následující možnosti:

    Typ úložiště dat: Azure Blob Storage

    Úložiště dat: Vyberte dřívější úložiště dat.

    Cesta: /data/non-us-income

    Formát souboru: csv

  8. Ověřte, že komponenta Exportovat data připojená k levému portu rozdělení datcestu./data/us-income

  9. Ověřte, že komponenta Exportovat data připojená k pravému portu má cestu./data/non-us-income

    Kanál a nastavení by měly vypadat takto:

    Snímek obrazovky znázorňující konfiguraci komponent exportu dat

Odeslání úlohy

Teď, když nastavíte kanál pro rozdělení a export dat, odešlete úlohu kanálu.

  1. V horní části plátna vyberte Konfigurovat a odeslat .

  2. Vyberte možnost Vytvořit novou v podokně Základy úlohy Nastavit kanál a vytvořte experiment.

    Experimenty logicky seskupují související úlohy kanálu dohromady. Pokud tento kanál spustíte v budoucnu, měli byste použít stejný experiment pro účely protokolování a sledování.

  3. Zadejte popisný název experimentu , například split-census-data.

  4. Vyberte Zkontrolovat a odeslat a pak vyberte Odeslat.

Zobrazení výsledků

Po dokončení spuštění kanálu můžete přejít do úložiště objektů blob na webu Azure Portal a zobrazit výsledky. Můžete také zobrazit zprostředkující výsledky součásti Rozdělit data a ověřit, že se data správně rozdělí.

  1. Výběr komponenty Rozdělit data

  2. V podokně podrobností komponenty napravo od plátna vyberte kartu Výstupy a protokoly .

  3. Výběr rozevíracího seznamu Zobrazit výstupy dat

  4. Výběr ikony Ikona vizualizace vizualizovat vedle datové sady Výsledků1

  5. Ověřte, že sloupec "native-country" (nativní země) obsahuje pouze hodnotu "United-States" (Spojené státy).

  6. Vyberte ikonu Ikona vizualizace vizualizace vedle datové sady Výsledků2.

  7. Ověřte, že sloupec "native-country" neobsahuje hodnotu United-States.

Vyčištění prostředků

Pokud chcete pokračovat ve dvou částech tohoto modelu opětovného natrénování pomocí postupu návrháře Azure Machine Učení, přeskočte tuto část.

Důležité

Prostředky, které jste vytvořili, můžete použít jako předpoklady pro další kurzy a postupy pro azure machine Učení články.

Odstranit vše

Pokud nemáte v úmyslu používat nic, co jste vytvořili, odstraňte celou skupinu prostředků, takže vám nebudou účtovány žádné poplatky.

  1. Na webu Azure Portal vyberte skupiny prostředků na levé straně okna.

    Odstranění skupiny prostředků na webu Azure Portal

  2. V seznamu vyberte skupinu prostředků, kterou jste vytvořili.

  3. Vyberte Odstranit skupinu prostředků.

Odstraněním skupiny prostředků se odstraní také všechny prostředky, které jste vytvořili v návrháři.

Odstranění jednotlivých prostředků

V návrháři, ve kterém jste experiment vytvořili, odstraňte jednotlivé prostředky tak, že je vyberete a pak vyberete tlačítko Odstranit .

Cílový výpočetní objekt, který jste zde vytvořili, automaticky škáluje na nula uzlů, když se nepoužívá. Tato akce se provede, aby se minimalizovaly poplatky. Pokud chcete odstranit cílový výpočetní objekt, postupujte takto:

Odstranění prostředků

Datové sady z pracovního prostoru můžete zrušit tak, že vyberete každou datovou sadu a vyberete Zrušit registraci.

Zrušení registrace datové sady

Pokud chcete datovou sadu odstranit, přejděte na účet úložiště pomocí webu Azure Portal nebo Průzkumník služby Azure Storage a odstraňte tyto prostředky ručně.

Další kroky

V tomto článku jste zjistili, jak transformovat datovou sadu a uložit ji do registrovaného úložiště dat.

Pokračujte k další části této série postupů s využitím návrháře Azure Machine Učení Designeru pro přetrénování modelů, abyste k trénování modelů strojového učení použili transformované datové sady a parametry kanálu.