Rozbalit sady pro obnovení

Rozbalí datové sady z balíčku zip v úložišti uživatele.

Kategorie: vstup a výstup dat

Poznámka

platí pro: jenom Machine Learning Studio (classic)

podobné moduly přetažení jsou k dispozici v návrháři Azure Machine Learning.

Přehled modulu

tento článek popisuje, jak použít modul unpack getdatasets v sadě Machine Learning Studio (classic) k nahrávání dat a souborů skriptů v komprimovaném formátu a jejich extrahování pro použití v experimentu.

Účelem tohoto modulu je snížit dobu přenosu dat při práci s velmi velkými datovými sadami uložením a nahráním datových souborů v komprimovaném formátu. Obecně platí, že zipování soubory jsou vhodné, pokud je vaše datová sada tak velká, takže chcete pro nahrávání použít kompresi, aby se minimalizoval čas nahrávání a přidružené náklady.

Modul přijímá jako vstup datovou sadu v pracovním prostoru. Datová sada musí být nahraná v komprimovaném formátu. Modul pak dekomprimuje datovou sadu a přidá data do vašeho pracovního prostoru.

Jak používat UNPACK zip – datové sady

v této části se dozvíte, jak připravit data a pak je rozbalit v Machine Learning studiu (classic).

Krok 1. Příprava souborů

Před nahráním souboru se ujistěte, že se data v souboru dají použít v Machine Learning:

  • Zajistěte, aby data v souboru používala kódování UTF-8.

    pokud je soubor dostatečně malý, můžete jej otevřít v Poznámkový blok a pak soubor uložit v požadovaném kódování. Mnoho dalších textových editorů nabízí podobné funkce. pro soubory CSV můžete použít příkazy uložit jako nebo exportovat Excel k určení formátu a kódování souborů.

  • Ověřte, že datové soubory používají podporovaný Formát, jako je CSV, TSV, arff nebo SVMLight.

  • Zkomprimujte data přidáním datového souboru do .ZIP nebo. Archivní soubor formátu GZ Jiné typy archivů nejsou podporovány.

  • Odeberte ochranu heslem. Pokud je některý ze souborů nebo Komprimovaná složka zašifrovaná nebo chráněná heslem, musíte soubor před odesláním odemknout nebo dešifrovat. Modul nemůže detekovat šifrované datové typy a nepodporuje dialogová okna pro zadávání hesla z libovolného klienta.

Krok 2. Upload datovou sadu do vašeho pracovního prostoru

V dalším kroku nahrajte do svého pracovního prostoru experimenty sadu zip.

  1. Klikněte na Nový, vyberte datová sadaa vyberte z místního souboru.

  2. Vyhledejte soubor zip, který chcete nahrát. Když vyberete soubor, typ by měl být automaticky nastaven na soubor zip (.zip).

Krok 3. Přidat k experimentování datovou sadu zip

Po úplném nahrání datové sady ji přidejte do experimentu ve formátu ZIP.

  1. v levém navigačním podokně Machine Learning studia (classic) vyberte uložené datové sadya potom rozbalte moje datové sady.

  2. Vyhledejte datovou sadu zip, kterou jste právě Nahráli, a přetáhněte ji na plátno experimentu.

Krok 4: Rozbalit datovou sadu

Posledním krokem je rozbalit datovou sadu.

  1. do vstupu v modulu unpack datasets Připojení zip dataset.

  2. V části datová sada k dekomprimacizadejte název jedné sady dat k rozbalení.

    • pokud jste uložili list s názvem list1 jako soubor Excel CSV s názvem Test.csv, název datové sady by byl Test.csv, nikoli list1.

    • Název, který zadáte do textového pole datová sada k dekomprimaci , musí být přesně stejný jako název původního souboru před jeho komprimací, včetně přípony názvu souboru. Například pokud chcete rozbalit datovou sadu na základě textového souboru Users.txt, zadejte Users.txt, ne Uživatelé.

    • Pokud vložíte více souborů do jedné zkomprimované složky, je nutné v jednom okamžiku rozbalit jednu datovou sadu.

    Tip

    Pokud ponecháte vlastnost prázdnou, modul Získá název souboru ze souboru ZIP za předpokladu, že komprimovaný archivní soubor obsahuje jenom jeden zdrojový soubor. Pokud komprimovaný archiv obsahuje více souborů, je vyvolána chyba za běhu.

  3. V poli Formát souboru DataSetzadejte původní formát datové sady: to znamená, že formát předtím, než byl zip.

    Můžete nahrát a rozbalit datové sady, které byly vytvořeny pomocí některého z těchto formátů: CSV, ARFF, TSV, SvmLight.

    Pokud je tato vlastnost ponechána prázdná, modul identifikuje datovou sadu pomocí názvu zdrojového souboru.

  4. Pokud má původní datová sada řádek záhlaví, vyberte možnost soubor má řádek záhlaví. V opačném případě se jako záhlaví použije první řádek dat. Pokud to nechcete, přidejte před vstupem hlavičku.

    Tato možnost se vztahuje pouze na .CSV a. Soubory TSV.

    Poznámka

    Pokud změníte formát souboru, tato možnost je resetována.

  5. Pokud je soubor komprimovaný, použijte možnost Formát kompresního souboru a zadejte algoritmus, který se použil ke komprimaci nebo rozbalení souboru.

    V současné době jsou podporovány formáty .ZIP a GZ (nebo gzip).

  6. Spusťte experiment.

Výsledky

  • Chcete-li ověřit, zda byla data správně naimportována, klikněte pravým tlačítkem myši na rozbalený modul zip DataSets a vyberte vizualizovat .

  • Chcete-li změnit název datové sady, klikněte pravým tlačítkem na nerozbalený modul zip DataSets a vyberte Uložit jako datovou sadu. V tomto okamžiku můžete zadat jiný název.

    Tato možnost je užitečná v případě, že rozbalíte více datových sad z jednoho souboru ZIP.

Příklady

Abychom ukázali, jak tento modul funguje, vytvořili jsme vzorový .ZIP soubor, který obsahuje čtyři různé soubory CSV. Všechny soubory byly uloženy z Excel.

Název souboru Description
names-uni.csv Soubor Unicode se záhlavími sloupců
names-utf.csv Soubor UTF-8 se záhlavími sloupců
nonames-uni.csv Soubor Unicode bez záhlaví sloupců
nonames-utf8.csv Soubor UTF-8 bez záhlaví sloupců

Nahrál se celý soubor s příponou ZIP a potom se dvakrát spustil modul UNPACK DataSets pro extrakci každého ze čtyř souborů pomocí těchto nastavení:

  1. Sada dat pro rozbalení = names-uni.csv, soubor má řádek záhlaví = true
  2. Sada dat pro rozbalení = names-utf8.csv, soubor má řádek záhlaví = true
  3. Sada dat pro rozbalení = nonames-uni.csv, soubor má řádek záhlaví = false
  4. Sada dat pro rozbalení = nonames-utf8.csv, soubor má řádek záhlaví = false

Výsledky byly podle očekávání:

Název souboru výsledek Upload
names-uni.csv Chyba 0049: při analýze souboru došlo k chybě. Soubor není kódovaný v kódování Unicode (UTF-8).
names-utf8.csv Úspěch. Použije původní názvy sloupců ze zdrojového souboru.
nonames-uni.csv Chyba 0049: při analýze souboru došlo k chybě. Soubor není kódovaný v kódování Unicode (UTF-8).
nonames-utf8.csv Úspěch. Názvy sloupců: Sloupec1, col2,... sloupecn se automaticky přidá do datové sady.

Poznámka

Použijete-li možnost, soubor má řádek záhlaví = true a zdrojový soubor ve skutečnosti nemá záhlaví sloupce, jako záhlaví sloupce se použije první řádek dat.

Technické poznámky

Tento modul nemůžete použít k rozbalení balíčků zip R do svého pracovního prostoru. Balíčky R musí být nahrány a spotřebovány jako soubory zip.

Další informace o tom, jak pracovat s balíčky s příponou ZIP, najdete v tématu spuštění skriptu jazyka r.

Poznámka

Nepleťte si rozdíl mezi UTF-8 a Unicode? Viz tento článek Wikipedii: co je UTF-8

Parametry modulu

Name Rozsah Typ Výchozí Description
Formát kompresního souboru ZIP

GZIP
kompresní pravidlo ZIP Kompresní algoritmus, který se používá ke komprimaci nebo rozbalení souboru.
Sada dat k rozbalení Všechny Řetězec žádné název datové sady, která se má zaregistrovat v Azure ML Studio (classic) Pokud název datové sady není zadán, název se získá z názvu souboru v souboru ZIP.
Formát souboru DataSet CSV

TSV

ARFF

SVMLIGHT
Formát souboru CSV Formát souboru datové sady v souboru ZIP
Soubor má řádek záhlaví TRUE NEBO FALSE Logická hodnota Ne Nastavte na true jenom v případě, že soubor CSV/TSV obsahuje řádek záhlaví.

Očekávané vstupy

Název Typ Description
Datová sada ZIP Soubor ZIP obsahující datové sady

Výstup

Název Typ Description
Datová sada výsledků Tabulka dat Výstupní datová sada

Viz také

Vstup a výstup dat