Packa upp zippade data uppsättningar

Packar upp data uppsättningar från ett zip-paket i användar lagring

Kategori: indata och utdata

Anteckning

Gäller för: Machine Learning Studio (klassisk)

Det här innehållet gäller endast Studio (klassisk). Liknande dra-och släpp moduler har lagts till i Azure Machine Learning designer. Mer information i den här artikeln är att jämföra de två versionerna.

Översikt över modul

Den här artikeln beskriver hur du använder modulen packa upp data uppsättningar i Azure Machine Learning Studio (klassisk) för att ladda upp data och skriptfiler i komprimerat format och sedan zippa upp dem för användning i ett experiment.

Syftet med den här modulen är att minska data överförings tiderna när du arbetar med mycket stora data uppsättningar genom att spara och ladda upp dina datafiler i ett komprimerat format. Generellt är att komprimera filer är ett bra alternativ när din data uppsättning är så stor att du vill använda komprimering för uppladdningen för att minimera överförings tiden och tillhör ande kostnader.

Modulen tar sig in i en data uppsättning i din arbets yta. Data uppsättningen måste ha överförts i ett komprimerat format. Modulen expanderar sedan data uppsättningen och lägger till data i din arbets yta.

Använda packa zippade data uppsättningar

I det här avsnittet beskrivs hur du förbereder dina data och sedan packar upp dem i Azure Machine Learning Studio (klassisk).

Steg 1. Förbered filer

Innan du laddar upp filen måste du kontrol lera att data i filen kan användas i Azure Machine Learning:

  • Se till att data i filen använder UTF-8-kodning.

    Om filen är tillräckligt liten kan du öppna den i anteckningar och sedan spara filen i önskad kodning. Många andra text redigerare erbjuder liknande funktioner. För CSV-filer kan du använda Excel-kommandona Spara som eller Exportera för att ange ett fil format och en kodning.

  • Kontrol lera att datafilerna använder ett format som stöds, till exempel CSV, TSV, arff eller SVMLight.

  • Komprimera data genom att lägga till data filen i en. ZIP eller. GZ format Arkiv fil. Andra typer av Arkiv stöds inte.

  • Ta bort lösen ords skydd. Om någon av filerna eller den komprimerade mappen är krypterad eller lösenordsskyddad måste du låsa upp eller dekryptera filen innan du laddar upp den. Modulen kan inte identifiera krypterade data typer och har inte stöd för dialog rutor för lösen ords inmatning från valfria klienter.

Steg 2. Ladda upp data uppsättning till din arbets yta

Sedan laddar du upp den zippade data uppsättningen till experiment arbets ytan.

  1. Klicka på ny, Välj data uppsättning och välj från lokal fil.

  2. Leta upp den zippade filen som ska laddas upp. När du väljer filen ska typen automatiskt anges till zip-filen (. zip).

Steg 3. Lägg till zippad data uppsättning i experimentet

När data uppsättningen har laddats upp helt lägger du till den i ditt experiment i zippat format.

  1. I det vänstra navigerings fönstret i Azure Machine Learning Studio (klassisk) väljer du sparade data uppsättningar och expanderar mina data uppsättningar.

  2. Leta upp den zippade data uppsättningen som du just har laddat upp och dra den till experimentets arbets yta.

Steg 4. Packa upp data uppsättning

Det sista steget är att packa upp data uppsättningen.

  1. Anslut den zippade data uppsättningen till indata för modulen UNPACK-zippade data uppsättningar .

  2. I data uppsättning att packa upp skriver du namnet på en enskild data uppsättning att packa upp.

    • Om du sparade ett kalkyl blad med namnet Blad1 som en Excel CSV-fil med namnet Test.csv, blir namnet på data uppsättningen Test.csv, inte Blad1.

    • Det namn som du anger i text rutan data uppsättning att packa upp måste vara exakt samma som namnet på den ursprungliga filen innan den komprimerades, inklusive fil namns tillägget. Om du till exempel vill packa upp en data uppsättning baserat på text filen Users.txt skriver du Users.txt, inte användare.

    • Om du infogar flera filer i en komprimerad mapp måste du packa upp en data uppsättning i taget.

    Tips

    Om du lämnar egenskapen tom hämtar modulen fil namnet från den zippade filen, förutsatt att den komprimerade Arkiv filen bara innehåller en källfil. Om det komprimerade arkivet innehåller flera filer uppstår ett körnings fel.

  3. För data uppsättnings fil format anger du ursprungligt format för data uppsättningen: det vill säga formatet innan det komprimerades.

    Du kan ladda upp och zippa upp data uppsättningar som har skapats med något av följande format: CSV, ARFF, TSV, SvmLight.

    Om den här egenskapen lämnas tom, identifierar modulen data uppsättningen med käll filens namn.

  4. Välj alternativet, filen har rubrik rad, om den ursprungliga data uppsättningen hade en rubrik rad. Annars används den första raden med data som rubrik. Om det inte är det du vill ha lägger du till ett sidhuvud före indatamängden.

    Det här alternativet gäller endast för. CSV och. TSV-filer.

    Anteckning

    Om du ändrar fil formatet återställs det här alternativet.

  5. Om filen komprimeras använder du alternativet komprimerings fil format för att ange algoritmen som användes för att komprimera eller expandera filen.

    För närvarande. ZIP-och GZ-format (eller gzip) stöds.

  6. Kör experimentet.

Resultat

  • Verifiera att data har importer ATS korrekt genom att högerklicka på den uppackade zippade data uppsättnings modulen och välja visualisera .

  • Om du vill ändra namnet på data uppsättningen högerklickar du på modulen uppackade zippade data uppsättningar och väljer Spara som data uppsättning. Nu kan du ange ett annat namn.

    Det här alternativet är användbart om du packar upp flera data uppsättningar från en enda ZIP-fil.

Exempel

Vi har skapat ett exempel för att demonstrera hur den här modulen fungerar. ZIP-filen innehåller fyra olika CSV-filer. Alla filer har sparats från Excel.

Filnamn Beskrivning
names-uni.csv Unicode-fil med kolumn rubriker
names-utf.csv UTF-8-fil med kolumn rubriker
nonames-uni.csv Unicode-fil utan kolumn rubriker
nonames-utf8.csv UTF-8-fil utan kolumn rubriker

Hela den zippade filen laddades upp och sedan kördes uppackade data uppsättnings moduler fyra gånger för att extrahera var och en av de fyra filerna med följande inställningar:

  1. Data uppsättning att packa upp = names-uni.csv, filen har rubriken rad = True
  2. Data uppsättning att packa upp = names-utf8.csv, filen har rubriken rad = True
  3. Data uppsättning att packa upp = nonames-uni.csv, filen har rubriken rad = falskt
  4. Data uppsättning att packa upp = nonames-utf8.csv, filen har rubriken rad = falskt

Resultaten var förväntade:

Filnamn Uppladdnings resultat
names-uni.csv Fel 0049: fel vid parsning av filen. Filen är inte krypterad Unicode (UTF-8)
names-utf8.csv Åtgärden lyckades. Använder ursprungliga kolumn namn från käll filen.
nonames-uni.csv Fel 0049: fel vid parsning av filen. Filen är inte krypterad Unicode (UTF-8)
nonames-utf8.csv Åtgärden lyckades. Kolumn namn Col1, col2,... kolumn n läggs automatiskt till i data uppsättningen.

Anteckning

Om du använder alternativet har filen rubrik rad = True och käll filen faktiskt saknar kolumn rubrik används den första raden med data som kolumn rubrik.

Tekniska anteckningar

Du kan inte använda den här modulen för att packa upp zippade R-paket i din arbets yta. R-paket måste överföras och konsumeras som zippade filer.

Mer information om hur du arbetar med zippade R-paket finns i köra R-skript.

Anteckning

Är du osäker på skillnaden mellan UTF-8 och Unicode? Se denna Wikipedia-artikel: Vad är UTF-8

Parametrar för modul

Name Intervall Typ Standardvärde Beskrivning
Komprimerings fil format Zip

Gzip
komprimerings regel Zip Komprimerings algoritm som används för att komprimera eller expandera filen.
Data uppsättning att packa upp Valfri Sträng inget Namnet på data mängden som ska registreras med Azure ML Studio (klassisk). Om namnet på en data uppsättning inte anges hämtas namnet från fil namnet i den zippade filen.
Data uppsättnings fil format CSV

TSV

ARFF

SVMLIGHT
Filformat CSV Fil formatet för data uppsättningen i den zippade filen
Filen har rubrik rad TRUE/FALSE Boolesk Falskt Ange som Sant endast om CSV/TSV-filen har en rubrik rad

Förväntade indata

Namn Typ Beskrivning
Datamängd Zip Zippad fil som innehåller data uppsättningar

Utdata

Namn Typ Beskrivning
Resultat data uppsättning Data tabell Data uppsättning för utdata

Se även

Data indata och utdata