Packa upp komprimerade datauppsättningar

Packar upp datauppsättningar från ett ZIP-paket i användarlagring

Kategori: Indata och utdata

Anteckning

Gäller endast för: Machine Learning Studio (klassisk)

Liknande dra och släpp-moduler är tillgängliga i Azure Machine Learning designer.

Modulöversikt

Den här artikeln beskriver hur du använder modulen Packa upp komprimerade datauppsättningar i Machine Learning Studio (klassisk), för att ladda upp data och skriptfiler i komprimerat format och sedan packa upp dem för användning i ett experiment.

Syftet med den här modulen är att minska dataöverföringstiderna när du arbetar med mycket stora datamängder genom att spara och ladda upp dina datafiler i ett komprimerat format. I allmänhet är zippning av filer ett bra alternativ när datauppsättningen är så stor att du vill använda komprimering för uppladdningen, för att minimera uppladdningstiden och tillhörande kostnader.

Modulen tar en datauppsättning som indata på din arbetsyta. Datamängden måste ha laddats upp i ett komprimerat format. Modulen dekomprimerar sedan datauppsättningen och lägger till data på din arbetsyta.

Så här använder du Packa upp komprimerade datauppsättningar

I det här avsnittet beskrivs hur du förbereder dina data och sedan packar upp dem i Machine Learning Studio (klassisk).

Steg 1. Förbereda filer

Innan du laddar upp filen kontrollerar du att data i filen kan användas i Machine Learning:

  • Kontrollera att data i filen använder UTF-8-kodning.

    Om filen är tillräckligt liten kan du öppna den i Anteckningar och sedan spara filen i önskad kodning. Många andra textredigerare har liknande funktioner. För CSV-filer kan du använda Excel spara som eller exportera kommandon för att ange ett filformat och kodning.

  • Kontrollera att datafilerna använder ett format som stöds, till exempel CSV, TSV, ARFF eller SVMLight.

  • Komprimera data genom att lägga till datafilen i en .ZIP eller . GZ-formatarkivfil. Andra arkivtyper stöds inte.

  • Ta bort lösenordsskydd. Om någon av filerna eller den komprimerade mappen i sig har krypterats eller lösenordsskyddats måste du låsa upp eller dekryptera filen innan du laddar upp den. Modulen kan inte identifiera krypterade datatyper och stöder inte dialogrutor för lösenordsinmatning från godtyckliga klienter.

Steg 2. Upload datauppsättning till din arbetsyta

Ladda sedan upp den komprimerade datauppsättningen till experimentarbetsytan.

  1. Klicka på NY, välj DATAUPPSÄTTNING och välj FRÅN LOKAL FIL.

  2. Leta upp den komprimerade filen som ska laddas upp. När du väljer filen ska typen automatiskt anges till Zip-fil (.zip).

Steg 3. Lägga till komprimerad datauppsättning för experiment

När datauppsättningen har laddats upp helt lägger du till den i experimentet i zippat format.

  1. I det vänstra navigeringsfönstret i Machine Learning Studio (klassisk) väljer du Sparade datauppsättningar och expanderar sedan Mina datauppsättningar.

  2. Leta upp den komprimerade datauppsättningen som du precis laddade upp och dra den till arbetsytan för experimentet.

Steg 4. Packa upp datauppsättning

Det sista steget är att packa upp datauppsättningen.

  1. Anslut den komprimerade datauppsättningen till indata för modulen Packa upp komprimerade datamängder.

  2. I Datauppsättning att packa upp skriver du namnet på en enskild datauppsättning som ska packas upp.

    • Om du har sparat ett kalkylblad med namnet Sheet1 som en Excel CSV-fil med namnetTest.csvskulle namnet på datauppsättningen varaTest.csv, inte Sheet1.

    • Det namn som du skriver i textrutan Datauppsättning att packa upp måste vara exakt samma som namnet på den ursprungliga filen innan den komprimerades, inklusive filnamnstillägget. Om du till exempel vill packa upp en datauppsättning baserat på textfilen Users.txtskriver duUsers.txt, inte Användare.

    • Om du lägger flera filer i en komprimerad mapp måste du packa upp en datauppsättning i taget.

    Tips

    Om du lämnar egenskapen tom hämtar modulen filnamnet från den komprimerade filen, förutsatt att den komprimerade arkivfilen endast innehåller en källfil. Om det komprimerade arkivet innehåller flera filer utlöses ett körningsfel.

  3. För Filformat för datamängd anger du det ursprungliga formatet för datauppsättningen: det vill säga formatet innan det zippades.

    Du kan ladda upp och packa upp datauppsättningar som har skapats med något av följande format: CSV, ARFF, TSV, SvmLight.

    Om den här egenskapen lämnas tom identifierar modulen datauppsättningen med hjälp av källfilens namn.

  4. Välj alternativet File has header row (Fil har rubrikrad) om den ursprungliga datauppsättningen hade en rubrikrad. Annars används den första dataraden som rubrik. Om det inte är vad du vill lägga till en rubrik före indata.

    Det här alternativet gäller endast för .CSV och . TSV-filer.

    Anteckning

    Om du ändrar formatet för filen återställs det här alternativet.

  5. Om filen är komprimerad använder du alternativet Komprimeringsfilformat för att ange vilken algoritm som användes för att komprimera eller expandera filen.

    För närvarande .ZIP formaten GZ (eller Gzip).

  6. Kör experimentet.

Resultat

  • Kontrollera att data har importerats korrekt genom att högerklicka på modulen Uppackade zippade datauppsättningar och välja Visualisera .

  • Om du vill ändra namnet på datauppsättningen högerklickar du på modulen Packa upp komprimerade datauppsättningar och väljer Spara som datauppsättning. Nu kan du ange ett annat namn.

    Det här alternativet är praktiskt om du packar upp flera datauppsättningar från en enda ZIP-fil.

Exempel

För att demonstrera hur den här modulen fungerar har vi skapat en exempelfil .ZIP som innehåller fyra olika CSV-filer. Alla filer sparades från Excel.

Filnamn Description
names-uni.csv Unicode-fil med kolumnrubriker
names-utf.csv UTF-8-fil med kolumnrubriker
nonames-uni.csv Unicode-fil utan kolumnrubriker
nonames-utf8.csv UTF-8-fil utan kolumnrubriker

Hela den komprimerade filen laddades upp och sedan köras modulen Packa upp komprimerade datauppsättningar fyra gånger för att extrahera var och en av de fyra filerna med hjälp av följande inställningar:

  1. Datauppsättning att packa upp = names-uni.csv, Filen har rubrikrad = TRUE
  2. Datauppsättning att packa upp = names-utf8.csv, Filen har rubrikrad = TRUE
  3. Datauppsättning att packa upp = nonames-uni.csv, filen har rubrikrad = FALSE
  4. Datauppsättning att packa upp = nonames-utf8.csv, filen har rubrikrad = FALSE

Resultatet var som förväntat:

Filnamn Upload resultat
names-uni.csv Fel 0049: Fel vid parsning av filen. Filen är inte Unicode-kodad (UTF-8)
names-utf8.csv Åtgärden lyckades. Använder ursprungliga kolumnnamn från källfilen.
nonames-uni.csv Fel 0049: Fel vid parsning av filen. Filen är inte Unicode-kodad (UTF-8)
nonames-utf8.csv Åtgärden lyckades. Kolumnnamnen Col1, col2, ... coln läggs automatiskt till i datauppsättningen.

Anteckning

Om du använder alternativet Fil har rubrikrad = TRUE, och källfilen faktiskt inte har en kolumnrubrik, används den första raden med data som kolumnrubrik.

Teknisk information

Du kan inte använda den här modulen för att packa upp komprimerade R-paket till din arbetsyta. R-paket måste laddas upp och användas som komprimerade filer.

Mer information om hur du arbetar med komprimerade R-paket finns i Köra R-skript.

Anteckning

Är du osäker på skillnaden mellan UTF-8 och Unicode? Se den här Wikipedia-artikeln: Vad är UTF-8

Modulparametrar

Name Intervall Typ Standardvärde Description
Komprimeringsfilformat Zip

Gzip
komprimeringsregel Zip Komprimeringsalgoritm som används för att komprimera eller expandera filen.
Datauppsättning som ska packas upp Valfri Sträng inget Namnet på datauppsättningen som ska registreras med Azure ML Studio (klassisk). Om namnet på en datauppsättning inte anges hämtas namnet från filnamnet i den komprimerade filen.
Filformat för datamängd CSV

TSV

ARFF

SVMLIGHT
Filformat CSV Filformat för datauppsättningen i den komprimerade filen
Filen har rubrikrad TRUE/FALSE Boolesk Falskt Ange endast till Sant om CSV-/TSV-filen har en rubrikrad

Förväntade indata

Namn Typ Description
Datamängd Zip Zippad fil som innehåller datauppsättningar

Utdata

Namn Typ Description
Resultatdatauppsättning Datatabell Utdatauppsättning

Se även

Indata och utdata