Gezipte gegevens sets uitpakken

Gegevens sets uit een zip-pakket in gebruikers opslag uitpakken

Categorie: gegevens invoer en uitvoer

Notitie

Van toepassing op : machine learning Studio (klassiek)

Deze inhoud is alleen van toepassing op Studio (klassiek). Er zijn Vergelijk bare modules voor slepen en neerzetten toegevoegd aan Azure Machine Learning Designer. In dit artikel vindt u meer informatie over de twee versies.

Module overzicht

In dit artikel wordt beschreven hoe u de module gezipte gegevens sets uitpakken in azure machine learning Studio (klassiek) kunt gebruiken om gegevens en script bestanden in gecomprimeerde indeling te uploaden en ze vervolgens uit te pakken voor gebruik in een experiment.

Het doel van deze module is om gegevens overdrachten te beperken bij het werken met zeer grote gegevens sets door uw gegevens bestanden op te slaan en te uploaden in een gecomprimeerde indeling. Over het algemeen is inpakken-bestanden een goede optie wanneer uw gegevensset zo groot is dat u compressie voor de upload wilt gebruiken om de upload tijd en de bijbehorende kosten te minimaliseren.

De module maakt als invoer een gegevensset in uw werk ruimte. De gegevensset moet zijn geüpload in een gecomprimeerde indeling. De module decomprimeert vervolgens de gegevensset en voegt de gegevens toe aan uw werk ruimte.

Het gebruik van gezipte gegevens sets oppakken

In deze sectie wordt beschreven hoe u uw gegevens voorbereidt en vervolgens uitpakt in Azure Machine Learning Studio (klassiek).

Stap 1. Bestanden voorbereiden

Voordat u het bestand uploadt, moet u ervoor zorgen dat de gegevens in het bestand kunnen worden gebruikt in Azure Machine Learning:

  • Zorg ervoor dat de gegevens in het bestand UTF-8-code ring gebruiken.

    Als het bestand klein genoeg is, kunt u het openen in Klad blok en het bestand vervolgens opslaan in de gewenste code ring. Veel andere tekst editors bieden vergelijk bare functionaliteit. Voor CSV-bestanden kunt u de opdrachten Opslaan als of exporteren van Excel gebruiken om een bestands indeling en code ring op te geven.

  • Controleer of de gegevens bestanden gebruikmaken van een ondersteunde indeling, zoals CSV, tsv, ARFF of SVMLight.

  • Comprimeer de gegevens door het gegevens bestand toe te voegen aan een. ZIP of. GZ-indelings archief bestand. Andere archief typen worden niet ondersteund.

  • Wachtwoord beveiliging verwijderen. Als een of meer bestanden of gecomprimeerde mappen zelf zijn versleuteld of met een wacht woord zijn beveiligd, moet u het bestand ontgrendelen of ontsleutelen voordat u het uploadt. De module kan geen versleutelde gegevens typen detecteren en ondersteunt geen dialoog vensters voor wachtwoord invoer van wille keurige clients.

Stap 2. Gegevensset uploaden naar uw werk ruimte

Upload vervolgens de gezipte gegevensset naar uw experiment-werk ruimte.

  1. Klik op Nieuw, selecteer gegevensseten selecteer uit lokaal bestand.

  2. Zoek het gezipte bestand dat u wilt uploaden. Wanneer u het bestand selecteert, moet het type automatisch worden ingesteld op zip-bestand (. zip).

Stap 3. Gezipte gegevensset toevoegen om te experimenteren

Nadat de gegevensset volledig is geüpload, voegt u deze toe aan uw experiment in gecomprimeerde vorm.

  1. Selecteer opgeslagen gegevens setsin het navigatie deel venster aan de linkerkant van Azure machine learning Studio (klassiek) en vouw vervolgens mijn gegevens setsuit.

  2. Zoek de gezipte gegevensset die u zojuist hebt geüpload en sleep deze naar het canvas op het experiment.

Stap 4. Gegevensset uitpakken

De laatste stap bestaat uit het uitpakken van de gegevensset.

  1. Verbind de gezipte gegevensset met de invoer van de module gezipte gegevens sets uitpakken .

  2. Typ in gegevensset voor het uitpakkenvan het pakket de naam van een enkele gegevensset die u wilt uitpakken.

    • Als u een werk blad met de naam Blad1 hebt opgeslagen als een Excel CSV-bestand met de naam Test.csv, wordt de naam van de gegevensset Test.csv, niet Sheet1.

    • De naam die u in het tekstvak van de gegevensset voor het uitpakken van tekst typt, moet exact hetzelfde zijn als de naam van het oorspronkelijke bestand voordat het is gecomprimeerd, inclusief de bestandsnaam extensie. Als u bijvoorbeeld een gegevensset wilt uitpakken op basis van het tekst bestand Users.txt, typt u Users.txt, niet gebruikers.

    • Als u meerdere bestanden in één gecomprimeerde map plaatst, moet u één gegevensset per keer uitpakken.

    Tip

    Als u de eigenschap leeg laat, haalt de module de bestands naam op uit het gezipte bestand, ervan uitgaande dat het gecomprimeerde archief bestand slechts één bron bestand bevat. Als het gecomprimeerde archief meerdere bestanden bevat, wordt er een runtime fout gegenereerd.

  3. Geef voor de indeling van de gegevenssetde oorspronkelijke indeling van de gegevensset op: dat wil zeggen de notatie voordat deze was ingepakt.

    U kunt gegevens sets die zijn gemaakt met een van de volgende indelingen uploaden en uitpakken: CSV, ARFF, TSV, SvmLight.

    Als deze eigenschap leeg blijft, identificeert de module de gegevensset met behulp van de naam van het bron bestand.

  4. Selecteer de optie, het bestand bevat een koprijals de oorspronkelijke gegevensset een veldnamenrij bevat. Anders wordt de eerste rij met gegevens gebruikt als koptekst. Als dat niet het geval is, voegt u voorafgaand aan de invoer een header toe.

    Deze optie is alleen van toepassing op. CSV en. TSV-bestanden.

    Notitie

    Als u de indeling van het bestand wijzigt, wordt deze optie opnieuw ingesteld.

  5. Als het bestand is gecomprimeerd, gebruikt u de optie compressie bestands indeling om het algoritme op te geven dat is gebruikt om het bestand te comprimeren of uit te breiden.

    Momenteel de. ZIP-en GZ-indelingen (of gzip) worden ondersteund.

  6. Voer het experiment uit.

Resultaten

  • Als u wilt controleren of de gegevens correct zijn geïmporteerd, klikt u met de rechter muisknop op de module uitgepakte gezipte gegevens sets en selecteert u visualiseren .

  • Als u de naam van de gegevensset wilt wijzigen, klikt u met de rechter muisknop op de uitgepakte gezipte gegevens sets module en selecteert u Opslaan als gegevensset. Op dit moment kunt u een andere naam typen.

    Deze optie is handig als u meerdere gegevens sets uit één ZIP-bestand wilt uitpakken.

Voorbeelden

We hebben een voor beeld gemaakt om te laten zien hoe deze module werkt. ZIP-bestand met vier verschillende CSV-bestanden. Alle bestanden zijn vanuit Excel opgeslagen.

Bestandsnaam Beschrijving
names-uni.csv Unicode-bestand met kolom koppen
names-utf.csv UTF-8-bestand met kolom koppen
nonames-uni.csv Unicode-bestand zonder kolom koppen
nonames-utf8.csv UTF-8-bestand zonder kolom koppen

Het hele zip-bestand is geüpload en vervolgens wordt de module uitgepakte gezipte gegevens sets vier keer uitgevoerd om elk van de vier bestanden te extra heren met behulp van de volgende instellingen:

  1. Gegevensset voor uitpakken = names-uni.csv, bestand heeft koprij = waar
  2. Gegevensset voor uitpakken = names-utf8.csv, bestand heeft koprij = waar
  3. Gegevensset voor uitpakken = nonames-uni.csv, bestand heeft koprij = onwaar
  4. Gegevensset voor uitpakken = nonames-utf8.csv, bestand heeft koprij = onwaar

De resultaten zijn zoals verwacht:

Bestandsnaam Upload resultaat
names-uni.csv Fout 0049: tijdens het parseren van het bestand is een fout opgetreden. Bestand is niet Unicode (UTF-8) gecodeerd
names-utf8.csv Voltooid. Maakt gebruik van oorspronkelijke kolom namen van het bron bestand.
nonames-uni.csv Fout 0049: tijdens het parseren van het bestand is een fout opgetreden. Bestand is niet Unicode (UTF-8) gecodeerd
nonames-utf8.csv Voltooid. Kolom namen Kol1, col2,... Koln worden automatisch toegevoegd aan de gegevensset.

Notitie

Als u de optie, het bestand heeft veldnamenrij = waar gebruikt en het bron bestand heeft geen kolomkop, wordt de eerste rij met gegevens gebruikt als de kolomkop.

Technische opmerkingen

U kunt deze module niet gebruiken voor het uitpakken van gezipte R-pakketten in uw werk ruimte. R-pakketten moeten worden geüpload en geconsumeerd als gezipte bestanden.

Zie voor meer informatie over het werken met gezipte R-pakketten, R-script uitvoeren.

Notitie

Weet u niet wat het verschil is tussen UTF-8 en Unicode? Zie dit Wikipedia-artikel: Wat is UTF-8

Module parameters

Naam Bereik Type Standaard Beschrijving
Bestands indeling voor compressie Zip

Gzip
compressie regel Zip Compressie-algoritme dat wordt gebruikt om het bestand te comprimeren of uit te breiden.
Gegevensset die moet worden uitgepakt Alle Tekenreeks geen De naam van de gegevensset die u wilt registreren met Azure ML Studio (klassiek). Als de naam van een gegevensset niet is opgegeven, wordt de naam opgehaald uit de bestands naam in het zip-bestand.
Indeling van gegevensset-bestand CSV

TSV

ARFF

SVMLIGHT
Bestandsindeling CSV Bestands indeling van de gegevensset in het zip-bestand
Bestand heeft koprij WAAR/ONWAAR Boolean-waarde Niet waar Stel deze waarde in op True als het CSV/TSV-bestand een veldnamenrij bevat

Verwachte invoer

Naam Type Beschrijving
Gegevensset Zip Zip-bestand met gegevens sets

Uitvoer

Naam Type Beschrijving
Gegevensset voor resultaten Gegevens tabel Uitvoer gegevensset

Zie ook

Gegevens invoer en-uitvoer