Tömörített adatkészletek kicsomagolása

Kicsomagolja az adatkészleteket egy zip-csomagból a felhasználói tárolóban

Kategória: Adatbemenet és -kimenet

Megjegyzés

A következőkre vonatkozik: Machine Learning Studio (klasszikus)

Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.

A modul áttekintése

Ez a cikk azt ismerteti, hogyan használható a Tömörített adatkészletek kicsomagolása modul a Machine Learning Studio (klasszikus) szolgáltatásban adatok és szkriptfájlok tömörített formátumban való feltöltéséhez, majd kicsomagolása kísérletben való használatra.

Ennek a modulnak az a célja, hogy tömörített formátumban mentse és töltse fel az adatfájlokat, így csökkentve az adatátviteli időt nagy méretű adatkészletek esetén. A fájlok tömörített formátuma általában akkor jó választás, ha az adatkészlet olyan nagy, hogy tömörítést szeretne használni a feltöltéshez a feltöltési idő és a kapcsolódó költségek minimalizálása érdekében.

A modul bemenete egy adatkészlet a munkaterületen. Az adatkészletet tömörített formátumban kell feltölteni. A modul ezután kibontja az adatkészletet, és hozzáadja az adatokat a munkaterülethez.

Tömörített adatkészletek kicsomagolása

Ez a szakasz azt ismerteti, hogyan készítheti elő az adatokat, majd csomagolja ki azokat a Machine Learning Studióban (klasszikus).

1. lépés Fájlok előkészítése

A fájl feltöltése előtt győződjön meg arról, hogy a fájlban található adatok használhatók a Machine Learning:

  • Győződjön meg arról, hogy a fájlban található adatok UTF-8 kódolást használnak.

    Ha a fájl elég kicsi, megnyithatja az Jegyzettömb, majd mentheti a kívánt kódolásban. Számos más szövegszerkesztő is kínál hasonló funkciókat. CSV-fájlok esetén a fájlformátum és Excel az Exportálás parancsokkal adhatja meg a fájlformátumot és a kódolást.

  • Ellenőrizze, hogy az adatfájlok támogatott formátumot, például CSV, TSV, ARFF vagy SVMLight formátumot használjanak-e.

  • Tömörítse az adatokat úgy, hogy hozzáadja az adatfájlt egy .ZIP vagy a fájlhoz. GZ formátumú archívumfájl. Más archív típusok nem támogatottak.

  • Jelszóvédelem eltávolítása. Ha a fájlok vagy magának a tömörített mappának bármelyike titkosított vagy jelszóval védett, a feltöltés előtt fel kell oldania vagy vissza kell fejtenie a fájlt. A modul nem észleli a titkosított adattípusokat, és nem támogatja a tetszőleges ügyfelektől származó jelszóbeviteli párbeszédpaneleket.

2. lépés Adatkészlet feltöltése a munkaterületre

Ezután töltse fel a tömörített adatkészletet a kísérlet munkaterületére.

  1. Kattintson a NEW (ÚJ) elemre, válassza az DATASET (ADATKÉSZLET) lehetőséget, majd a FROM LOCAL FILE (HELYI FÁJLBÓL) lehetőséget.

  2. Keresse meg a feltölteni kívánt tömörített fájlt. A fájl kiválasztásakor a típusnak automatikusan Zip-fájlra (.zip).

3. lépés Tömörített adatkészlet hozzáadása a kísérlethez

Miután az adatkészlet teljesen fel lett töltve, tömörített formátumban adja hozzá a kísérlethez.

  1. A Machine Learning Studio (klasszikus) bal oldali navigációs panelen válassza a Mentett adatkészletek lehetőséget, majd bontsa ki a Saját adatkészletek gombra.

  2. Keresse meg az előbb feltöltött tömörített adatkészletet, és húzza a kísérletvászonra.

4. lépés: Adatkészlet kicsomagolása

Az utolsó lépés az adatkészlet kicsomagolása.

  1. Csatlakozás tömörített adatkészletet a Tömörített adatkészletek kicsomagolása modul bemenetéhez.

  2. A Kicsomagolatlan adatkészlet mezőbe írja be egyetlen kicsomagolni szükséges adatkészlet nevét.

    • Ha egy Munkalap1 nevű munkalapot mentett Excel csv-fájlként Test.csvnéven, az adatkészlet neve Test.csv, nem Pedig Sheet1.

    • Az Adatkészlet kicsomagolása szövegmezőbe beírt névnek pontosan meg kell egynie az eredeti fájl nevével a tömörítés előtt, beleértve a fájlnévkiterjesztést is. Ha például a következő szövegfájl alapján szeretne kicsomagolni egy adatkészletet Users.txtírja be a Users.txt, és ne a Users (Felhasználók) szöveget.

    • Ha több fájlt egy tömörített mappába tesz, egyszerre egy adatkészletet kell kicsomagolnia.

    Tipp

    Ha a tulajdonságot üresen hagyja, a modul a tömörített fájlból kapja meg a fájlnevet, feltéve, hogy a tömörített archívumfájl csak egy forrásfájlt tartalmaz. Ha a tömörített archívum több fájlt tartalmaz, futásidő-hiba történik.

  3. Az Adatkészlet fájlformátuma beállításnál adja meg az adatkészlet eredeti formátumát, azaz a tömörített adatkészlet előtti formátumot.

    A létrehozott adatkészletek a következő formátumok bármelyikével feltölthetők és kicsomagolhatók: CSV, ARFF, TSV, SvmLight.

    Ha ez a tulajdonság üresen marad, a modul a forrásfájl nevével azonosítja az adatkészletet.

  4. Válassza a Fájl fejlécsort, ha az eredeti adatkészlet tartalmaz fejlécsort. Ellenkező esetben a rendszer az adatok első sorát használja fejlécként. Ha nem ezt szeretné, adjon hozzá egy fejlécet a bemenet előtt.

    Ez a beállítás csak a és .CSV vonatkozik. TSV-fájlok.

    Megjegyzés

    Ha módosítja a fájl formátumát, ez a beállítás alaphelyzetbe áll.

  5. Ha a fájl tömörítve van, a Tömörítés fájlformátum lehetőséggel adhatja meg a fájl tömörítésére vagy kibontásához használt algoritmust.

    Jelenleg a .ZIP és GZ (vagy Gzip) formátumok támogatottak.

  6. Futtassa a kísérletet.

Results (Eredmények)

  • Az adatok megfelelő importálásának ellenőrzéséhez kattintson a jobb gombbal a Csomagolt tömörített adatkészletek modulra, és válassza a Visualize (Képi megjelenítés) lehetőséget.

  • Az adatkészlet nevének szerkesztéséhez kattintson a jobb gombbal a Tömörített adatkészletek kicsomagolt modulra, majd válassza a Mentés adatkészletként lehetőséget. Ezen a ponton más nevet is begépelhet.

    Ez a lehetőség akkor hasznos, ha több adatkészletet csomagol ki egyetlen ZIP-fájlból.

Példák

A modul működését bemutatva létrehoztunk egy minta-.ZIP, amely négy különböző CSV-fájlt tartalmaz. Az összes fájlt a rendszer a Excel.

Fájlnév Description
names-uni.csv Unicode-fájl oszlopfejlécekkel
names-utf.csv UTF-8-fájl oszlopfejlécekkel
nonames-uni.csv Unicode-fájl oszlopfejléc nélkül
nonames-utf8.csv UTF-8-fájl oszlopfejlécek nélkül

A teljes tömörített fájl fel lett töltve, majd a Tömörített adatkészletek kicsomagolása modult négyszer futtatták a négy fájl kibontása érdekében az alábbi beállításokkal:

  1. Kicsomagolni kívánt adatkészlet = names-uni.csv, a fájl fejlécsora = TRUE
  2. Kicsomagolni kívánt adatkészlet = names-utf8.csv, a fájl fejlécsora = TRUE
  3. Kicsomagolni kívánt adatkészlet = nonames-uni.csv, a Fájl fejlécsorral = FALSE
  4. Kicsomagolni kívánt adatkészlet = nonames-utf8.csv, a Fájl fejlécsorral = FALSE

Az eredmények a vártnak megfelelően voltak:

Fájlnév Feltöltés eredménye
names-uni.csv 0049-es hiba: Hiba a fájl elemezve közben. A fájl kódolása nem Unicode (UTF-8)
names-utf8.csv Sikeres művelet. Eredeti oszlopneveket használ a forrásfájlból.
nonames-uni.csv 0049-es hiba: Hiba a fájl elemezve közben. A fájl kódolása nem Unicode (UTF-8)
nonames-utf8.csv Sikeres művelet. Oszlopnevek Col1, col2, ... A coln automatikusan hozzáadódik az adatkészlethez.

Megjegyzés

Ha a File has header row = TRUE (Fejlécsor = TRUE) lehetőséget használja, és a forrásfájlnak valójában nincs oszlopfejléce, a rendszer az adatok első sorát használja oszlopfejlécként.

Technikai megjegyzések

Ezzel a modullal nem csomagolhat ki tömörített R-csomagokat a munkaterületre. Az R-csomagokat tömörített fájlokként kell feltölteni és fel kell tölteni.

A tömörített R-csomagok használatával kapcsolatos további információkért lásd: R-szkript végrehajtása.

Megjegyzés

Nem tud különbséget tenni az UTF-8 és a Unicode között? Lásd ezt a Wikipedia-cikket: Mi az UTF-8?

Modulparaméterek

Name Tartomány Típus Alapértelmezett Description
Tömörítési fájlformátum Irányítószám

Gzip
tömörítési szabály Irányítószám A fájl tömörítésére vagy kibontásához használt tömörítési algoritmus.
Az adatkészlet kicsomagolása Bármelyik Sztring Nincs Az Azure ML Studióban regisztrálni ML adatkészlet neve. Ha az adatkészlet neve nincs megadva, a rendszer a tömörített fájlban található fájlnévből szerez be nevet.
Adatkészlet fájlformátuma CSV

TSV

ARFF

SVMLIGHT
Fájlformátum CSV Az adatkészlet fájlformátuma a tömörített fájlban
A fájl fejlécsorral rendelkezik IGAZ/HAMIS Logikai Hamis Csak akkor állítsa True (Igaz ) értékre, ha a CSV-/TSV-fájl fejlécsorral rendelkezik

Várt bemenetek

Név Típus Description
Adathalmaz Irányítószám Adatkészleteket tartalmazó tömörített fájl

Kimenet

Név Típus Description
Eredményadatkészlet Adattábla Kimeneti adatkészlet

Lásd még

Adatbemenet és -kimenet