Konvertálás CSV formátumba

Fontos

A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.

2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.

A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.

Adatbevitel konvertálása vesszővel tagolt értékformátumba

Kategória: Adatformátum-átalakítások

Megjegyzés

Csak a következőre vonatkozik: Machine Learning Studio (klasszikus)

Hasonló húzási modulok érhetők el Azure Machine Learning tervezőben.

A modul áttekintése

Ez a cikk bemutatja, hogyan konvertálhat adathalmazt az Azure ML-ből CSV-formátumba a Machine Learning Studióban (klasszikus) a Konvertálás CSV-modullal, amely letölthető, exportálható vagy megosztható R- vagy Python-szkriptmodulokkal.

További információ a CSV-formátumról

A CSV formátum, amely a "vesszővel tagolt értékek" rövidítése, számos külső gépi tanulási eszköz által használt fájlformátum. Bár a Machine Learning által használt natív adathalmaz-formátum a .NET-adattáblán alapul, és így a .NET-kódtárak is beolvashatók, a CSV egy gyakori felcserélhető formátum nyílt forráskódú nyelvek, például az R vagy a Python használatakor.

Még ha a legtöbb munkát a (klasszikus) Machine Learning Studióban is elvégzi, előfordulhat, hogy hasznosnak találhatja, ha az adathalmazt CSV-fájllá konvertálja, hogy külső eszközökben használhassa. Például:

  • Töltse le a CSV-fájlt a Excel megnyitásához, vagy importálja egy relációs adatbázisba.
  • Mentse a CSV-fájlt a felhőtárhelyre, és csatlakozzon hozzá Power BI vizualizációk létrehozásához.
  • A CSV formátum használatával előkészíti az adatokat az R- és Python-használathoz. Egyszerűen kattintson a jobb gombbal a modul kimenetére az adatok közvetlenül Pythonból vagy Jupyter-notebookból való eléréséhez szükséges kód létrehozásához.

Amikor csv-fájllá konvertál egy adathalmazt, a fájl az Azure ML-munkaterületre lesz mentve. Az Azure Storage segédprogrammal közvetlenül megnyithatja és használhatja a fájlt, vagy a jobb gombbal a modul kimenetére kattintva letöltheti a CSV-fájlt a számítógépére, vagy használhatja R- vagy Python-kódban.

A Konvertálás CSV-fájllá konfigurálása

  1. Adja hozzá a Konvertálás CSV-modult a kísérlethez. Ez a modul a Studio (klasszikus) Adatformátum-átalakítások csoportjában található.

  2. Csatlakozás bármely olyan modulba, amely egy adathalmazt kimenetként ad ki.

  3. Futtassa a kísérletet, vagy kattintson a Konvertálás CSV-modulra , és kattintson a Kijelölt futtatás parancsra.

Results (Eredmények)

Kattintson duplán a Konvertálás CSV formátumba parancs kimenetére, és válasszon egyet ezek közül.

  • Letöltés: Azonnal megnyithatja az adatok csv formátumban történő másolatát, amelyet menthet egy helyi mappába. Ha nem ad meg mappát, a rendszer egy alapértelmezett fájlnevet alkalmaz, és a CSV-fájlt a helyi Letöltések tárba menti.

    Ha az Adatkészlet letöltése lehetőséget választja, meg kell adnia, hogy meg szeretné-e nyitni az adathalmazt, vagy egy helyi fájlba szeretné menteni.

    Ha a Megnyitás lehetőséget választja, a rendszer az adatkészletet azzal az alkalmazással tölti be, amely alapértelmezés szerint .CSV fájlokkal van társítva: például Microsoft Excel.

    Ha az Adathalmaz letöltése lehetőséget választja, a rendszer alapértelmezés szerint a modul nevével és a munkaterület azonosítóját jelölő GUID azonosítóval menti a fájlt. A mentés másként lehetőséget azonban a letöltés során is kiválaszthatja, és módosíthatja a fájl nevét vagy helyét.

  • Mentés adatkészletként: A CSV-fájlt külön adatkészletként menti vissza az Azure ML-munkaterületre.

  • Adatelérési kód létrehozása: Az Azure ML két kódkészletet hoz létre az adatok eléréséhez Python vagy R használatával. Az adatok eléréséhez másolja a kódrészletet az alkalmazásba.

  • Megnyitás új jegyzetfüzetben: Létrejön egy új Jupyter-notebook, és beszúrt kód az adatok beolvasásához a munkaterületről a választott nyelv használatával: Python 2, Python 3 vagy R a Microsoft R Open programmal.

    Ha például az R lehetőséget választja, r-mintakódot ad meg, amely betölti a CSV-fájlt egy adatkeretbe, és megjeleníti az első néhány sort a head függvény használatával.

Műszaki megjegyzések

Ez a szakasz implementálási részleteket, tippeket és válaszokat tartalmaz a gyakori kérdésekre.

A CSV formátum követelményei

A CSV-fájlformátum számos gépi tanulási keretrendszer által támogatott népszerű formátum. A formátumot más néven "vesszővel tagolt értékeknek" vagy "karakterekkel elválasztott értékeknek" nevezzük.

A CSV-fájlok táblázatos adatokat (számokat és szöveget) tárolnak egyszerű szöveges formában. A CSV-fájlok tetszőleges számú rekordból áll, valamilyen sortöréssel elválasztva. Minden rekord egy literális vesszővel elválasztott mezőkből áll. Egyes régiókban az elválasztó pontosvessző lehet.

Általában minden rekordnak azonos számú mezője van, és a hiányzó értékek null értékként vagy üres sztringként jelennek meg.

Tipp

Egyszerűen exportálhat adatokat Excel, Accessből vagy relációs adatbázisból CSV-fájlokba, hogy Machine Learning használhassa őket. Bár a fájlnevek általában .CSV kiterjesztéssel rendelkeznek, Machine Learning nem szükséges, hogy ez a fájlnévkiterjesztés jelen legyen, ha CSV-fájlként szeretné importálni az adatokat. XLSX, TXT és más fájlokat CSV-fájlként importálhat. A fájl mezőit azonban az előző szakaszban leírtak szerint kell formázni, és a fájlnak UTF-8 kódolást kell használnia.

Gyakori kérdések és problémák

Ez a szakasz a Konvertálás CSV-modullal kapcsolatos ismert problémákat, gyakori kérdéseket és kerülő megoldásokat ismerteti.

A fejléceknek egysorosnak kell lenniük

A Machine Learning használt CSV-fájlformátum egyetlen fejlécsort támogat. Többsoros fejlécek nem szúrhatók be.

Az importáláskor támogatott, de exportálásra nem használható egyéni elválasztójelek

A Konvertálás CSV-be modul nem támogatja az alternatív oszlopelválasztók, például a pontosvessző (;), amelyet gyakran használnak Európában.

Ha azonban külső tárolóban lévő CSV-fájlokból importál adatokat, alternatív elválasztójeleket is megadhat. Az Adatok importálása modulban válassza ki a kódolási beállítással rendelkező CSV-t , és válasszon egy támogatott kódolást.

Pontatlan oszlopelválasztás a vesszőt tartalmazó sztringadatokon

A szövegfeldolgozás során gyakran előfordul, hogy a szövegmezőkben szinte minden karakter, amely megadható oszlopelválasztóként (tabulátorok, szóközök, vesszők stb.), véletlenszerűen is megtalálható. A szöveg CSV-fájlból történő importálása mindig körültekintően jár el, hogy ne válassza el a szöveget a szükségtelen új oszlopok között.

Amikor vesszőt tartalmazó sztringadatokat tartalmazó oszlopot próbál exportálni, problémákat is tapasztalhat. Machine Learning nem támogatja az ilyen adatok speciális kezelését vagy speciális fordítását, például a sztringek idézőjelek közé helyezését. Emellett nem használhat feloldó karaktereket vessző előtt, hogy a vesszők konstans karakterként legyenek kezelve.

Ezért a kimeneti fájlban új mezők jönnek létre a sztringmezőben észlelt minden egyes vesszőhöz. A probléma elkerülése érdekében több kerülő megoldás is létezik:

  • A Szöveg előfeldolgozása modullal eltávolíthatja az írásjeleket a sztringmezőkből.

  • Egyéni R-szkript vagy Python-szkript használatával dolgozza fel a szöveget, és győződjön meg arról, hogy az adatok exportálhatók megfelelően.

UTF-8 kódolás szükséges

A Konvertálás CSV-modul csak az UTF-8 karakterkódolást támogatja. Ha más kódolással kell exportálnia az adatokat, megpróbálkozhat az R-szkript végrehajtása vagy a Python-szkript végrehajtása modullal az egyéni kimenet létrehozásához.

Az adathalmaz nem rendelkezik oszlopnevekkel

Ha a CSV-fájlba exportált adatkészlet nem tartalmaz oszlopneveket, javasoljuk, hogy a metaadatok szerkesztése használatával adjon hozzá oszlopneveket az átalakítás előtt. A konvertálási vagy exportálási folyamat részeként nem adhat hozzá oszlopneveket.

SYLK: Érvénytelen fájlformátum

Ha a CSV-fájllá konvertált adathalmaz első oszlopa névazonosítóval rendelkezik, a következő hibaüzenet jelenhet meg, amikor megpróbálja megnyitni a fájlt Excel:

"SYLK: Érvénytelen fájlformátum."

A hiba elkerülése érdekében át kell neveznie az oszlopot.

Segítségre van szükségem a CSV-ből történő importáláshoz

Importáláshoz ne használja az Exportálás CSV-be modult. Ehelyett használja az Adatok importálása modult.

A CSV-ből történő importálással kapcsolatos általános információkért tekintse meg az alábbi forrásanyagokat:

Várt bemenetek

Név Típus Leírás
Adathalmaz Adattábla Bemeneti adatkészlet

Kimenet

Név Típus Leírás
Eredmények adatkészlete GenericCsv Kimeneti adatkészlet

Lásd még

Adatformátum-átalakítások
A-Z modullista