Konvertálás CSV formátumba
Fontos
A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.
2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.
- A gépi tanulási projekteknek a (klasszikus) ML Studióból a Azure Machine Learning való áthelyezésére vonatkozó információk.
- További információ a Azure Machine Learning.
A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.
Adatbevitel konvertálása vesszővel tagolt értékformátumba
Kategória: Adatformátum-átalakítások
Megjegyzés
Csak a következőre vonatkozik: Machine Learning Studio (klasszikus)
Hasonló húzási modulok érhetők el Azure Machine Learning tervezőben.
A modul áttekintése
Ez a cikk bemutatja, hogyan konvertálhat adathalmazt az Azure ML-ből CSV-formátumba a Machine Learning Studióban (klasszikus) a Konvertálás CSV-modullal, amely letölthető, exportálható vagy megosztható R- vagy Python-szkriptmodulokkal.
További információ a CSV-formátumról
A CSV formátum, amely a "vesszővel tagolt értékek" rövidítése, számos külső gépi tanulási eszköz által használt fájlformátum. Bár a Machine Learning által használt natív adathalmaz-formátum a .NET-adattáblán alapul, és így a .NET-kódtárak is beolvashatók, a CSV egy gyakori felcserélhető formátum nyílt forráskódú nyelvek, például az R vagy a Python használatakor.
Még ha a legtöbb munkát a (klasszikus) Machine Learning Studióban is elvégzi, előfordulhat, hogy hasznosnak találhatja, ha az adathalmazt CSV-fájllá konvertálja, hogy külső eszközökben használhassa. Például:
- Töltse le a CSV-fájlt a Excel megnyitásához, vagy importálja egy relációs adatbázisba.
- Mentse a CSV-fájlt a felhőtárhelyre, és csatlakozzon hozzá Power BI vizualizációk létrehozásához.
- A CSV formátum használatával előkészíti az adatokat az R- és Python-használathoz. Egyszerűen kattintson a jobb gombbal a modul kimenetére az adatok közvetlenül Pythonból vagy Jupyter-notebookból való eléréséhez szükséges kód létrehozásához.
Amikor csv-fájllá konvertál egy adathalmazt, a fájl az Azure ML-munkaterületre lesz mentve. Az Azure Storage segédprogrammal közvetlenül megnyithatja és használhatja a fájlt, vagy a jobb gombbal a modul kimenetére kattintva letöltheti a CSV-fájlt a számítógépére, vagy használhatja R- vagy Python-kódban.
A Konvertálás CSV-fájllá konfigurálása
Adja hozzá a Konvertálás CSV-modult a kísérlethez. Ez a modul a Studio (klasszikus) Adatformátum-átalakítások csoportjában található.
Csatlakozás bármely olyan modulba, amely egy adathalmazt kimenetként ad ki.
Futtassa a kísérletet, vagy kattintson a Konvertálás CSV-modulra , és kattintson a Kijelölt futtatás parancsra.
Results (Eredmények)
Kattintson duplán a Konvertálás CSV formátumba parancs kimenetére, és válasszon egyet ezek közül.
Letöltés: Azonnal megnyithatja az adatok csv formátumban történő másolatát, amelyet menthet egy helyi mappába. Ha nem ad meg mappát, a rendszer egy alapértelmezett fájlnevet alkalmaz, és a CSV-fájlt a helyi Letöltések tárba menti.
Ha az Adatkészlet letöltése lehetőséget választja, meg kell adnia, hogy meg szeretné-e nyitni az adathalmazt, vagy egy helyi fájlba szeretné menteni.
Ha a Megnyitás lehetőséget választja, a rendszer az adatkészletet azzal az alkalmazással tölti be, amely alapértelmezés szerint .CSV fájlokkal van társítva: például Microsoft Excel.
Ha az Adathalmaz letöltése lehetőséget választja, a rendszer alapértelmezés szerint a modul nevével és a munkaterület azonosítóját jelölő GUID azonosítóval menti a fájlt. A mentés másként lehetőséget azonban a letöltés során is kiválaszthatja, és módosíthatja a fájl nevét vagy helyét.
Mentés adatkészletként: A CSV-fájlt külön adatkészletként menti vissza az Azure ML-munkaterületre.
Adatelérési kód létrehozása: Az Azure ML két kódkészletet hoz létre az adatok eléréséhez Python vagy R használatával. Az adatok eléréséhez másolja a kódrészletet az alkalmazásba.
Megnyitás új jegyzetfüzetben: Létrejön egy új Jupyter-notebook, és beszúrt kód az adatok beolvasásához a munkaterületről a választott nyelv használatával: Python 2, Python 3 vagy R a Microsoft R Open programmal.
Ha például az R lehetőséget választja, r-mintakódot ad meg, amely betölti a CSV-fájlt egy adatkeretbe, és megjeleníti az első néhány sort a
head
függvény használatával.
Műszaki megjegyzések
Ez a szakasz implementálási részleteket, tippeket és válaszokat tartalmaz a gyakori kérdésekre.
A CSV formátum követelményei
A CSV-fájlformátum számos gépi tanulási keretrendszer által támogatott népszerű formátum. A formátumot más néven "vesszővel tagolt értékeknek" vagy "karakterekkel elválasztott értékeknek" nevezzük.
A CSV-fájlok táblázatos adatokat (számokat és szöveget) tárolnak egyszerű szöveges formában. A CSV-fájlok tetszőleges számú rekordból áll, valamilyen sortöréssel elválasztva. Minden rekord egy literális vesszővel elválasztott mezőkből áll. Egyes régiókban az elválasztó pontosvessző lehet.
Általában minden rekordnak azonos számú mezője van, és a hiányzó értékek null értékként vagy üres sztringként jelennek meg.
Tipp
Egyszerűen exportálhat adatokat Excel, Accessből vagy relációs adatbázisból CSV-fájlokba, hogy Machine Learning használhassa őket. Bár a fájlnevek általában .CSV kiterjesztéssel rendelkeznek, Machine Learning nem szükséges, hogy ez a fájlnévkiterjesztés jelen legyen, ha CSV-fájlként szeretné importálni az adatokat. XLSX, TXT és más fájlokat CSV-fájlként importálhat. A fájl mezőit azonban az előző szakaszban leírtak szerint kell formázni, és a fájlnak UTF-8 kódolást kell használnia.
Gyakori kérdések és problémák
Ez a szakasz a Konvertálás CSV-modullal kapcsolatos ismert problémákat, gyakori kérdéseket és kerülő megoldásokat ismerteti.
A fejléceknek egysorosnak kell lenniük
A Machine Learning használt CSV-fájlformátum egyetlen fejlécsort támogat. Többsoros fejlécek nem szúrhatók be.
Az importáláskor támogatott, de exportálásra nem használható egyéni elválasztójelek
A Konvertálás CSV-be modul nem támogatja az alternatív oszlopelválasztók, például a pontosvessző (;), amelyet gyakran használnak Európában.
Ha azonban külső tárolóban lévő CSV-fájlokból importál adatokat, alternatív elválasztójeleket is megadhat. Az Adatok importálása modulban válassza ki a kódolási beállítással rendelkező CSV-t , és válasszon egy támogatott kódolást.
Pontatlan oszlopelválasztás a vesszőt tartalmazó sztringadatokon
A szövegfeldolgozás során gyakran előfordul, hogy a szövegmezőkben szinte minden karakter, amely megadható oszlopelválasztóként (tabulátorok, szóközök, vesszők stb.), véletlenszerűen is megtalálható. A szöveg CSV-fájlból történő importálása mindig körültekintően jár el, hogy ne válassza el a szöveget a szükségtelen új oszlopok között.
Amikor vesszőt tartalmazó sztringadatokat tartalmazó oszlopot próbál exportálni, problémákat is tapasztalhat. Machine Learning nem támogatja az ilyen adatok speciális kezelését vagy speciális fordítását, például a sztringek idézőjelek közé helyezését. Emellett nem használhat feloldó karaktereket vessző előtt, hogy a vesszők konstans karakterként legyenek kezelve.
Ezért a kimeneti fájlban új mezők jönnek létre a sztringmezőben észlelt minden egyes vesszőhöz. A probléma elkerülése érdekében több kerülő megoldás is létezik:
A Szöveg előfeldolgozása modullal eltávolíthatja az írásjeleket a sztringmezőkből.
Egyéni R-szkript vagy Python-szkript használatával dolgozza fel a szöveget, és győződjön meg arról, hogy az adatok exportálhatók megfelelően.
UTF-8 kódolás szükséges
A Konvertálás CSV-modul csak az UTF-8 karakterkódolást támogatja. Ha más kódolással kell exportálnia az adatokat, megpróbálkozhat az R-szkript végrehajtása vagy a Python-szkript végrehajtása modullal az egyéni kimenet létrehozásához.
Az adathalmaz nem rendelkezik oszlopnevekkel
Ha a CSV-fájlba exportált adatkészlet nem tartalmaz oszlopneveket, javasoljuk, hogy a metaadatok szerkesztése használatával adjon hozzá oszlopneveket az átalakítás előtt. A konvertálási vagy exportálási folyamat részeként nem adhat hozzá oszlopneveket.
SYLK: Érvénytelen fájlformátum
Ha a CSV-fájllá konvertált adathalmaz első oszlopa névazonosítóval rendelkezik, a következő hibaüzenet jelenhet meg, amikor megpróbálja megnyitni a fájlt Excel:
"SYLK: Érvénytelen fájlformátum."
A hiba elkerülése érdekében át kell neveznie az oszlopot.
Segítségre van szükségem a CSV-ből történő importáláshoz
Importáláshoz ne használja az Exportálás CSV-be modult. Ehelyett használja az Adatok importálása modult.
A CSV-ből történő importálással kapcsolatos általános információkért tekintse meg az alábbi forrásanyagokat:
- Betanítási adatok importálása a (klasszikus) Machine Learning Studióba különböző adatforrásokból
- AzureML-kísérletek és adat-interakció: Bemutatja a különböző adatforrásokat és azok használatát a Studióban (klasszikus).
Várt bemenetek
Név | Típus | Leírás |
---|---|---|
Adathalmaz | Adattábla | Bemeneti adatkészlet |
Kimenet
Név | Típus | Leírás |
---|---|---|
Eredmények adatkészlete | GenericCsv | Kimeneti adatkészlet |