Importálás webes URL-ről HTTP-kapcsolaton keresztül

Fontos

A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.

2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.

A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.

Ez a cikk azt ismerteti, hogyan használható az Adatok importálása modul a Machine Learning Studio (klasszikus) használatával adatok olvasására egy nyilvános weblapról gépi tanulási kísérletben való használatra.

Megjegyzés

A következőkre vonatkozik: Machine Learning Studio (klasszikus)

Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.

A weblapon közzétett adatokra a következő korlátozások vonatkoznak:

  • Az adatoknak a következő támogatott formátumok egyikében kell lennie: CSV, TSV, ARFF vagy SvmLight. Más adatok hibákat okozhatnak.
  • Nincs szükség hitelesítésre vagy támogatásra. Az adatoknak nyilvánosan elérhetőnek kell lennie.

Adatok importálása HTTP-n keresztül

Az adatokat kétféleképpen lehet lekérte: a varázslóval állítsa be az adatforrást, vagy konfigurálja manuálisan.

Az Adatimport varázsló használata

  1. Adja hozzá az Adatok importálása modult a kísérlethez. A modult a (klasszikus) Studióban, az Adatbemenet és -kimenet kategóriában találja.

  2. Kattintson az Adatok importálása varázsló indítása elemre , és válassza a Webes URL-cím HTTP-n keresztül lehetőséget.

  3. Illessze be az URL-címet, és válasszon ki egy adatformátumot.

  4. Ha a konfigurálás befejeződött, kattintson a jobb gombbal a modulra, és válassza a Kijelölt futtatása lehetőséget.

Meglévő adatkapcsolat szerkesztéséhez indítsa el újra a varázslót. A varázsló betölti az összes korábbi konfigurációs adatot, így önnek nem kell elölről kezdenie

Tulajdonságok manuális beállítása az Adatok importálása modulban

A következő lépések ismertetik, hogyan konfigurálhatja manuálisan az importálási forrást.

  1. Adja hozzá az Adatok importálása modult a kísérlethez. A modult a (klasszikus) Studióban, az Adatbemenet és -kimenet kategóriában találja.

  2. Az Adatforrás mezőben válassza a Webes URL-cím HTTP-n keresztül lehetőséget.

  3. Az URL mezőbe írja vagy illessze be a betölteni kívánt adatokat tartalmazó oldal teljes URL-címét.

    Az URL-címnek tartalmaznia kell a webhely URL-címét, valamint a betöltni kívánt adatokat tartalmazó oldal teljes elérési útját fájlnévvel és kiterjesztéssel.

    Az alábbi oldal például az Irvine-i University of California Egyetem gépi tanulási adattárából származó Iris-adatkészletet tartalmazza:

    https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data

  4. Az Adatformátum beállításnál válassza ki a támogatott adatformátumok valamelyikét a listából.

    Javasoljuk, hogy mindig előre ellenőrizze az adatokat a formátum meghatározásához. A UC Irvine oldal a CSV formátumot használja. Az egyéb támogatott adatformátumok a TSV, az ARFF és az SvmLight.

  5. Ha az adatok CSV- vagy TSV-formátumban vannak, a File has header row (Fejlécsorsal rendelkezik) beállítással jelezheti, hogy a forrásadatok tartalmaznak-e fejlécsort. A fejlécsor oszlopnevek hozzárendelésére használható.

  6. Válassza a Gyorsítótárazott eredmények használata lehetőséget, ha nem várja, hogy az adatok sokat változnak, vagy ha el szeretné kerülni, hogy a kísérlet minden egyes futtatásakor újra betöltse az adatokat.

    Ha ezt a beállítást választja, a kísérlet a modul első futtatásakor betölti az adatokat, majd ezt követően az adatkészlet gyorsítótárazott verzióját használja.

    Ha újra be szeretné tölteni az adatkészletet a kísérlet adatkészletének minden egyes iterációja során, törölje a Gyorsítótárazott eredmények használata beállítás be kijelölését . Az eredmények akkor is újra betöltődnek, ha módosultak az Adatok importálása paraméterek.

  7. Futtassa a kísérletet.

Results (Eredmények)

Ha elkészült, kattintson a kimeneti adatkészletre, és válassza a Vizualizáció lehetőséget, hogy lássa, sikeresen importálta-e az adatokat.

Példák

A nyilvános webhelyekről adatokat Azure AI Gallery gépi tanulási kísérletekről az alábbi példákban talál:

Technikai megjegyzések

Ez a szakasz az implementáció részleteit, tippeket és válaszokat tartalmazza a gyakori kérdésekre.

Gyakori kérdések

Szűrhetők a forrásból beolvasott adatok?

Nem. Ez a beállítás ebben az adatforrásban nem támogatott.

Miután beolvasott egy Machine Learning Studio (klasszikus) alkalmazásba, feloszthatja az adathalmazt, mintavételezést használhat stb., így csak a kívánt sorokat kaphatja meg:

  • Írjon egy egyszerű R-kódot az R-szkript végrehajtására, hogy lekérte az adatok egy részét sorok vagy oszlopok szerint.

  • Az Adatok felosztása modult relatív kifejezéssel vagy reguláris kifejezéssel használva különítse el a kívánt adatokat.

  • Ha a szükségesnél több adatot töltött be, írja felül a gyorsítótárazott adatkészletet egy új adatkészlet beolvasásával, és mentse ugyanezen a néven.

Hogyan kerülendő el, hogy feleslegesen újra betöltsem ugyanezeket az adatokat?

Ha a forrásadatok megváltoznak, frissítheti az adatkészletet, és új adatokat adhat hozzá az Adatok importálása újrafuttatható futtatásával.

Ha nem szeretné újra beolvasni a forrásból a kísérlet minden egyes futtatásakor, válassza a Gyorsítótárazott eredmények használata lehetőséget TRUE (IGAZ) értékre. Ha ez a beállítás TRUE (igaz) értékre van állítva, a modul ellenőrzi, hogy a kísérlet korábban ugyanazokkal a forrásokkal és bemeneti beállításokkal futott-e. Ha egy korábbi futtatás található, a rendszer a gyorsítótárban lévő adatokat használja az adatoknak a forrásból való újratöltése helyett.

Miért lett hozzáadva egy további sor az adatkészlet végén?

Ha az Adatok importálása modul adatsort ütközik, amelyet egy üres sor vagy egy záró új sor karakter követ, a rendszer egy további sort ad hozzá a táblázat végéhez. Ez az új sor hiányzó értékeket tartalmaz.

A záró új sor új sorként való értelmezésének az az oka, hogy az Adatok importálása nem tudja meghatározni a különbséget egy tényleges üres sor és egy üres sor között, amelyet a felhasználó az ENTER billentyű lenyomásával hozott létre egy fájl végén.

Mivel egyes gépi tanulási algoritmusok támogatják a hiányzó adatokat, ezért ezt a sort esetként kezelik (ami hatással lehet az eredményekre), a Hiányzó adatok törlése használatával ellenőrizze a hiányzó értékeket (különösen a teljesen üres sorokat), és szükség szerint távolítsa el őket.

Az üres sorok ellenőrzése előtt érdemes lehet felosztani az adathalmazt az Adatok felosztása használatával. Ez elválasztja a részleges hiányzó értékeket tartalmazó sorokat, amelyek a forrásadatok tényleges hiányzó értékeit képviselik. Az Első N sor kijelölése lehetőséggel beolvashatja az adathalmaz első részét az utolsó sortól különálló tárolóba.

Miért nem jelennek meg helyesen bizonyos karakterek a forrásfájlban?

Machine Learning UTF-8 kódolást támogatja. Ha a forrásfájl más típusú kódolást használt, előfordulhat, hogy a karakterek importálása helytelen.

Modulparaméterek

Name Tartomány Típus Alapértelmezett Description
Adatforrás Lista Adatforrás vagy fogadó Azure Blob Storage Az adatforrás lehet HTTP, FTP, névtelen HTTPS vagy FTPS, azure blobtárolóban lévő fájl, Azure-tábla, Azure SQL Database, helyszíni SQL Server-adatbázis, Hive-tábla vagy OData-végpont.
URL-cím bármelyik Sztring Nincs HTTP URL-címe
Adatformátum CSV

TSV

ARFF

SvmLight
Adatformátum CSV HTTP-forrás fájltípusa
A CSV vagy a TSV fejlécsorral rendelkezik IGAZ/HAMIS Logikai hamis Azt jelzi, hogy a CSV- vagy TSV-fájl fejlécsorral rendelkezik-e
Gyorsítótárazott eredmények használata IGAZ/HAMIS Logikai HAMIS A modul végrehajtása csak akkor történik meg, ha nem létezik érvényes gyorsítótár. Ellenkező esetben a rendszer az előző végrehajtás gyorsítótárazott adatait használja.

Kimenetek

Név Típus Description
Eredményadatkészlet Adattábla Adatkészlet letöltött adatokkal

Kivételek

Kivétel Description
0027-es hiba Kivétel akkor fordul elő, ha két objektumnak azonos méretűnek kell lennie, de nem azok.
0003-as hiba Kivétel történik, ha egy vagy több bemenet null vagy üres.
0029-es hiba Kivétel történik, ha érvénytelen URI-t ad át.
0030-as hiba kivétel akkor fordul elő, ha nem lehet letölteni egy fájlt.
0002-es hiba Kivétel történik, ha egy vagy több paramétert nem lehetett a megadott típusból a cél metódus által megkövetelt típusra átalakítani.
0048-as hiba Kivétel akkor fordul elő, ha nem lehet megnyitni egy fájlt.
0046-os hiba Kivétel akkor fordul elő, ha nem lehet könyvtárat létrehozni a megadott elérési úton.
0049-es hiba Kivétel akkor fordul elő, ha nem lehet egy fájlt elemezni.

A Studio (klasszikus) moduljaival kapcsolatos hibák listájáért tekintse meg a Machine Learning hibakódokat.

Az API-kivételek listáját a hibakódok Machine Learning REST API.

Lásd még

Adatok importálása
Adatok exportálása
Importálás Hive-lekérdezésből
Importálás Azure SQL Database-ből
Importálás azure-táblából
Importálás Azure Blob Storage
Importálás adatcsatorna-szolgáltatóktól
Importálás helyszíni adatbázisból SQL Server adatbázisból