Az Adatimportálás összetevő

Ez a cikk az Azure Machine Learning designer egy összetevőjét ismerteti.

Ezzel az összetevővel adatokat tölthet be egy gépi tanulási folyamatba a meglévő felhőalapú adatszolgáltatásokból.

Megjegyzés

Az összetevő által biztosított összes funkció elvégezhető a munkaterület kezdőlapján található adattárak és adathalmazok segítségével. Javasoljuk, hogy olyan adattárat és adatkészletet használjon, amely további funkciókat is tartalmaz, például az adatmonitorozást. További információt az Adatok elérése és az Adathalmazok regisztrálása című cikkben talál. Miután regisztrált egy adathalmazt, a tervezőfelület Adathalmazok ->Saját adathalmazok kategóriájában találja meg. Ez az összetevő a Studio (klasszikus) felhasználói számára van fenntartva egy ismerős élmény érdekében.

Az Adatok importálása összetevő a következő forrásokból származó adatok olvasását támogatja:

  • URL-cím HTTP-en keresztül
  • Azure-felhőbeli tárolók adattárakon keresztül)
    • Azure-blobtároló
    • Azure-fájlmegosztás
    • Azure Data Lake
    • Azure Data Lake Gen2
    • Azure SQL Database
    • Azure PostgreSQL

A felhőalapú tárolás használata előtt először regisztrálnia kell egy adattárat az Azure Machine Learning-munkaterületen. További információ: Adatok elérése.

Miután definiálta a kívánt adatokat, és csatlakozott a forráshoz, az Adatok importálása az egyes oszlopok adattípusát a benne található értékek alapján következteti, és betölti az adatokat a tervezőfolyamatba. Az Adatok importálása olyan adatkészlet, amely bármely tervezőfolyamattal használható.

Ha a forrásadatok megváltoznak, frissítheti az adathalmazt, és új adatokat adhat hozzá az Adatok importálása újrafuttatásával.

Figyelmeztetés

Ha a munkaterület virtuális hálózaton található, konfigurálnia kell az adattárakat a tervező adatvizualizációs funkcióinak használatára. További információ az adattárak és adathalmazok virtuális hálózatokban való használatáról: Azure Machine Learning stúdió használata Azure-beli virtuális hálózaton.

Adatok importálásának konfigurálása

  1. Adja hozzá az Adatok importálása összetevőt a folyamathoz. Ezt az összetevőt a tervező Adatbemenet és kimenet kategóriájában találja.

  2. Válassza ki az összetevőt a jobb oldali panel megnyitásához.

  3. Válassza az Adatforrás lehetőséget, és válassza ki az adatforrás típusát. Lehet HTTP vagy adattár.

    Ha az adattárat választja, kiválaszthatja az Azure Machine Learning-munkaterületen már regisztrált meglévő adattárakat, vagy létrehozhat egy új adattárat. Ezután határozza meg az adattárba importálandó adatok elérési útját. Egyszerűen tallózhat az elérési úton a Tallózás az elérési úton lehetőség kiválasztásával.

    Képernyőkép az Elérési út tallózása hivatkozásról, amely megnyitja az Elérési út kiválasztása párbeszédpanelt.

    Megjegyzés

    Az Adatok importálása összetevő csak táblázatos adatokhoz használható. Ha egyszerre több táblázatos adatfájlt szeretne importálni, az a következő feltételeket igényli, ellenkező esetben hibák lépnek fel:

    1. Ahhoz, hogy az összes adatfájlt belefoglalja a mappába, meg kell adnia a Path értéketfolder_name/**.
    2. Minden adatfájlt Unicode-8 kóddal kell kódolni.
    3. Minden adatfájlnak azonos oszlopszámmal és oszlopnevekkel kell rendelkeznie.
    4. Több adatfájl importálásának eredménye az összes sor összefűzése több fájlból sorrendben.
  4. Válassza ki az előnézeti sémát a belefoglalni kívánt oszlopok szűréséhez. Az elemzési beállítások között olyan speciális beállításokat is megadhat, mint a Határoló.

    Képernyőkép a séma előnézetéről, amelyen a 3., 4., 5. és 6. oszlop van kiválasztva.

  5. A Kimenet újragenerálása jelölőnégyzet dönti el, hogy végrehajtja-e az összetevőt a kimenet futásidőben történő újragenerálásához.

    Alapértelmezés szerint nincs kiválasztva, ami azt jelenti, hogy ha az összetevőt korábban ugyanazokkal a paraméterekkel hajtották végre, a rendszer újra felhasználja a legutóbbi futtatás kimenetét a futtatási idő csökkentése érdekében.

    Ha ki van jelölve, a rendszer újra végrehajtja az összetevőt a kimenet újragenerálásához. Ezért ezt a lehetőséget akkor válassza, ha a tárolóban lévő mögöttes adatok frissülnek, az segíthet a legújabb adatok beszerzésében.

  6. Küldje el a folyamatot.

    Amikor az Adatok importálása betölti az adatokat a tervezőbe, az egyes oszlopok adattípusát a benne található értékek alapján, numerikus vagy kategorikus értékek alapján következteti.

    Ha élőfej van jelen, a rendszer a kimeneti adatkészlet oszlopainak elnevezésére használja a fejlécet.

    Ha nincsenek meglévő oszlopfejlécek az adatokban, a rendszer új oszlopneveket hoz létre col1, col2 formátumban,... , coln*.

Results (Eredmények)

Amikor az importálás befejeződött, kattintson a jobb gombbal a kimeneti adatkészletre, és válassza a Vizualizáció lehetőséget annak megtekintéséhez, hogy az adatok importálása sikeresen megtörtént-e.

Ha a folyamat minden futtatásakor új adatkészlet importálása helyett újra szeretné menteni az adatokat, válassza az adathalmaz regisztrálása ikont az összetevő jobb oldali paneljén, a Kimenetek+naplók lapon. Válasszon egy nevet az adathalmaznak. A mentett adatkészlet megőrzi az adatokat a mentés időpontjában. Az adathalmaz nem frissül a folyamat újrafuttatásakor, még akkor sem, ha a folyamat adathalmaza megváltozik. Ez hasznos lehet az adatok pillanatképeinek készítéséhez.

Az adatok importálása után előfordulhat, hogy további előkészületekre van szükség a modellezéshez és az elemzéshez:

Korlátozások

Az adattár-hozzáférés korlátozása miatt, ha a következtetési folyamat tartalmazza az Adatok importálása összetevőt, akkor a rendszer automatikusan eltávolítja azt a valós idejű végpontra való üzembe helyezéskor.

Következő lépések

Tekintse meg az Azure Machine Learning számára elérhető összetevőket .