Kapcsolódás az adatokhoz az Azure Machine Learning stúdióval

Ebből a cikkből megtudhatja, hogyan férhet hozzá az adatokhoz az Azure Machine Tanulás studióval. Csatlakozás az Azure-beli storage-szolgáltatásokban tárolt adatokhoz Az Azure Machine Tanulás adattárakat, majd az ml-munkafolyamatokban lévő feladatokhoz csomagolja ezeket az adatokat az Azure Machine Tanulás adatkészletekkel.

Az alábbi táblázat az adattárak és adathalmazok előnyeit határozza meg és összegzi.

Objektum Leírás Előnyök
Adattárak Biztonságosan csatlakozhat a tárolási szolgáltatáshoz az Azure-ban a kapcsolati adatok, például az előfizetés azonosítójának és a tokenek engedélyezésének a munkaterülethez társított Key Vaultban való tárolásával Mivel az adatok biztonságosan tárolhatók,

  • Ne tegye kockára a hitelesítési hitelesítő adatokat vagy az eredeti adatforrásokat.
  • Nem kell többé keményen kódolni őket a szkriptekben.
  • Adathalmazok Az adathalmazok létrehozásával az adatforrások helyére mutató hivatkozásokat és a metaadatok másolatait is létrehozza. Adathalmazokkal

  • Adatok elérése a modell betanítása során.
  • Adatok megosztása és együttműködés más felhasználókkal.
  • Használjon nyílt forráskódú kódtárakat, például a pandast az adatfeltáráshoz.
  • Mivel az adathalmazok lazán vannak kiértékelve, és az adatok a meglévő helyen maradnak,

  • Őrizze meg az adatok egyetlen másolatát a tárban.
  • Nincs extra tárolási költség
  • Ne kockáztassák az eredeti adatforrások véletlen módosítását.
  • Az ml-munkafolyamat teljesítményének javítása.
  • Az adattárak és adathalmazok az Azure Machine Tanulás általános adatelérési munkafolyamatában való helyének megismeréséhez tekintse meg a biztonságosan elérhető adatokról szóló cikket.

    Az első kódért tekintse meg az alábbi cikkeket az Azure Machine Tanulás Python SDK használatához:

    Előfeltételek

    • Azure-előfizetés. Ha még nincs Azure-előfizetése, kezdés előtt hozzon létre egy ingyenes fiókot. Próbálja ki az Azure Machine Tanulás ingyenes vagy fizetős verzióját.

    • Hozzáférés az Azure Machine Tanulás Studióhoz.

    • Egy Azure Machine Learning-munkaterület. Munkaterületi erőforrások létrehozása.

      • Munkaterület létrehozásakor a rendszer automatikusan regisztrál egy Azure-blobtárolót és egy Azure-fájlmegosztást adattárként a munkaterületen. Elnevezték workspaceblobstore őket, és workspacefilestoremás néven. Ha a blobtároló elegendő az igényeinek, az workspaceblobstore alapértelmezett adattárként van beállítva, és már konfigurálva van használatra. Ellenkező esetben az Azure-ban támogatott tárfiókra van szükség.

    Create datastores

    Ezekből az Azure Storage-megoldásokból hozhat létre adattárakat. A nem támogatott tárolási megoldások esetében és az ml-kísérletek során az adatforgalom költségeinek mentéséhez át kell helyeznie az adatokat egy támogatott Azure Storage-megoldásba. További információ az adattárakról.

    Létrehozhat adattárakat hitelesítő adatokon alapuló hozzáféréssel vagy identitásalapú hozzáféréssel.

    Hozzon létre egy új adattárat néhány lépésben az Azure Machine Tanulás studióval.

    Fontos

    Ha az adattároló-fiók virtuális hálózaton található, további konfigurációs lépésekre van szükség annak biztosításához, hogy a stúdió hozzáférhessen az adatokhoz. A megfelelő konfigurációs lépések alkalmazásának biztosításához tekintse meg a hálózatelkülönítés és az adatvédelem című témakört.

    1. Jelentkezzen be az Azure Machine Tanulás Studióba.
    2. Válassza az Adatok lehetőséget a bal oldali panelEn az Eszközök csoportban.
    3. A tetején válassza az Adattárak lehetőséget.
    4. Válassza a +Létrehozás lehetőséget.
    5. Töltse ki az űrlapot egy új adattár létrehozásához és regisztrálásához. Az űrlap intelligensen frissíti magát az Azure Storage-típus és a hitelesítési típus kiválasztása alapján. Az űrlap kitöltéséhez szükséges hitelesítési hitelesítő adatok megkereséséhez tekintse meg a tárhozzáférés és az engedélyek szakaszt .

    Az alábbi példa bemutatja, hogyan néz ki az űrlap egy Azure Blob-adattár létrehozásakor:

    Form for a new datastore

    Adategységek létrehozása

    Miután létrehozott egy adattárat, hozzon létre egy adatkészletet az adatok kezeléséhez. Az adathalmazok egy lazán kiértékelt hasznosítható objektumba csomagolják az adatokat gépi tanulási feladatokhoz, például a betanításhoz. További információ az adathalmazokról.

    Kétféle adathalmaz létezik: FileDataset és TabularDataset. A FileDatasets egy vagy több fájlra vagy nyilvános URL-re mutató hivatkozásokat hoz létre. Míg a TabularDatasets táblázatos formátumban jeleníti meg az adatokat. TabularDatasets -eket .csv, .tsv, .parquet, .jsonl fájlokból és SQL-lekérdezési eredményekből hozhat létre.

    Az alábbi lépések bemutatják, hogyan hozhat létre adatkészletet az Azure Machine Tanulás Studióban.

    Megjegyzés:

    Az Azure Machine Tanulás Studióban létrehozott adathalmazok automatikusan regisztrálva lesznek a munkaterületen.

    1. Navigálás az Azure Machine Tanulás Studióba

    2. A bal oldali navigációs Eszközök területén válassza az Adatok lehetőséget. Az Adategységek lapon válassza a Létrehozás lehetőséget This screenshot highlights Create in the Data assets tab.

    3. Adjon nevet és opcionális leírást az adategységnek. Ezután a Típus csoportban válasszon egy adathalmaztípust, fájl vagy táblázatos típust. This screenshot shows set the name, description, and type of the data asset.

    4. Van néhány lehetősége az adatforrásra. Ha az adatait már az Azure-ban tárolja, válassza a "Az Azure Storage-ból" lehetőséget. Ha adatokat szeretne feltölteni a helyi meghajtóról, válassza a "Helyi fájlokból" lehetőséget. Ha az adatokat nyilvános webes helyen tárolja, válassza a "Webes fájlokból" lehetőséget. Adategységet SQL-adatbázisból vagy Azure Open Dataset-ből is létrehozhat.

    5. A fájlkijelölési lépésnél válassza ki, hogy hol szeretné tárolni az adatokat az Azure-ban, és milyen adatfájlokat szeretne használni.

      1. Engedélyezze az ellenőrzés kihagyását, ha az adatok virtuális hálózaton találhatóak. További információ a virtuális hálózatok elkülönítéséről és az adatvédelemről.
    6. Az adategység adatelemzési beállításainak és sémájának beállításához kövesse az alábbi lépéseket. A beállítások fájltípus alapján lesznek előre kitöltve, és az adategység létrehozása előtt további beállításokat is konfigurálhat.

    7. Miután elérte a Véleményezés lépést, kattintson a Létrehozás gombra az utolsó oldalon

    Adatok előnézete és profilja

    Az adathalmaz létrehozása után ellenőrizze, hogy megtekintheti-e az előnézetet és a profilt a stúdióban az alábbi lépésekkel:

    1. Bejelentkezés az Azure Machine Tanulás studióba
    2. A bal oldali navigációs Eszközök területén válassza az Adatok lehetőséget. Screenshot highlights Create in the Data assets tab.
    3. Válassza ki a megtekinteni kívánt adathalmaz nevét.
    4. Válassza a Felfedezés lapot.
    5. Válassza az Előnézet lapot. Screenshot shows a preview of a dataset.
    6. Válassza a Profil lapot. Screenshot shows dataset column metadata in the Profile tab.

    Az adatkészlet összesítő statisztikáinak széles skáláját érheti el annak ellenőrzéséhez, hogy az adatkészlet ml-kész-e. A nem numerikus oszlopok esetében csak olyan alapszintű statisztikákat tartalmaznak, mint a min, a max és a hibaszám. Numerikus oszlopok esetén a statisztikai pillanatokat és a becsült kvantititásokat is áttekintheti.

    Az Azure Machine Tanulás adatkészlet adatprofilja a következőket tartalmazza:

    Megjegyzés:

    Az irreleváns típusok esetében üres bejegyzések jelennek meg.

    Statisztikai adatok Leírás
    Funkció Az összegzett oszlop neve.
    Profil In-line vizualizáció a következtetett típus alapján. A sztringek, a logikai értékek és a dátumok például értékszámokkal, a decimálisok (numerikusok) pedig hozzávetőleges hisztogramokkal rendelkeznek. Ez lehetővé teszi az adatok elosztásának gyors megértését.
    Típuseloszlás Egy oszlopon belüli típusok soron belüli értékének száma. A null értékek a saját típusuk, ezért ez a vizualizáció hasznos a páratlan vagy hiányzó értékek észleléséhez.
    Típus Az oszlop késleltetett típusa. A lehetséges értékek a következők: sztringek, logikai értékek, dátumok és decimálisok.
    Min Az oszlop minimális értéke. Üres bejegyzések jelennek meg olyan szolgáltatások esetében, amelyek típusa nem tartalmaz eredendő rendezést (például logikai értékeket).
    Max Az oszlop maximális értéke.
    Gróf Az oszlop hiányzó és nem hiányzó bejegyzéseinek teljes száma.
    Nem hiányzik a szám A nem hiányzó bejegyzések száma az oszlopban. Az üres sztringek és hibák értékekként lesznek kezelve, így nem járulnak hozzá a "nem hiányzó számhoz".
    Kvantilisek Az adatok eloszlásának érzékelése érdekében az egyes kvantílusok becsült értékei.
    Középérték Az oszlop számtani középértéke vagy átlaga.
    Szórás Az oszlop adatainak eloszlásának vagy variációjának mértéke.
    Eltérés Annak mértéke, hogy az oszlop adatai milyen messze oszlanak el az átlagos értékétől.
    Ferdeség Annak mértéke, hogy az oszlop adatai mennyire különböznek a normál eloszlástól.
    Kurtózis Az oszlop adatainak a normál eloszláshoz viszonyított erős farkának mérése.

    Tárhozzáférés és engedélyek

    Ahhoz, hogy biztonságosan csatlakozzon az Azure Storage szolgáltatáshoz, az Azure Machine Tanulás engedélyre van szüksége a megfelelő adattár eléréséhez. Ez a hozzáférés az adattár regisztrálásához használt hitelesítési hitelesítő adatoktól függ.

    Virtuális hálózat

    Ha az adattároló-fiók virtuális hálózaton található, további konfigurációs lépésekre van szükség annak biztosításához, hogy az Azure Machine Tanulás hozzáférhessen az adataihoz. Az adattár létrehozása és regisztrálása során az Azure Machine Tanulás Studio használata virtuális hálózatban című cikkben találja meg a megfelelő konfigurációs lépéseket.

    Hozzáférés-ellenőrzés

    Figyelmeztetés

    A tárfiókokhoz való bérlőközi hozzáférés nem támogatott. Ha a forgatókönyvhöz bérlők közötti hozzáférésre van szükség, forduljon az Azure Machine Tanulás Adattámogatási csapat aliasához amldatasupport@microsoft.com egy egyéni kódmegoldással kapcsolatos segítségért.

    A kezdeti adattár-létrehozási és -regisztrációs folyamat részeként az Azure Machine Tanulás automatikusan ellenőrzi, hogy a mögöttes tárolási szolgáltatás létezik-e, és hogy a felhasználó által megadott egyszerű felhasználó (felhasználónév, szolgáltatásnév vagy SAS-jogkivonat) rendelkezik-e hozzáféréssel a megadott tárolóhoz.

    Az adattár létrehozása után ez az ellenőrzés csak olyan metódusok esetében történik, amelyek hozzáférést igényelnek a mögöttes tárolóhoz, és nem minden alkalommal, amikor az adattár-objektumokat lekérik. Az érvényesítés például akkor történik, ha fájlokat szeretne letölteni az adattárból; de ha csak módosítani szeretné az alapértelmezett adattárat, akkor az ellenőrzés nem történik meg.

    A mögöttes tárolási szolgáltatáshoz való hozzáférés hitelesítéséhez megadhatja a fiókkulcsot, a közös hozzáférésű jogosultságkódokat (SAS)-jogkivonatokat vagy a szolgáltatásnevet a létrehozni kívánt adattártípusnak megfelelően. A tárolási típus mátrixa felsorolja az egyes adattártípusoknak megfelelő támogatott hitelesítési típusokat.

    A fiókkulcs, az SAS-jogkivonat és a szolgáltatásnév adatai az Azure Portalon találhatók.

    • Ha fiókkulcsot vagy SAS-jogkivonatot szeretne használni a hitelesítéshez, válassza a bal oldali panelen a Tárfiókok lehetőséget, és válassza ki a regisztrálni kívánt tárfiókot.

      • Az Áttekintés lap olyan információkat tartalmaz, mint a fiók neve, a tároló és a fájlmegosztás neve.
        1. Fiókkulcsok esetén nyissa meg az Access-kulcsokat a Gépház panelen.
        2. SAS-jogkivonatok esetén nyissa meg a megosztott hozzáférésű jogosultságkódokat a Gépház panelen.
    • Ha szolgáltatásnevet szeretne használni a hitelesítéshez, lépjen a Alkalmazásregisztrációk, és válassza ki a használni kívánt alkalmazást.

      • A megfelelő áttekintési oldal olyan szükséges információkat tartalmaz, mint a bérlőazonosító és az ügyfélazonosító.

    Fontos

    • Ha módosítania kell egy Azure Storage-fiók (fiókkulcs vagy SAS-jogkivonat) hozzáférési kulcsait, mindenképpen szinkronizálja az új hitelesítő adatokat a munkaterületével és a hozzá csatlakoztatott adattárakkal. Megtudhatja, hogyan szinkronizálhatja frissített hitelesítő adatait.

    • Ha megszüntet egy azonos nevű adattár regisztrációját és újraregisztrálását, és az nem sikerül, előfordulhat, hogy a munkaterület Azure Key Vaultjában nincs engedélyezve a helyreállítható törlés. Alapértelmezés szerint a helyreállítható törlés engedélyezve van a munkaterület által létrehozott Kulcstartó-példányhoz, de lehet, hogy nem lesz engedélyezve, ha meglévő kulcstartót használt, vagy 2020 októbere előtt létrehozott munkaterületet. A helyreállítható törlés engedélyezéséről további információt a Meglévő kulcstartó helyreállítható törlése funkciójának bekapcsolása című témakörben talál.

    Permissions

    Az Azure Blob-tároló és az Azure Data Lake Gen 2 Storage esetében győződjön meg arról, hogy a hitelesítési hitelesítő adatok rendelkeznek Storage Blob Data Reader-hozzáféréssel . További információ a Storage Blob-adatolvasóról. A fiók SAS-jogkivonata alapértelmezés szerint nem rendelkezik engedélyekkel.

    • Az adatolvasási hozzáféréshez a hitelesítési hitelesítő adatoknak rendelkezniük kell a tárolókhoz és objektumokhoz szükséges lista- és olvasási engedélyekkel.

    • Az adatírási hozzáféréshez írási és hozzáadási engedélyekre is szükség van.

    Betanítás adathalmazok használatával

    Az adathalmazokat gépi tanulási kísérletekben használhatja az ML-modellek betanításához. További információ az adathalmazok betanításairól.

    További lépések