Gyorsútmutató: Adat-előállító létrehozása az Azure Data Factory felhasználói felületén

a következőkre vonatkozik: Az Azure szinapszis Analytics Azure Data Factory

Ez a rövid útmutató ismerteti, hogyan használható az Azure Data Factory felhasználói felülete egy adat-előállító létrehozásához és monitorozásához. Az adat-előállítóban létrehozott folyamat adatokat másol az Azure-blobtároló egyik mappájából egy másikba. Az adatok átalakításával kapcsolatos Azure Data Factory lásd: Adatfolyam leképezése.

Megjegyzés

Ha még csak ismerkedik az Azure Data Factory szolgáltatással, a gyors útmutató elvégzése előtt tekintse meg a következő cikket: Bevezetés az Azure Data Factory használatába.

Előfeltételek

Azure-előfizetés

Ha még nincs Azure-előfizetése, kezdés előtt hozzon létre egy ingyenes fiókot.

Azure-szerepkörök

Data Factory-példányok létrehozásához az Azure-ba történő bejelentkezéshez használt felhasználói fióknak a közreműködő vagy tulajdonos szerepkör tagjának, vagy az Azure-előfizetés rendszergazdájának kell lennie. Az előfizetéshez tartozó engedélyek megtekintéséhez válassza a Azure Portal lehetőséget,válassza ki a felhasználónevét a jobb felső sarokban, válassza a "..." ikont további beállításokért, majd válassza a Saját engedélyek lehetőséget. Ha több előfizetéshez is rendelkezik hozzáféréssel, válassza ki a megfelelő előfizetést.

A Data Factory gyermekerőforrásai – beleértve az adatkészletek, társított szolgáltatások, folyamatok, eseményindítók és integrációs modulok – létrehozására és kezelésére az alábbi követelmények vonatkoznak:

  • A gyermekerőforrások létrehozásához és kezeléséhez Azure Portal erőforráscsoport szintjén vagy magasabb Data Factory közreműködői szerepkörhöz kell tartozni.
  • A gyermekerőforrások PowerShell-lel vagy az SDK-val való létrehozásához és kezeléséhez a közreműködő szerepkör is elegendő az erőforráscsoport szintjén vagy felette.

Ha szeretne példautasításokat látni arra, hogyan kell egy felhasználót a szerepkörhöz adni, olvassa el a Szerepkörök hozzáadása című cikket.

További információkért tekintse meg a következő cikkeket:

Azure Storage-fiók

Ebben a rövid útmutatóban egy általános célú Azure Storage-fiókot (különösen a Blob Storage-et) használ forrás- és céladattárként. Ha még nincs általános célú Azure Storage-fiókja, tekintse meg a Tárfiók létrehozása a fiók létrehozásához.

A tárfiók nevének lekért neve

Ehhez a rövid útmutatóhoz szüksége lesz az Azure Storage-fiók nevére. Az alábbi eljárás a tárfiók nevének lekért lépéseit tartalmazza:

  1. Egy webböngészőben a böngészőben Azure Portal azure-beli felhasználónevével és jelszavával jelentkezzen be.
  2. A Azure Portal válassza a Minden szolgáltatás, majd a Tárfiókok > lehetőséget. A Storage-fiókokat bármely oldalon megkeresheti és kiválaszthatja.
  3. A Tárfiókok lapon szűrjön a tárfiókra (ha szükséges), majd válassza ki a tárfiókot.

A Storage-fiókokat bármely oldalon megkeresheti és kiválaszthatja.

Blobtároló létrehozása

Ebben a szakaszban egy adftutorial nevű blobtárolót hoz létre az Azure Blob Storage-ban.

  1. A tárfiók oldalán válassza az Áttekintés > tárolók lehetőséget.

  2. A <Account name> - Tárolók lap eszköztárán válassza a Tároló lehetőséget.

  3. Az Új tároló párbeszédablakban adja meg az adftutorial nevet, és kattintson az OK gombra. A <Account name> - Tárolók lap frissül, és tartalmazza az adftutorial adatokat a tárolók listájában.

    Tárolók listája

Bemeneti mappa és fájl hozzáadása a blobtárolóhoz

Ebben a szakaszban létrehoz egy input nevű mappát a létrehozott tárolóban, majd feltölt egy mintafájlt a bemeneti mappába. Mielőtt hozzákezd, nyisson meg egy szövegszerkesztőt, például a Jegyzettömböt, és hozzon létre egyemp.txtnevű fájlt a következő tartalommal:

John, Doe
Jane, Doe

Mentse a fájlt a C:\ADFv2QuickStartPSH mappába. (Ha a mappa még nem létezik, hozza létre.) Ezután térjen vissza a Azure Portal, és kövesse az alábbi lépéseket:

  1. A tárolók frissített listájából válassza ki az <Account name> - adftutorial adatokat azon a Tárolók lapon, ahol kilépett.

    1. Ha bezárta az ablakot, vagy egy másik oldalra ment, jelentkezzen be Azure Portal lapra.
    2. A Azure Portal válassza a Minden szolgáltatás, majd a Tárfiókok > lehetőséget. A Storage-fiókokat bármely oldalon megkeresheti és kiválaszthatja.
    3. Válassza ki a tárfiókját, majd válassza a Tárolók > adftutorial lehetőséget.
  2. Az adftutorial tárolólap eszköztárán válassza a Feltöltés lehetőséget.

  3. A Blob feltöltése lapon válassza a Fájlok mezőt, majd keresse meg és válassza ki aemp.txt fájlt.

  4. Bontsa ki a Speciális fejlécet. Az oldal most a következő módon jelenik meg:

    Kattintás a Speciális hivatkozásra

  5. A Feltöltés mappába mezőbe írja be a következőt: .

  6. Kattintson a Feltöltés gombra. A listában meg kell jelennie az emp.txt fájlnak és a feltöltés állapotának.

  7. A Bezárás ikonra (X) kattintva zárja be a Blob feltöltése lapot.

Ne nyissa meg az adftutorial tárolóoldalt. A segítségével ellenőrizheti ennek a rövid útmutatónak az eredményét.

Videó

A következő videó megtekintése segíthet az Azure Data Factory felhasználói felületének megismerésében:

Adat-előállító létrehozása

  1. Indítsa el a Microsoft Edge vagy a Google Chrome böngészőt. A Data Factory felhasználói felületének használata jelenleg csak a Microsoft Edge-ben és a Google Chrome-ban támogatott.

  2. Nyissa meg az Azure Portal.

  3. Az Azure Portal menüjében válassza az Erőforrás létrehozása elemet.

  4. Válassza az Integráció lehetőséget, majd a Data Factory.

    Data Factory az Új panelen.

  5. A Create Data Factory (Adat-előállító létrehozása) lap Basics (Alapvető beállítások) lapján válassza ki azt az Azure-előfizetést, amelyben létre szeretné hozni az adat-előállítót.

  6. Erőforráscsoport: hajtsa végre a következő lépések egyikét:

    a. Válasszon ki egy meglévő erőforráscsoportot a legördülő listából.

    b. Válassza az Új létrehozása lehetőséget, és adja meg egy új erőforráscsoport nevét.

    Az erőforráscsoportokkal kapcsolatos információkért tekintse meg az Erőforráscsoportok használata az Azure-erőforrások kezeléséhez ismertető cikket.

  7. A Region (Régió) mezőben válassza ki az adat-előállító helyét.

    A listában csak a Data Factory által támogatott helyek és az Azure Data Factory-metaadatok tárolási helye jelenik meg. A társított adattárak (például az Azure Storage és Azure SQL Database) és a számítási erőforrások (Azure HDInsight) Data Factory más régiókban is futtathatók.

  8. A Név alatt adja meg az ADFTutorialDataFactory nevet. Az Azure data factory nevének globálisan egyedinek kell lennie. Ha a következő hibaüzenetet látja, módosítsa az adat-előállító nevét (például saját neve < > ADFTutorialDataFactory), majd próbálkozzon újra a létrehozással. A Data Factory-összetevők elnevezési szabályait a Data Factory elnevezési szabályait ismertető cikkben találja.

    Új data factory hibaüzenet duplikált név esetén.

  9. A Verzió résznél válassza a V2 értéket.

  10. Válassza a Tovább: Git-konfiguráció lehetőséget, majd jelölje be a Git konfigurálása később jelölőnégyzetet.

  11. Válassza az Áttekintés + létrehozás lehetőséget, majd az érvényesítés után válassza a Létrehozás lehetőséget. A létrehozás befejezése után válassza az Ugrás az erőforráshoz lehetőséget a Data Factory lapra.

  12. Válassza az Open Azure Data Factory Studio (Megnyitás) Azure Data Factory a felhasználói felületi (UI) alkalmazás külön böngészőlapon való megnyitásához.

    Az alkalmazás kezdőlapja Azure Data Factory Open Azure Data Factory Studio csempével.

    Megjegyzés

    Ha azt látja, hogy a webböngésző elakadt az "Authorizing" (Hitelesítő) helyen, törölje a Block third-party cookies and site data (Külső cookie-k és webhelyadatok blokkolása) jelölőnégyzet jelölését. Vagy maradjon kiválasztva, hozzon létre egy kivételt a login.microsoftonline.com, majd próbálja meg újra megnyitni az alkalmazást.

Társított szolgáltatás létrehozása

Ebben az eljárásban létrehoz egy összekapcsolt szolgáltatást, amely az Azure Storage-fiókját az adat-előállítóhoz csatolja. A társított szolgáltatás azon kapcsolatadatokkal rendelkezik, amelyeket a Data Factory szolgáltatás használ futtatáskor a hozzá való kapcsolódáshoz.

  1. A felhasználói Azure Data Factory nyissa meg a Kezelés lapot a bal oldali panelen.

  2. Új csatolt szolgáltatás létrehozásához a Csatolt szolgáltatások lapon válassza az +Új lehetőséget.

    Új csatolt szolgáltatás.

  3. Az Új társított szolgáltatás lapon válassza az Azure Blob Storage lehetőséget, majd kattintson a Folytatás gombra.

  4. Az Új csatolt szolgáltatás (Azure Blob Storage) lapon kövesse az alábbi lépéseket:

    a. A Név mezőbe írja be az AzureStorageLinkedService nevet.

    b. A Storage neve mezőben válassza ki az Azure-beli Storage nevét.

    c. Kattintson a Kapcsolat tesztelése elemre annak ellenőrzéséhez, hogy a Data Factory szolgáltatás kapcsolódik-e a tárfiókhoz.

    d. A csatolt szolgáltatás mentéshez válassza a Létrehozás lehetőséget.

    Csatolt szolgáltatás.

Adatkészletek létrehozása

A feladat részeként két adatkészletet hoz létre, az InputDataset és az OutputDataset adatkészletet. Ezek az adatkészletek AzureBlob típusúak. Az előző szakaszban létrehozott Azure Storage-beli társított szolgáltatásra hivatkoznak.

A bemeneti adatkészlet a bemeneti mappában lévő forrásadatokat jelenti. A bemeneti adatkészlet definíciójában adhatja meg a forrásadatokat tartalmazó blobtároló (adftutorial), mappa (input) és fájl (emp.txt) nevét.

A kimeneti adatkészlet a célhelyre másolt adatokat jelenti. A kimeneti adatkészlet definíciójában adhatja meg annak a blobtárolónak (adftutorial), mappának (output) és fájlnak a nevét, amelybe az adatok át lesznek másolva. Egy folyamat minden egyes futtatásához egyedi azonosító tartozik. Ehhez az azonosítóhoz a RunId rendszerváltozó használatával férhet hozzá. A rendszer a folyamatfuttatási azonosító alapján dinamikusan kiértékeli a kimeneti fájl nevét.

A csatolt szolgáltatás beállításaiban a forrásadatokat tartalmazó Azure Storage-fiókot adott meg. A forrásadatkészlet beállításainál megadja a forrásadatok pontos helyét (blobtároló, mappa és fájl). A fogadó adatkészlet beállításainál megadja az adatok másolásának célhelyét (blobtároló, mappa és fájl).

  1. A bal oldali panelen válassza a Szerző lapot.

  2. Válassza a + (plusz) gombot, majd az Adatkészlet lehetőséget.

    Menü adatkészlet létrehozásához.

  3. Az Új adatkészlet lapon válassza az Azure Blob Storage, majd a Folytatás lehetőséget.

  4. A Formátum kiválasztása lapon válassza ki az adatok formátumtípusát, majd válassza a Folytatás lehetőséget. Ebben az esetben válassza a Bináris lehetőséget, ha a fájlokat a tartalom nélkül másolja.

    Válassza a formátum lehetőséget.

  5. A Tulajdonságok beállítása lapon kövesse az alábbi lépéseket:

    a. A Név alatt adja meg az InputDataset nevet.

    b. Társított szolgáltatás: válassza az AzureStorageLinkedService értéket.

    c. Fájl elérési útja: kattintson a Tallózás gombra.

    d. A Choose a file or folder (Fájl vagy mappa kiválasztása) ablakban keresse meg az input mappát az adftutorial tárolóban, válassza ki aemp.txt fájlt, majd kattintson az OK gombra.

    e. Válassza az OK lehetőséget.

    Állítsa be az InputDataset tulajdonságát.

  6. A kimeneti adatkészlet létrehozásához ismételje meg ezeket a lépéseket:

    a. Válassza a + (plusz) gombot, majd az Adatkészlet lehetőséget.

    b. Az Új adatkészlet lapon válassza az Azure Blob Storage, majd a Folytatás lehetőséget.

    c. A Formátum kiválasztása lapon válassza ki az adatok formátumtípusát, majd válassza a Folytatás lehetőséget.

    d. A Tulajdonságok beállítása lapon adja meg az OutputDataset nevet. Válassza az AzureStorageLinkedService lehetőséget csatolt szolgáltatásként.

    e. A Fájl elérési útja alatt adja meg az adftutorial/output útvonalat. Ha a kimeneti mappa nem létezik, a másolási tevékenység hozza létre futásidőben.

    f. Válassza az OK lehetőséget.

    Állítsa be az OutputDataset tulajdonságát.

Folyamat létrehozása

A feladat részeként létrehozza és megerősíti azt a másolási tevékenységgel rendelkező folyamatot, amely a bemeneti és a kimeneti adatkészletet használja. A másolási tevékenység adatokat másol a bemeneti adatkészlet beállításaiban megadott fájlból a kimeneti adatkészlet beállításaiban megadott fájlba. Ha a bemeneti adatkészlet csak egy mappát ad meg (de fájlnevet nem), a másolási tevékenység a forrásmappában található összes fájlt átmásolja a célhelyre.

  1. Válassza a + (plusz) gombot, majd a Pipeline (Folyamat) lehetőséget.

  2. A Tulajdonságok alatti Általános panelen a Név beállításnál adja meg a CopyPipeline értéket. Ezután csukja össze a panelt a jobb felső sarokban található Tulajdonságok ikonra kattintva.

  3. A Tevékenységek eszközkészletben bontsa ki az Áthelyezés és átalakítás elemet. Húzza a Adatok másolása tevékenységet a Tevékenységek eszközkészletből a folyamat tervezőfelületére. A Tevékenységek eszközkészletben kereshet is az egyes tevékenységek között. Adja meg a CopyFromBlobToBlob értéket a Név mezőben.

    Adatmásoló tevékenység létrehozása.

  4. Váltson a Forrás lapra a másolási tevékenység beállításainál, és válassza az InputDataset lehetőséget a Forrásadatkészlet mezőben.

  5. Váltson a Fogadó lapra a másolási tevékenység beállításainál, és válassza az OutputDataset lehetőséget a Fogadó adatkészlet mezőben.

  6. A folyamat beállításainak érvényesítéséhez a vászon fölött kattintson az Érvényesítés elemre a folyamat eszköztárán. Győződjön meg róla, hogy a folyamat érvényesítése sikerült. Az érvényesítési kimenetet a jobb felső sarokban található Érvényesítés gombra kattintva zárja be.

    Folyamat ellenőrzése.

Hibakeresés a folyamaton

Ebben a lépésben elvégzi a folyamat hibakeresését a Data Factoryban történő üzembe helyezés előtt.

  1. A vászon fölött a folyamat eszköztárán kattintson a Hibakeresés lehetőségre egy tesztfuttatás indításához.

  2. Győződjön meg arról, hogy látja a folyamatfuttatás állapotát a folyamat beállításainak Kimenet lapjának alsó részén.

    Folyamatfutat kimenete

  3. Győződjön meg róla, hogy a kimeneti fájl látható az adftutorial tároló output mappájában. Ha a kimeneti mappa nem létezik, a Data Factory automatikusan létrehozza.

A folyamat manuális aktiválása

A feladat részeként entitásokat (társított szolgáltatásokat, adatkészleteket és folyamatokat) helyez üzembe az Azure Data Factoryban. Ezután manuálisan fogja aktiválni a folyamat futtatását.

  1. A folyamat aktiválása előtt közzé kell tennie az entitásokat a Data Factory számára. A közzétételhez válassza felül az Összes közzététele lehetőséget.

    Az összes közzététele.

  2. A folyamat manuális aktiváláshoz válassza az Eseményindító hozzáadása lehetőséget a folyamat eszköztárán, majd válassza az Aktiválás most lehetőséget. A Folyamatfuttassa oldalon kattintson az OK gombra.

A folyamat figyelése

  1. Váltson a bal oldali Monitorozás lapra. A lista frissítéséhez kattintson a Frissítés elemre.

    A folyamatfutnak monitorozásának lapja

  2. Válassza a CopyPipeline hivatkozást. Ezen az oldalon láthatja a másolási tevékenység futtatásának állapotát.

  3. A másolási művelet részleteinek megtekintéséhez kattintson a Részletek (szemüveget tartalmazó kép) hivatkozásra. A tulajdonságokkal kapcsolatos részletekért tekintse meg a másolási tevékenység áttekintését.

    Másolási művelet részletei.

  4. Győződjön meg arról, hogy megjelenik egy új fájl az output mappában.

  5. A Minden folyamatfuttason hivatkozásra kattintva válthat vissza a Tevékenységfuttasonok nézetről a Folyamatfut futtatás nézetre.

A folyamat aktiválása ütemezés szerint

Az oktatóanyagnak ez a feladata nem kötelező. A folyamat rendszeres időközönként (például óránként, naponta) történő futtatásához létrehozhat egy ütemező eseményindítót. A feladat részeként egy olyan eseményindítót fog létrehozni, amely a megadott záró dátumig és időpontig percenként fut.

  1. Váltson a Szerző lapra.

  2. Ugrás a folyamatra, válassza az Eseményindító hozzáadása lehetőséget a folyamat eszköztárán, majd válassza az Új/Szerkesztés lehetőséget.

  3. Az Eseményindítók hozzáadása lapon kattintson az Eseményindító kiválasztása, majd pedig az Új elemre.

  4. Az Új eseményindító lap Záró lapján válassza a Dátumon lehetőséget, adjon meg egy záró időpontot néhány perccel az aktuális időpont után, majd kattintson az OK gombra.

    Minden egyes folyamatfuttatásnak van bizonyos költségvonzata, ezért a befejezés időpontját csak néhány perccel a kezdés időpontja utánra állítsa be. Győződjön meg arról, hogy a két időponthoz tartozó dátum megegyezik. Győződjön meg azonban arról, hogy elegendő idő van a folyamat futtatására a közzététel és a záró időpont között. Az eseményindító csak a Data Factoryban való közzététel után lesz aktív, a felhasználói felületen történő mentéskor még nem.

  5. Az Új eseményindító lapon jelölje be az Aktiválva jelölőnégyzetet, majd kattintson az OK gombra.

    Új eseményindító-beállítás.

  6. Tekintse át a figyelmeztető üzenetet, és kattintson az OK gombra.

  7. Válassza az Összes közzététele lehetőséget a módosítások közzétételéhez a Data Factory.

  8. Váltson a bal oldali Monitorozás lapra. A lista frissítéséhez kattintson a Frissítés gombra. Láthatja, hogy a folyamat percenként fut a közzététel időpontja és a befejezés időpontja között.

    Figyelje meg a TRIGGERED BY oszlop értékeit. A manuális eseményindító-futtatás egy korábban elvégzett lépésből (Aktiválás most) származik.

  9. Váltson az Eseményindító-futtatás nézetre.

  10. Győződjön meg arról, hogy a megadott befejezési dátumig és időpontig futtatott minden folyamatfuttatáshoz létrejött egy kimeneti fájl az output mappában.

Következő lépések

A példában szereplő folyamat adatokat másol az egyik helyről egy másikra az Azure Blob Storage-ban. A Data Factory más forgatókönyvekben való használatát ismertető további információért tekintse meg az oktatóanyagokat.