Adatok biztonságos átalakítása adatfolyam-leképezés használatával

A KÖVETKEZŐKRE VONATKOZIK: Azure Data Factory Azure Synapse Analytics

Ha még csak ismerkedik az Azure Data Factory használatával, olvassa el az Azure Data Factory használatának első lépéseit ismertető cikket.

Ebben az oktatóanyagban az Data Factory felhasználói felület (UI) használatával fog létrehozni egy folyamatot, amely adatokat másol és alakít át egy Azure Data Lake Storage Gen2-forrásból Data Lake Storage Gen2-fogadóvá (mindkettő csak bizonyos hálózatokhoz engedélyezi a hozzáférést) a felügyelt Data Factory Virtual Network leképezési adatfolyamával. Az oktatóanyagban az adatok leképezési adatfolyam használatával való átalakításakor kiterjesztheti a konfigurációs mintát.

Az oktatóanyag során a következő lépéseket hajtja végre:

  • Adat-előállító létrehozása
  • Folyamat létrehozása adatfolyam-tevékenységgel.
  • Leképezési adatfolyam összeállítása négy átalakítással.
  • A folyamat próbafuttatása
  • Adatfolyam-tevékenység figyelése.

Előfeltételek

  • Azure-előfizetés. Ha nem rendelkezik Azure-előfizetéssel, mindössze néhány perc alatt létrehozhat egy ingyenes Azure-fiókot a virtuális gép létrehozásának megkezdése előtt.
  • Azure Storage-fiók. A Data Lake Storage forrás- és fogadóadattárként használható. Ha még nem rendelkezik tárfiókkal, tekintse meg az Azure Storage-fiók létrehozásának lépéseit ismertető cikket. Győződjön meg arról, hogy a tárfiók csak a kiválasztott hálózatokról engedélyezi a hozzáférést.

Az oktatóanyagban átalakítunk egy fájlt moviesDB.csv, amely ezen a GitHub található. A fájlnak az GitHub való lekéréséhez másolja a tartalmát egy ön által választott szövegszerkesztőbe, és mentse helyileg .csv fájlként. A fájl tárfiókba való feltöltésével lásd: Blobok feltöltése a Azure Portal. A példák egy sample-data nevű tárolóra hivatkoznak.

Adat-előállító létrehozása

Ebben a lépésben létrehoz egy adat-előállítót, és megnyitja a Data Factory felhasználói felületét egy folyamat létrehozásához az adat-előállítóban.

  1. Nyissa meg Microsoft Edge vagy a Google Chrome böngészőt. Jelenleg csak a Microsoft Edge és a Google Chrome böngészők támogatják a Data Factory felhasználói felületét.

  2. A bal oldali menüben válassza az Erőforrás létrehozása > Analytics-Data Factory. >

  3. Az Új adat-előállító lap Név mezőjében adja meg az ADFTutorialDataFactory értéket.

    Az adat-előállító nevének globálisan egyedinek kell lennie. Ha hibaüzenetet kap a névértékről, adjon meg egy másik nevet az adat-előállítónak (például sajátneveADFTutorialDataFactory). A Data Factory-összetevők elnevezési szabályait a Data Factory elnevezési szabályait ismertető cikkben találja.

  4. Válassza ki azt az Azure-előfizetést, amelyben az adat-előállítót létre szeretné hozni.

  5. Erőforráscsoport: hajtsa végre a következő lépések egyikét:

    • Válassza a Meglévő használata lehetőséget, majd válasszon ki egy meglévő erőforráscsoportot a legördülő listából.
    • Válassza az Új létrehozása lehetőséget, és adja meg egy erőforráscsoport nevét.

    Az erőforráscsoportokkal kapcsolatos információkért tekintse meg az Erőforráscsoportok használata az Azure-erőforrások kezeléséhez ismertető cikket.

  6. A Verzió résznél válassza a V2 értéket.

  7. A Hely területen válassza ki az adat-előállító helyét. A legördülő listában csak a támogatott helyek jelennek meg. Az adat-előállítók által használt adattárak (például azure Storage és Azure SQL Database) és számítási erőforrások (például Azure HDInsight) más régiókban is előfordulhatnak.

  8. Válassza a Létrehozás lehetőséget.

  9. A létrehozás befejezése után az értesítés megjelenik az Értesítési központban. Válassza az Erőforrás ugrás lehetőséget a Data Factory lapra.

  10. A Data Factory felhasználói felületének külön lapon történő elindításához válassza a Létrehozás és figyelés csempét.

Hozzon létre Azure IR felügyelt Data Factory Virtual Network

Ebben a lépésben létrehoz egy felügyelt Azure IR, Data Factory felügyelt Virtual Network.

  1. Az Data Factory portálon válassza a Kezelés lehetőséget, majd válassza az Új lehetőséget egy új Azure IR.

    Új alkalmazás létrehozását Azure IR.

  2. Az Integrációskörnyezet beállítása lapon a szükséges képességek alapján válassza ki, hogy milyen integrációskörnyezetet hozzon létre. Ebben az oktatóanyagban válassza az Azure, Saját üzemeltetett lehetőséget, majd kattintson a Folytatás gombra.

  3. Válassza az Azure lehetőséget, majd kattintson a Folytatás gombra egy Azure Integration Runtime létrehozásához.

    Képernyőkép egy új Azure IR.

  4. A Virtuális hálózat konfigurálása (előzetes verzió) alatt válassza az Engedélyezés lehetőséget.

    Új alkalmazás engedélyezését Azure IR.

  5. Válassza a Létrehozás lehetőséget.

Folyamat létrehozása adatfolyam-tevékenységgel

Ebben a lépésben egy adatfolyam-tevékenységet tartalmazó folyamatot fog létrehozni.

  1. A lap kezdőlapján válassza Azure Data Factory Vezénylés lehetőséget.

    Folyamat létrehozását bemutató képernyőkép.

  2. A folyamat tulajdonságok panelen adja meg a TransformMovies nevet a folyamat neveként.

  3. A Tevékenységek ablaktáblán bontsa ki az Áthelyezés és átalakítás gombra. Húzza a Data Flow tevékenységet a panelről a folyamatvászonra.

  4. Az Adatfolyam hozzáadása előugró ablakban válassza az Új adatfolyam létrehozása, majd az Adatleképezés Flow. Ha elkészült, kattintson az OK gombra.

    Képernyőkép az adatleképezési Flow.

  5. Az adatfolyamnak a Tulajdonságok panelen nevezze el a TransformMovies nevet.

  6. A folyamatvászon felső sávjában húzza az Adatok Flow hibakeresés csúszkát. A hibakeresési mód lehetővé teszi az átalakítási logika interaktív tesztelését egy élő Spark-fürtön. Az Flow-fürtök bemelegítése 5–7 percet is igénybe vegyen, és a felhasználóknak ajánlott először bekapcsolni a hibakeresést, ha adat- és Flow terveznek. További információ: Hibakeresési mód.

    Az Adatfolyam hibakeresési csúszkája képernyőképe.

Átalakítási logika összeállítása az adatfolyam-vásznon

Az adatfolyam létrehozása után a rendszer automatikusan az adatfolyamvászonra küldi. Ebben a lépésben egy adatfolyamot fog összeépíteni, amely a Data Lake Storage moviesDB.csv-ben található moviesDB.csv-fájlt veszi fel, és összesíti a comedies átlagos minősítését 1910 és 2000 között. Ezután ezt a fájlt visszaírja a Data Lake-Storage.

A forrásátalakítás hozzáadása

Ebben a lépésben beállít egy Data Lake Storage Gen2-t forrásként.

  1. Az adatfolyam vásznán adjon hozzá egy forrást a Forrás hozzáadása mező kiválasztásával.

  2. A forrásnak a MoviesDB nevet kell ad. Új forrásadatkészlet létrehozásához válassza az Új lehetőséget.

  3. Válassza az Azure Data Lake Storage Gen2 lehetőséget, majd válassza a Folytatás lehetőséget.

  4. Válassza a TagoltSzöveg lehetőséget, majd válassza a Folytatás lehetőséget.

  5. Nevezze el az adatkészletet MoviesDB néven. A csatolt szolgáltatás legördülő menüben válassza az Új lehetőséget.

  6. A linked service creation (Csatolt szolgáltatás létrehozása) képernyőn adja a Data Lake Storage Gen2 linked service ADLSGen2 nevet, és adja meg a hitelesítési módszert. Ezután adja meg a kapcsolat hitelesítő adatait. Ebben az oktatóanyagban a fiókkulcsot használjuk a tárfiókhoz való csatlakozáshoz.

  7. Győződjön meg arról, hogy engedélyezi az interaktív szerzői funkciókat. Az engedélyezése egy percet is igénybe vehet.

    Az interaktív tartalom készítését bemutató képernyőkép.

  8. Válassza a Kapcsolat tesztelése elemet. Ennek sikertelennek kell lennie, mert a tárfiók nem engedélyezi a hozzáférést egy privát végpont létrehozása és jóváhagyása nélkül. A hibaüzenetben megjelenik egy hivatkozás, amely egy privát végpont létrehozására hivatkozik, amely alapján létrehozhat egy felügyelt privát végpontot. Másik lehetőségként közvetlenül a Kezelés lapra kell átmenni, és követni az ebben a szakaszban található utasításokat egy felügyelt privát végpont létrehozásához.

  9. Ne nyissa meg a párbeszédpanelt, majd nyissa meg a tárfiókját.

  10. A privát hivatkozás jóváhagyásához kövesse az ebben a szakaszban található utasításokat.

  11. Vissza a párbeszédpanelre. Válassza ismét a Kapcsolat tesztelése lehetőséget, majd válassza a Létrehozás lehetőséget a csatolt szolgáltatás üzembe helyezéséhez.

  12. Az adatkészlet-létrehozási képernyőn adja meg, hogy a fájl hol található a Fájl elérési útja mező alatt. Ebben az oktatóanyagban a moviesDB.csv a tároló sample-data tárolójában található. Mivel a fájl fejlécekkel rendelkezik, jelölje be az Első sor fejlécként jelölőnégyzetet. Válassza a Kapcsolat/tárolóból lehetőséget a fejlécséma importáláshoz közvetlenül a tárolóban található fájlból. Ha elkészült, kattintson az OK gombra.

    A forrásútvonalat bemutató képernyőkép.

  13. Ha a hibakeresési fürt elindult, a forrásátalakítás Adatelőnézet lapján válassza a Frissítés lehetőséget az adatok pillanatképének megtekintéséhez. Az adatelőnézettel ellenőrizheti, hogy az átalakítás megfelelően van-e konfigurálva.

    Az Adatelőnézet lapot bemutató képernyőkép.

Felügyelt privát végpont létrehozása

Ha nem használja a hivatkozást az előző kapcsolat tesztelése során, kövesse az elérési utat. Most létre kell hoznia egy felügyelt privát végpontot, amely a létrehozott csatolt szolgáltatáshoz fog csatlakozni.

  1. Ugrás a Kezelés lapra.

    Megjegyzés

    Előfordulhat, hogy a Kezelés lap nem érhető el minden Data Factory számára. Ha nem látja, a privát végpontok eléréséhez válassza az Author Connections Private Endpoint (Kapcsolati privát végpont > > létesítése) et.

  2. Ugrás a Felügyelt privát végpontok szakaszra.

  3. A Felügyelt privát végpontok alatt válassza az + Új lehetőséget.

    Képernyőkép a Felügyelt privát végpontok Új gombról.

  4. Válassza ki az Azure Data Lake Storage Gen2 csempét a listából, majd válassza a Folytatás lehetőséget.

  5. Adja meg a létrehozott tárfiók nevét.

  6. Válassza a Létrehozás lehetőséget.

  7. Néhány másodperc elteltével látnia kell, hogy a létrehozott privát kapcsolathoz jóváhagyásra van szükség.

  8. Válassza ki a létrehozott privát végpontot. Egy hivatkozással jóváhagyhatja a privát végpontot a tárfiók szintjén.

    A Privát végpont kezelése panel képernyőképe.

  1. A tárfiókban kattintson a Privát végpontkapcsolatok pontra a Gépház szakaszban.

  2. Jelölje be a létrehozott privát végpont jelölőnégyzetét, majd válassza a Jóváhagyás lehetőséget.

    A privát végpont Jóváhagyás gombját bemutató képernyőkép.

  3. Adjon meg egy leírást, és válassza az igen lehetőséget.

  4. Vissza a Kezelés lap Felügyelt privát végpontok szakaszát a Data Factory.

  5. Körülbelül egy perc múlva megjelenik a jóváhagyás a privát végponthoz.

A szűrőátalakítás hozzáadása

  1. Új átalakítás hozzáadásához válassza a plusz ikont a forráscsomópont mellett az adatfolyam vásznán. Az első átalakítás, amit hozzá fog adni, egy Szűrő.

    Szűrő hozzáadását bemutató képernyőkép.

  2. Nevezze el a szűrőátalakítást FilterYears néven. A kifejezésszerkesztő megnyitásához válassza a Szűrés a következőn melletti kifejezésmezőt. Itt megadhatja a szűrési feltételt.

    A FilterYears (Évévek) képernyőképe.

  3. Az adatfolyam-kifejezésszerkesztővel interaktív módon építhet ki olyan kifejezéseket, amelyek különböző átalakítások során használhatók. A kifejezések tartalmazhatnak beépített függvényeket, a bemeneti séma oszlopait és a felhasználó által megadott paramétereket. További információ a kifejezések felépítéséről: Adatfolyam-kifejezésszerkesztő.

    • Ebben az oktatóanyagban az 1910 és 2000 között előhozott műfaj filmjeit szeretné szűrni. Mivel az év jelenleg egy sztring, egész számra kell konvertálni a függvény toInteger() használatával. A nagyobb vagy egyenlő (>=) és kisebb vagy egyenlő (<=) operátorok használatával hasonlíthatja össze az 1910-es és 2000-es konstansértékeket. Ezeket a kifejezéseket a és a (&&) operátorral összesiti. A kifejezés a következőként fog kijönni:

      toInteger(year) >= 1910 && toInteger(year) <= 2000

    • Annak kiderítésében, hogy mely filmek vannak vjátékok, a függvény használatával megkeresheti a "Annak" mintázatát az rlike() oszlop műfajai között. A következőképpen hasonlítsa össze az rlike kifejezést az év összehasonlításával:

      toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')

    • Ha aktív a hibakeresési fürt, a Frissítés lehetőség kiválasztásával ellenőrizheti a logikát, hogy a használt bemenetekkel összehasonlítva tekintse meg a kifejezés kimenetét. Több helyes válasz is van arra, hogyan valósítható meg ez a logika az adatfolyam-kifejezés nyelv használatával.

      A szűrőkifejezést bemutató képernyőkép.

    • Ha végzett a kifejezéssel, válassza a Mentés és befejezés lehetőséget.

  4. A szűrő megfelelő működését a Data Preview lekérése után ellenőrizheti.

    A szűrt Adatelőnézet képernyőképe.

Az összesítési átalakítás hozzáadása

  1. A következő hozzáadni fog egy Összesítés átalakítást a Sémamódosító alatt.

    Képernyőkép az összesítés hozzáadásáról.

  2. Nevezze el az összesített átalakítást AggregateComedyRating néven. A Csoportosítás lapon a legördülő menüből válassza az év lehetőséget az összesítések csoportosításhoz a film kiugró évének szerint.

    Az összesítési csoportot bemutató képernyőkép.

  3. Ugrás az Összesítések lapra. A bal oldali szövegmezőben adja az AverageComedyRating nevet az összesített oszlopnak. A megfelelő kifejezésmezőt választva adja meg az összesítő kifejezést a kifejezésszerkesztőben.

    Képernyőkép az összesített oszlop nevéről.

  4. A Minősítés oszlop átlagának lekért értékhez használja az avg() aggregátum függvényt. Mivel az Értékelés egy sztring, és numerikus bemenetet vesz fel, az értéket számra kell konvertálnunk a avg() toInteger() függvényen keresztül. Ez a kifejezés így néz ki:

    avg(toInteger(Rating))

  5. Ha elkészült, válassza a Mentés lehetőséget, és fejezze be a munkát.

    Az összesítés mentését bemutató képernyőkép.

  6. A transzformáció kimenetének megtekintéséhez válassza az Adatelőnézet lapot. Figyelje meg, hogy csak két oszlop van: year és AverageComedyRating.

Fogadó-átalakítás hozzáadása

  1. Ezután hozzá kell adni egy fogadó-átalakítást a Cél alatt.

    Képernyőkép egy fogadó hozzáadásáról.

  2. A fogadónak nevezze el a fogadót. Válassza az Új lehetőséget a fogadó adatkészlet létrehozásához.

    Képernyőkép egy fogadó létrehozásáról.

  3. Az Új adatkészlet lapon válassza az Azure Data Lake Storage Gen2, majd a Folytatás lehetőséget.

  4. A Formátum kiválasztása lapon válassza a TagoltSzöveg, majd a Folytatás lehetőséget.

  5. Nevezze el a fogadó adatkészletet MoviesSink néven. A csatolt szolgáltatáshoz válassza a forrásátalakításhoz létrehozott ADLSGen2 csatolt szolgáltatást. Adjon meg egy kimeneti mappát az adatok írásához. Ebben az oktatóanyagban a tároló sample-data mappájának kimenetét írjuk. A mappának nem kell előre léteznie, és dinamikusan is létre lehet őket létrehozni. Jelölje be az Első sor fejlécként jelölőnégyzetet, és a Séma importálása beállításhoz válassza a Nincs lehetőséget. Válassza az OK lehetőséget.

    A fogadó elérési útját bemutató képernyőkép.

Az adatfolyam elkészült. Készen áll arra, hogy futtassa a folyamatban.

Az adatfolyam futtatása és figyelése

Közzététel előtt hibakeresést is futtathat a folyamatokon. Ebben a lépésben elindítja az adatfolyamat hibakeresési futtatását. Bár az adatelőnézet nem ír adatokat, a hibakeresési futtatás adatokat ír a fogadó célhelyre.

  1. Ugrás a folyamatvászonra. A hibakeresési futtatás aktiválásához válassza a Hibakeresés lehetőséget.

  2. Az adatfolyam-tevékenységek folyamat hibakeresése az aktív hibakeresési fürtöt használja, de ennek inicializálása még legalább egy percet vesz igénybe. A folyamat előrehaladását a Kimenet lapon követheti nyomon. A futtatás sikeres futtatása után válassza a szemüveg ikont a futtatás részleteinek kiválasztásához.

  3. A Részletek lapon láthatja a sorok számát és az egyes átalakítási lépésenként eltöltött időt.

    A figyelési futtatás képernyőképe.

  4. Válasszon ki egy átalakítást, hogy részletes információkat kapjon az oszlopokról és az adatok particionálásáról.

Ha megfelelően követte az oktatóanyagot, 83 sort és 2 oszlopot kellett írnia a fogadó mappába. A blobtároló ellenőrzésével ellenőrizheti az adatok helyességét.

Összefoglalás

Ebben az oktatóanyagban az Data Factory felhasználói felületével létrehozott egy folyamatot, amely adatokat másol és alakít át egy Data Lake Storage Gen2-forrásból Data Lake Storage Gen2-fogadóvá (mindkettő csak a kijelölt hálózatokhoz engedélyezi a hozzáférést) az Data Factory Managed Virtual Network leképezési adatfolyamával.