"Gyakorlat – Azure Data Factory-leképezési adatfolyam létrehozása"

Befejeződött

Adatok átalakítása a leképezési Adatfolyam

A leképezési Adatfolyam feladattal natív módon végezhet adatátalakításokat ingyenes Azure Data Factory-kóddal. A leképezési Adatfolyam teljes vizuális élményt nyújtanak kódolás nélkül. Az adatfolyamok a saját végrehajtási fürtön fognak futni a kibővített adatfeldolgozás érdekében. Az adatfolyam-tevékenységek a Data Factory meglévő ütemezési, vezérlési, folyamat- és monitorozási képességeivel kezelhetők.

Adatfolyamok létrehozásakor engedélyezheti a hibakeresési módot, amely bekapcsol egy kis interaktív Spark-fürtöt. Kapcsolja be a hibakeresési módot a szerkesztőmodul tetején található csúszka összevonásával. A hibakeresési fürtök bemelegedése néhány percet vesz igénybe, de az átalakítási logika kimenetének interaktív megtekintéséhez használható.

Control Flow within the Pipeline designer

A leképezési Adatfolyam hozzáadásával és a Spark-fürt futtatásával ez lehetővé teszi az átalakítás végrehajtását, valamint az adatok futtatását és előnézetét. Nincs szükség kódolásra, mivel az Azure Data Factory kezeli az adatfolyam-feladatok összes kódfordítását, útvonaloptimalizálását és végrehajtását.

Forrásadatok hozzáadása a leképezési Adatfolyam

Nyissa meg a leképezési Adatfolyam vászont. Kattintson a forrás hozzáadása gombra a Adatfolyam vásznon. A forrásadatkészlet legördülő listájában válassza ki az adatforrást, ebben az esetben az ADLS Gen2 adatkészletet használja ebben a példában

Adding source data to the Mapping Data Flow

Néhány szempontot érdemes megjegyezni:

  • Ha az adatkészlet egy más fájlokat tartalmazó mappára mutat, és csak egy fájlt szeretne használni, előfordulhat, hogy létre kell hoznia egy másik adatkészletet, vagy paraméterezést kell használnia, hogy csak egy adott fájl legyen olvasható
  • Ha még nem importálta a sémát az ADLS-ben, de már betöltötte az adatokat, lépjen az adathalmaz Séma lapjára, és kattintson a Séma importálása gombra, hogy az adatfolyam megismerje a sémavetítést.

A leképezési Adatfolyam egy kinyerési, betöltési, átalakítási (ELT) megközelítést követ, és olyan átmeneti adatkészletekkel dolgozik, amelyek mindegyike az Azure-ban található. Jelenleg a következő adathalmazok használhatók forrásátalakításkor:

  • Azure Blob Storage (JSON, Avro, Text, Parquet)
  • Azure Data Lake Storage Gen1 (JSON, Avro, Text, Parquet)
  • Azure Data Lake Storage Gen2 (JSON, Avro, Text, Parquet)
  • Azure Synapse Analytics
  • Azure SQL Database
  • Azure Cosmos DB

Az Azure Data Factory több mint 80 natív összekötőhöz rendelkezik hozzáféréssel. Ha más forrásokból származó adatokat szeretne belefoglalni az adatfolyamba, a Másolási tevékenység használatával töltse be az adatokat az egyik támogatott átmeneti területre.

A hibakeresési fürt bemelegítését követően ellenőrizze, hogy az adatok megfelelően vannak-e betöltve az Adatok előnézete lapon. Miután a frissítés gombra kattint, a leképezési Adatfolyam egy pillanatképet jelenít meg arról, hogy az adatok hogyan néznek ki az egyes átalakítások során.

Previewing data in the Mapping Data Flow

Átalakítások használata a leképezési Adatfolyam

Most, hogy áthelyezte az adatokat az Azure Data Lake Store Gen2-be, készen áll egy leképezési Adatfolyam létrehozására, amely nagy léptékben átalakítja az adatokat egy spark-fürtön keresztül, majd betölti őket egy adattárházba.

Ennek fő feladatai a következők:

  1. A környezet előkészítése

  2. Adatforrás hozzáadása

  3. Leképezési Adatfolyam transzformáció használata

  4. Írás adatgyűjtőbe

1. feladat: A környezet előkészítése

  1. Kapcsolja be a Adatfolyam Hibakeresés funkciót Kapcsolja be a szerzői modul tetején található Adatfolyam Hibakeresés csúszkát.

    Megjegyzés:

    Adatfolyam fürtök bemelegedéséhez 5-7 perc kell.

  2. Adjon hozzá egy Adatfolyam tevékenységet. A Tevékenységek panelen nyissa meg az Áthelyezés és átalakítás harmonikát, és húzza a Adatfolyam tevékenységet a folyamatvászonra. Az előugró panelen kattintson az Új Adatfolyam létrehozása elemre, és válassza a Leképezési Adatfolyam lehetőséget, majd kattintson az OK gombra. Kattintson a folyamat1 fülre, és húzza a zöld mezőt a Copy tevékenység a Adatfolyam tevékenységre a sikeres állapot létrehozásához. A vásznon a következők láthatók:

    Adding a Mapping Data Flow in Azure Data Factory

2. feladat: Adatforrás hozzáadása

  1. ADLS-forrás hozzáadása. Kattintson duplán a leképezési Adatfolyam objektumra a vásznon. Kattintson a forrás hozzáadása gombra a Adatfolyam vásznon. A Forrásadatkészlet legördülő listában válassza ki a Copy tevékenység

    Adding a source to a Mapping Data Flow in Azure Data Factory

    • Ha az adatkészlet más fájlokat tartalmazó mappára mutat, előfordulhat, hogy létre kell hoznia egy másik adatkészletet, vagy paraméterezést kell használnia, hogy csak a moviesDB.csv fájl legyen olvasható
    • Ha még nem importálta a sémát az ADLS-ben, de már betöltötte az adatokat, lépjen az adathalmaz Séma lapjára, és kattintson a Séma importálása gombra, hogy az adatfolyam megismerje a sémavetítést.

    A hibakeresési fürt bemelegítését követően ellenőrizze, hogy az adatok megfelelően vannak-e betöltve az Adatok előnézete lapon. Miután a frissítés gombra kattint, a leképezési Adatfolyam egy pillanatképet jelenít meg arról, hogy az adatok hogyan néznek ki az egyes átalakítások során.

3. feladat: Leképezési Adatfolyam átalakítás használata

  1. Válasszon átalakítást az oszlopok átnevezéséhez és elvetéséhez. Az adatok előnézetében észrevehette, hogy a "Rotton Tomatoes" oszlop hibás. Ha helyesen szeretné elnevezni és elvetni a nem használt Minősítés oszlopot, hozzáadhat egy Kijelölés átalakítást az ADLS-forráscsomópont melletti + ikonra kattintva, majd válassza a Kiválasztás lehetőséget a Sémamódosító területen.

    Adding a Transformation to a Mapping Data Flow in Azure Data Factory

    A Név mint mezőben módosítsa a "Rotton" értékét "Rotten" (Rotten) névre. Az Értékelés oszlop elvetéséhez mutasson rá, és kattintson a kuka ikonra.

    Using the Select Transformation to a Mapping Data Flow in Azure Data Factory

  2. Szűrőátalakítás hozzáadása a nemkívánatos évek kiszűréséhez. Tegyük fel, hogy csak az 1951 után készült filmek érdeklik. Szűrőátalakítást úgy adhat hozzá, hogy szűrőfeltételt adjon meg. Ehhez kattintson az átalakítás kiválasztása melletti + ikonra, és válassza a Szűrő lehetőséget a Sormódosító alatt. A kifejezésmezőre kattintva nyissa meg a Kifejezésszerkesztőt, és adja meg a szűrőfeltételt. A leképezési Adatfolyam kifejezés nyelvének szintaxisával az 1950-es év > egész számra konvertálja a sztringév értékét egész számmá, és szűri a sorokat, ha ez az érték meghaladja az 1950-es értéket.

    Using the Filter Transformation to a Mapping Data Flow in Azure Data Factory

    A kifejezésszerkesztő beágyazott adatok előnézeti paneljén ellenőrizheti, hogy a feltétel megfelelően működik-e

    Using the Expression Builder in the Mapping Data Flow in Azure Data Factory

  3. Adjon hozzá származtatott átalakítást az elsődleges műfaj kiszámításához. Mint bizonyára észrevette, a műfajok oszlopa egy |karakterrel tagolt sztring. Ha csak az egyes oszlopok első műfaja érdekli, a Származtatott oszlop átalakításon keresztül egy PrimaryGenre nevű új oszlopot is leküldhet a Szűrőátalakítás melletti + ikonra kattintva, majd a Sémamódosító alatt a Származtatott gombra kattintva. A szűrőátalakításhoz hasonlóan a származtatott oszlop a Leképezés Adatfolyam kifejezésszerkesztővel adja meg az új oszlop értékeit.

    Using the Derived Transformation to a Mapping Data Flow in Azure Data Factory

    Ebben a forgatókönyvben az első műfajt próbálja kinyerni a műfajok oszlopból, amely "műfaj1|műfaj2|...|műfajN". A helykeresési függvénnyel lekérheti a(z) |első 1-alapú indexét a műfaji sztringben. Az iif függvény használatával, ha ez az index nagyobb, mint 1, az elsődleges műfaj a bal oldali függvényen keresztül számítható ki, amely egy sztring összes karakterét az index bal oldalán adja vissza. Ellenkező esetben a PrimaryGenre értéke megegyezik a műfajok mezővel. A kimenetet a kifejezésszerkesztő Adatelőnézet paneljén ellenőrizheti.

  4. Filmek rangsorolása ablakátalakítással. Tegyük fel, hogy érdekli, hogy egy film hogyan rangsorolja az év során az adott műfaj. A Származtatott oszlop átalakítás melletti + ikonra kattintva és a Sémamódosító alatt az Ablak ikonra kattintva adhat hozzá ablakátalakítást az ablakalapú összesítések definiálásához. Ennek végrehajtásához adja meg, hogy mit válogat át, mi alapján rendez, mi a tartomány, és hogyan számítsa ki az új ablakoszlopokat. Ebben a példában a PrimaryGenre és az év határtalan tartományt használunk, a Rotten Paradicsom szerint csökkenő sorrendben rendezünk, és kiszámítunk egy új, RatingsRank nevű oszlopot, amely egyenlő azzal a rangtal, amelyet az egyes filmek a saját műfaji évén belül kapnak.

    Window Over

    Window Sort

    Window Bound

    Window Rank

  5. Összesítési átalakítással rendelkező minősítések összesítése. Most, hogy összegyűjtötte és levezette az összes szükséges adatot, hozzáadhat egy összesített átalakításta kívánt csoport alapján kiszámított metrikák kiszámításához. Ehhez kattintson az Ablak átalakítás melletti + ikonra, és kattintson az Összesítés gombra a Sémamódosító alatt. Ahogy az ablakátalakítás során tette, lehetővé teszi a filmek csoportosítását a PrimaryGenre és az év szerint

    Using the Aggregate Transformation to a Mapping Data Flow in Azure Data Factory

    Az Összesítések lapon a megadott csoportban oszlopok szerint számított összesítéseket hozhat létre. Minden műfaj és év, lehetővé teszi, hogy az átlagos Rotten Tomatoes értékelés, a legmagasabb és legalacsonyabb besorolású film (kihasználva az ablakozás funkció) és a filmek száma, hogy az egyes csoportokban. Az összesítés jelentősen csökkenti az átalakítási adatfolyam sorainak számát, és csak az átalakításban megadott oszlopok alapján propagálja a csoportot, és összesíti az oszlopokat.

    Configuring the Aggregate Transformation to a Mapping Data Flow in Azure Data Factory

    • Annak megtekintéséhez, hogy az összesítő átalakítás hogyan módosítja az adatokat, használja az Adatok előnézete lapot
  6. Adja meg az Upsert feltételt az Alter Row Transformation használatával. Ha táblázatos fogadóba ír, a Sorok módosítása átalakítással megadhatja a sorok beszúrási, törlési, frissítési és frissítési szabályzatait. Ehhez kattintson az Összesítés átalakítás melletti + ikonra, majd a Sormódosító alatt a Sor módosítása elemre. Mivel mindig beszúr és frissít, megadhatja, hogy az összes sor mindig legyen frissítve.

    Using the Alter Row Transformation to a Mapping Data Flow in Azure Data Factory

4. feladat: Írás adatgyűjtőbe

  1. Írjon egy Azure Synapse Analytics-fogadóba. Most, hogy befejezte az összes átalakítási logikát, készen áll a fogadóba való írásra.
    1. Vegyen fel egy fogadót az Upsert-átalakítás melletti + ikonra kattintva, majd a Fogadó elemre a Cél területen.

    2. A Fogadó lapon hozzon létre egy új adattárház-adatkészletet az + Új gombbal.

    3. Válassza az Azure Synapse Analytics lehetőséget a csempék listájából.

    4. Válasszon ki egy új társított szolgáltatást, és konfigurálja az Azure Synapse Analytics-kapcsolatot a DWDB-adatbázishoz való csatlakozáshoz. Ha végzett, kattintson a Létrehozás gombra.

      Creating an Azure Synapse Analytics connection in Azure Data Factory

    5. Az adathalmaz konfigurációjában válassza az Új tábla létrehozása lehetőséget, és adja meg a Dbo sémáját és a Minősítések táblanevét. Ha végzett, kattintson az OK gombra .

      Creating an Azure Synapse Analytics table in Azure Data Factory

    6. Mivel egy upsert feltételt adott meg, lépjen a Gépház lapra, és válassza az "Upsert engedélyezése" lehetőséget a PrimaryGenre és az év kulcsoszlopok alapján.

      Configuring Sink settings in Azure Data Factory

Ezen a ponton befejezte a 8 transzformációs leképezési Adatfolyam elkészítését. Itt az ideje, hogy futtassa a folyamatot, és tekintse meg az eredményeket!

Completed Mapping Data Flow in Azure Data Factory

5. feladat: A folyamat futtatása

  1. Lépjen a folyamat1 lapra a vásznon. Mivel az Azure Synapse Analytics Adatfolyam PolyBase-t használ, meg kell adnia egy blob- vagy ADLS-előkészítési mappát. Az Adatfolyam tevékenység beállításai lapon nyissa meg a PolyBase harmonikát, válassza ki az ADLS-hez társított szolgáltatást, és adjon meg egy átmeneti mappa elérési útját.

    PolyBase configuration in Azure Data Factory

  2. A folyamat közzététele előtt futtasson egy másik hibakeresési futtatási műveletet annak ellenőrzéséhez, hogy a folyamat a várt módon működik-e. A Kimenet lapra tekintve mindkét tevékenység állapotát figyelheti, miközben futnak.

  3. Ha mindkét tevékenység sikeres volt, a Adatfolyam tevékenység melletti szemüveg ikonra kattintva részletesebben is áttekintheti a Adatfolyam futtatásokat.

  4. Ha a laborban ismertetett logikát használta, a Adatfolyam 737 sort ír az SQL DW-be. Az SQL Server Management Studióban ellenőrizheti, hogy a folyamat megfelelően működött-e, és hogy mit írtak.

    Querying the results in SQL Server Management Studio