Rövid útmutató: Adatok átalakítása adatfolyamok leképezése használatával

Ebben a rövid útmutatóban az Azure Synapse Analytics használatával fog létrehozni egy folyamatot, amely leképezési adatfolyam használatával átalakítja az adatokat egy Azure Data Lake Storage Gen2- (ADLS Gen2-) forrásból egy ADLS Gen2-fogadóba. Az ebben a rövid útmutatóban használt konfigurációs minta kibővíthető az adatok leképezési adatfolyam használatával való átalakításakor

Ebben a rövid útmutatóban a következő lépéseket kell követnie:

  • Hozzon létre egy data Flow tevékenységet a Azure Synapse Analytics.
  • Leképezési adatfolyam összeállítása négy átalakítással.
  • A folyamat próbafuttatása
  • Adat-Flow figyelése

Előfeltételek

A Azure Synapse létrehozása után kétféleképpen nyithatja meg az Synapse Studio:

  • Nyissa meg a Synapse-munkaterületet a Azure Portal. Az Első lépések alatt válassza Synapse Studio Megnyitás lehetőséget.
  • Nyissa Azure Synapse Analytics, és jelentkezzen be a munkaterületre.

Ebben a rövid útmutatóban az "adftest2020" nevű munkaterületet használjuk példaként. Automatikusan a kezdőlapra Synapse Studio meg.

Synapse Studio kezdőlapja

Adatkapcsolati tevékenységgel Flow folyamat létrehozása

A folyamat egy tevékenységkészlet végrehajtásának logikai folyamatát tartalmazza. Ebben a szakaszban egy Data Flow tartalmazó folyamatot fog létrehozni.

  1. Ugrás az Integrálás lapra. Kattintson a folyamatok fejléc melletti plusz ikonra, majd válassza a Folyamat lehetőséget.

    Új folyamat létrehozása

  2. A folyamat Tulajdonságok beállításai lapján a Név alatt adja meg a TransformMovies nevet.

  3. A Tevékenységek ablaktáblán az Áthelyezés és átalakítás alatt húzza az Adatfolyam adatokat a folyamatvászonra.

  4. Az Adatfolyam hozzáadása előugró ablakban válassza az Új adatfolyam létrehozása Adatfolyam -> lehetőséget. Ha végzett, kattintson az OK gombra.

    Adatfolyam létrehozása

  5. Az adatfolyamnak a Tulajdonságok lapon nevezze el a TransformMovies nevet.

Átalakítási logika összeállítása az adatfolyam-vásznon

Miután létrehozott egy Flow, a rendszer automatikusan az adatfolyamvászonra küldi. Ebben a lépésben egy olyan adatfolyamot fog felépíteni, amely az ADLS-tárolóban MoviesDB.csv- és összesíti a comedies átlagos minősítését 1910 és 2000 között. Ezt a fájlt ezután visszaírja az ADLS-tárolóba.

  1. Az adatfolyam-vászon felett húzza be az Adatfolyam hibakeresési csúszkát. A hibakeresési mód lehetővé teszi az átalakítási logika interaktív tesztelését egy élő Spark-fürtön. Az Flow-fürtök bemelegítése 5–7 percet is igénybe vegyen, és a felhasználóknak ajánlott először bekapcsolni a hibakeresést, ha adat- és Flow terveznek. További információ: Hibakeresési mód.

    A hibakeresés becsúsztatva

  2. Az adatfolyam vásznán adjon hozzá egy forrást a Forrás hozzáadása mezőre kattintva.

  3. Nevezze el a forrást MoviesDB-nek. Új forrásadatkészlet létrehozásához kattintson az Új elemre.

    Új forrásadatkészlet létrehozása

  4. Válassza az Azure Data Lake Storage Gen2 lehetőséget. Kattintson a Folytatás gombra.

    Az Azure Data Lake Storage Gen2 kiválasztása

  5. Válassza a Tagolt Szöveg lehetőséget. Kattintson a Folytatás gombra.

  6. Nevezze el az adatkészletet MoviesDB néven. A csatolt szolgáltatás legördülő menüben válassza az Új lehetőséget.

  7. A csatolt szolgáltatás létrehozási képernyőjén nevezze el a ADLS Gen2 ADLSGen2 nevet, és adja meg a hitelesítési módszert. Ezután adja meg a kapcsolat hitelesítő adatait. Ebben a rövid útmutatóban a fiókkulcsot használjuk a tárfiókhoz való csatlakozáshoz. A Kapcsolat tesztelése gombra kattintva ellenőrizheti, hogy a hitelesítő adatok helyesen vannak-e megadva. Ha elkészült, kattintson a Létrehozás gombra.

    Forrásként hivatkozott szolgáltatás létrehozása

  8. Miután visszatért az adatkészlet létrehozására vonatkozó képernyőre, a Fájl elérési útja mező alatt adja meg a fájl helyét. Ebben a rövid útmutatóban a "MoviesDB.csv" fájl a "sample-data" tárolóban található. Mivel a fájl rendelkezik fejlécekkel, jelölje be az Első sor fejlécként jelölőnégyzetet. Válassza a Kapcsolatból/tárolóból lehetőséget a fejlécséma importáláshoz közvetlenül a tárolóban található fájlból. Ha végzett, kattintson az OK gombra.

    Forrásadatkészlet beállításai

  9. Ha a hibakeresési fürt elindult, a forrásátalakítás Adatelőnézet lapján kattintson a Frissítés gombra az adatok pillanatképének megtekintéséhez. Az adatelőnézettel ellenőrizheti, hogy az átalakítás megfelelően van-e konfigurálva.

    Adatelőnézet

  10. Új átalakítás hozzáadásához kattintson a plusz ikonra a forráscsomópont mellett az adatfolyam vásznán. Az első hozzáadott átalakítás egy szűrő.

    Szűrők hozzáadása

  11. A szűrőátalakításnak nevezze el a FilterYears nevet. A kifejezésszerkesztő megnyitásához kattintson a Szűrés a következőn melletti kifejezésmezőre. Itt megadhatja a szűrési feltételt.

  12. Az adatfolyam-kifejezésszerkesztővel interaktív módon építhet ki különböző átalakítások során használható kifejezéseket. A kifejezések beépített függvényeket, a bemeneti séma oszlopait és a felhasználó által megadott paramétereket tartalmazhatnak. További információ a kifejezések felépítéséről: Data Flow expression builder.

    Ebben a rövid útmutatóban az 1910 és 2000 közötti műfaji műfajok filmjeit szeretné szűrni. Mivel az év jelenleg egy sztring, egész számra kell konvertálni a függvény toInteger() használatával. A nagyobb vagy egyenlő (>=) és kisebb vagy egyenlő (<=) operátorok használatával hasonlíthatja össze az 1910-es és 200-as konstansértékeket. Ezeket a kifejezéseket a és a (&&) operátorral összesiti. A kifejezés a következőként fog kijönni:

    toInteger(year) >= 1910 && toInteger(year) <= 2000

    Annak kiderítésében, hogy mely filmek vétettek, a függvény használatával megkeresheti a rlike() "Foga" mintát az oszlop műfajai között. A következőképpen hasonlítsa össze a kifejezést rlike az év összehasonlításával:

    toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')

    Szűrési feltétel megadása

    Ha aktív a hibakeresési fürt, a Frissítés gombra kattintva ellenőrizheti a logikát, és láthatja a kifejezés kimenetét a használt bemenetekkel összehasonlítva. Több helyes válasz is van arra, hogyan valósítható meg ez a logika az adatfolyam-kifejezés nyelv használatával.

    Ha végzett a kifejezéssel, kattintson a Mentés és befejezés gombra.

  13. A szűrő megfelelő működését a Data Preview lekérése után ellenőrizheti.

  14. A következő hozzáadni fog egy Összesítés átalakítást a Sémamódosító alatt.

    Összesítés hozzáadása

  15. Az összesített átalakításnak nevezze el az AggregateComedyRatings nevet. A Csoportosítás lapon a legördülő menüből válassza az év lehetőséget, hogy az összesítéseket a film kiugró évének szerint csoportosítsa.

    Beállítások összesítése 1

  16. Ugrás az Összesítések lapra. A bal oldali szövegmezőben adja az AverageComedyRating nevet az összesített oszlopnak. A jobb kifejezésmezőre kattintva adja meg az összesítő kifejezést a kifejezésszerkesztőben.

    Összesített beállítások 2

  17. A Minősítés oszlop átlagának lekért értékhez használja az avg() aggregátum függvényt. Mivel az Értékelés egy sztring, és numerikus bemenetet vesz fel, az értéket számra kell konvertálnunk a avg() toInteger() függvényen keresztül. Ez a kifejezés így néz ki:

    avg(toInteger(Rating))

    Ha végzett, kattintson a Mentés és befejezés gombra.

    Átlagos minősítés

  18. A transzformáció kimenetének megtekintéséhez válassza az Adatelőnézet lapot. Figyelje meg, hogy csak két oszlop van: year és AverageComedyRating.

    Adatok összesítése – előzetes verzió

  19. Ezután hozzá kell adni egy fogadó-átalakítást a Cél alatt.

    Fogadó hozzáadása

  20. A fogadónak nevezze el a fogadót. Kattintson az Új gombra a fogadó adatkészlet létrehozásához.

  21. Válassza az Azure Data Lake Storage Gen2 lehetőséget. Kattintson a Folytatás gombra.

  22. Válassza a Tagolt Szöveg lehetőséget. Kattintson a Folytatás gombra.

  23. Nevezze el a fogadó adatkészletet MoviesSink néven. A csatolt szolgáltatáshoz válassza ki ADLS Gen2 7. lépésben létrehozott összekapcsolt szolgáltatást. Adjon meg egy kimeneti mappát az adatok írásához. Ebben a rövid útmutatóban a "sample-data" tároló "output" mappájába írunk. A mappának nem kell előre léteznie, és dinamikusan is létre lehet őket létrehozni. Állítsa az Első sor fejlécét igazra, és válassza a Nincs lehetőséget a Séma importálása beállításhoz. Ha végzett, kattintson az OK gombra.

    Fogadó adatkészlet tulajdonságai

Az adatfolyam elkészült. Készen áll arra, hogy futtassa a folyamatban.

Az adatkapcsolatok futtatása és Flow

Közzététel előtt hibakeresést is futtathat a folyamatokon. Ebben a lépésben elindítja az adatfolyamat hibakeresési futtatását. Bár az adatelőnézet nem ír adatokat, a hibakeresési futtatás adatokat ír a fogadó célhelyre.

  1. Ugrás a folyamatvászonra. Kattintson a Hibakeresés gombra a hibakeresési futtatás aktiválásához.

    Hibakeresési folyamat

  2. A Data Flow tevékenységek folyamat-hibakeresése az aktív hibakeresési fürtöt használja, de az inicializálása még legalább egy percet igénybe veszi. A folyamat előrehaladását a Kimenet lapon követheti nyomon. Ha a futtatás sikeres volt, kattintson a szemüveg ikonra a figyelési panel megnyitásához.

    Kimenet hibakeresése

  3. A figyelési panelen láthatja az egyes átalakítási lépés során töltött sorok számát és idejét.

    Átalakítási monitorozás

  4. Az átalakításra kattintva részletes információkat kap az oszlopokról és az adatok particionálásáról.

    Az átalakítás részletei

Ha helyesen követte ezt a rövid útmutatót, 83 sort és 2 oszlopot kellett írnia a fogadómappába. Az adatokat a blobtároló ellenőrzésével ellenőrizheti.

Következő lépések

A következő cikkekben további információt talál a Azure Synapse Analytics támogatásról: