Adatintegráció az Azure Data Factory és az Azure Data Share használatával

A következőkre vonatkozik: Azure Data Factory Azure Synapse Analytics

Tipp.

Próbálja ki a Data Factoryt a Microsoft Fabricben, amely egy teljes körű elemzési megoldás a nagyvállalatok számára. A Microsoft Fabric az adattovábbítástól az adatelemzésig, a valós idejű elemzésig, az üzleti intelligenciáig és a jelentéskészítésig mindent lefed. Ismerje meg, hogyan indíthat új próbaverziót ingyenesen!

Az ügyfelek modern adattárház- és elemzési projektjeik megkezdéséhez nemcsak több adatot, hanem nagyobb átláthatóságot is igényelnek az adataikban az adattulajdonban. Ez a workshop bemutatja, hogy az Azure Data Factory és az Azure Data Share fejlesztései hogyan egyszerűsítik az Azure-beli adatintegrációt és -felügyeletet.

A kód nélküli ETL/ELT engedélyezésétől az adatok átfogó áttekintésének kialakításáig az Azure Data Factory fejlesztései lehetővé teszik az adatmérnökök számára, hogy magabiztosan több adatot, ezáltal több értéket hozzanak létre a vállalat számára. Az Azure Data Share lehetővé teszi, hogy az üzleti megosztást szabályozott módon végezze el.

Ebben a workshopban az Azure Data Factory (ADF) használatával fog adatokat betöltésre az Azure SQL Database-ből az Azure Data Lake Storage Gen2-be (ADLS Gen2). Miután lerakta az adatokat a tóba, átalakítja azokat az adatfolyamok leképezésével, a Data Factory natív átalakítási szolgáltatásával, és az Azure Synapse Analyticsbe fogja őket átfogni. Ezután megosztja a táblát átalakított adatokkal, valamint néhány további adattal az Azure Data Share használatával.

A laborban használt adatok New York-i taxiadatok. Ha az SQL Database-ben szeretné importálni az adatbázisba, töltse le a taxi-data bacpac fájlt. Válassza a Nyers fájl letöltése lehetőséget a GitHubon.

Előfeltételek

Az Azure Data Factory-környezet beállítása

Ebben a szakaszban megtudhatja, hogyan érheti el az Azure Data Factory felhasználói felületét (ADF UX) az Azure Portalon. Az ADF UX-ben három társított szolgáltatást fog konfigurálni minden használt adattárhoz: Azure SQL Database, ADLS Gen2 és Azure Synapse Analytics.

Az Azure Data Factory társított szolgáltatásaiban adja meg a külső erőforrások kapcsolati adatait. Az Azure Data Factory jelenleg több mint 85 összekötőt támogat.

Az Azure Data Factory UX megnyitása

  1. Nyissa meg az Azure Portalt a Microsoft Edge-ben vagy a Google Chrome-ban.

  2. A lap tetején található keresősáv használatával keresse meg az "Adat-előállítók" kifejezést.

  3. Válassza ki a data factory-erőforrást az erőforrások megnyitásához a bal oldali panelen.

    Screenshot from the Azure portal of a data factories overview page.

  4. Válassza az Azure Data Factory Studio megnyitása lehetőséget. A Data Factory Studio közvetlenül a adf.azure.com is elérhető.

    Screenshot of the Azure Data Factory home page in the Azure portal.

  5. A rendszer átirányítja az ADF kezdőlapjára az Azure Portalon. Ez az oldal rövid útmutatókat, oktatóvideókat és oktatóanyagokra mutató hivatkozásokat tartalmaz a Data Factory alapfogalmainak megismeréséhez. A szerkesztés megkezdéséhez válassza a ceruza ikont a bal oldali sávon.

    Screenshot from the Azure portal of Portal configure.

Azure SQL Database-beli társított szolgáltatás létrehozása

  1. Csatolt szolgáltatás létrehozásához válassza a Bal oldali sávOn a Központ kezelése lehetőséget, a Csatlakozás ions panelen válassza a Csatolt szolgáltatások lehetőséget, majd az Új lehetőséget egy új társított szolgáltatás hozzáadásához.

    Screenshot from the Azure portal of creating a new linked service.

  2. Az első konfigurált társított szolgáltatás egy Azure SQL Database. A keresősáv használatával szűrheti az adattárak listáját. Válassza az Azure SQL Database csempét, és válassza a Folytatás lehetőséget.

    Screenshot from the Azure portal of creating a new Azure SQL Database linked service.

  3. Az SQL Database konfigurációs paneljén adja meg az "SQLDB" nevet csatolt szolgáltatásnévként. Adja meg a hitelesítő adatait, hogy lehetővé tegye a Data Factory számára az adatbázishoz való csatlakozást. Ha SQL-hitelesítést használ, adja meg a kiszolgáló nevét, az adatbázist, a felhasználónevet és a jelszót. A Kapcsolat tesztelése lehetőség kiválasztásával ellenőrizheti, hogy a kapcsolat adatai helyesek-e. Miután végzett, válassza a Létrehozás lehetőséget.

    Screenshot from the Azure portal of configuring a new Azure SQL Database linked service, with a successfully tested connection.

Azure Synapse Analytics társított szolgáltatás létrehozása

  1. Ismételje meg ugyanezt a folyamatot egy Társított Azure Synapse Analytics-szolgáltatás hozzáadásához. A Kapcsolatok lapon válassza az Új lehetőséget. Válassza ki az Azure Synapse Analytics csempét, és válassza a Folytatás lehetőséget.

    Screenshot from the Azure portal of creating a new Azure Synapse Analytics linked service.

  2. A társított szolgáltatás konfigurációs paneljén adja meg az "SQLDW" nevet a társított szolgáltatás neveként. Adja meg a hitelesítő adatait, hogy lehetővé tegye a Data Factory számára az adatbázishoz való csatlakozást. Ha SQL-hitelesítést használ, adja meg a kiszolgáló nevét, az adatbázist, a felhasználónevet és a jelszót. A Kapcsolat tesztelése lehetőség kiválasztásával ellenőrizheti, hogy a kapcsolat adatai helyesek-e. Miután végzett, válassza a Létrehozás lehetőséget.

    Screenshot from the Azure portal of configuring a new Azure Synapse Analytics linked service named SQLDW.

Azure Data Lake Storage Gen2 társított szolgáltatás létrehozása

  1. A labor utolsó társított szolgáltatása egy Azure Data Lake Storage Gen2. A Kapcsolatok lapon válassza az Új lehetőséget. Válassza az Azure Data Lake Storage Gen2 csempét, és válassza a Folytatás lehetőséget.

    Screenshot from the Azure portal of creating a new ADLS Gen2 linked service.

  2. A társított szolgáltatás konfigurációs paneljén adja meg az "ADLSGen2" nevet a társított szolgáltatás neveként. Ha fiókkulcs-hitelesítést használ, válassza ki az ADLS Gen2-tárfiókot a Tárfiók neve legördülő listából. A Kapcsolat tesztelése lehetőség kiválasztásával ellenőrizheti, hogy a kapcsolat adatai helyesek-e. Miután végzett, válassza a Létrehozás lehetőséget.

    Screenshot from the Azure portal of configuring a new ADLS Gen2 linked service.

Adatfolyam-hibakeresési mód bekapcsolása

Az Adatok átalakítása leképezési adatfolyamokkal című szakaszban leképezési adatfolyamokat készít. A leképezési adatfolyamok létrehozása előtt ajánlott bekapcsolni a hibakeresési módot, amely lehetővé teszi, hogy másodpercek alatt tesztelje az átalakítási logikát egy aktív spark-fürtön.

A hibakeresés bekapcsolásához válassza az adatfolyam-vászon vagy a folyamatvászon felső sávjának adatfolyam-hibakeresési csúszkát, amikor adatfolyam-tevékenységeket végez. Válassza az OK gombot, amikor megjelenik a megerősítést kérő párbeszédpanel. A fürt körülbelül 5–7 perc múlva indul el. Folytassa az adatok Azure SQL Database-ből az ADLS Gen2-be való betöltését a másolási tevékenység használatával az inicializálás során.

Screenshot from the Azure portal of the Factory Resources pages, with the data flow debug button enabled.

Screenshot that shows where the Data flow debug slider is after an object is created.

Adatok betöltése a másolási tevékenység használatával

Ebben a szakaszban egy másolási tevékenységgel rendelkező folyamatot hoz létre, amely egy táblát egy Azure SQL Database-ből egy ADLS Gen2-tárfiókba betölt. Megtudhatja, hogyan vehet fel egy folyamatot, konfigurálhat egy adathalmazt, és hogyan végezhet hibakeresést egy folyamatban az ADF UX-en keresztül. Az ebben a szakaszban használt konfigurációs minta alkalmazható a relációs adattárból egy fájlalapú adattárba történő másolásra.

Az Azure Data Factoryben a folyamat olyan tevékenységek logikai csoportosítása, amelyek együttesen hajtanak végre egy feladatot. Egy tevékenység meghatározza az adatokon végrehajtandó műveletet. Az adatkészletek a társított szolgáltatásban használni kívánt adatokra mutatnak.

Folyamat létrehozása másolási tevékenységgel

  1. A gyári erőforrások panelen a plusz ikonra kattintva nyissa meg az új erőforrásmenüt. Válassza a Folyamat lehetőséget.

    Screenshot from the Azure portal of creating a new pipeline.

  2. A folyamatvászon Általános lapján nevezze el a folyamatot leírónak, például az "IngestAndTransformTaxiData" nevet.

    Screenshot from the Azure portal of new Ingest and Transform Taxi data object.

  3. A folyamatvászon tevékenységpaneljén nyissa meg az Áthelyezés és átalakítás harmonikát, és húzza az Adatmásolási tevékenységet a vászonra. Adjon egy leíró nevet a másolási tevékenységnek, például az "IngestIntoADLS"-nek.

    Screenshot from the Azure portal of adding a copy data step.

Az Azure SQL DB forrásadatkészletének konfigurálása

  1. Válassza ki a másolási tevékenység Forrás lapján. Új adatkészlet létrehozásához válassza az Új lehetőséget. A forrás a korábban konfigurált SQLDB társított szolgáltatásban található tábla dbo.TripData lesz.

    Screenshot from the Azure portal of creating a new dataset in the Copy Data source option.

  2. Keresse meg az Azure SQL Database-t , és válassza a Folytatás lehetőséget.

    Screenshot from the Azure portal of creating a new dataset in Azure SQL Database.

  3. Hívja meg a "TripData" adatkészletet. Válassza az "SQLDB" elemet társított szolgáltatásként. Válassza ki a tábla nevét dbo.TripData a táblanév legördülő listából. Importálja a sémát a kapcsolatból/tárolóból. Ha végzett , válassza az OK gombra.

    Screenshot from the Azure portal of the properties page of creating a new dataset in Azure SQL Database.

Sikeresen létrehozta a forrásadatkészletet. Győződjön meg arról, hogy a forrásbeállításokban a Tábla alapértelmezett érték van kiválasztva a Lekérdezés használata mezőben.

Az ADLS Gen2 fogadó adatkészletének konfigurálása

  1. Válassza ki a másolási tevékenység Fogadó lapján. Új adatkészlet létrehozásához válassza az Új lehetőséget.

    Screenshot from the Azure portal of creating a new dataset in the Copy Data sink option.

  2. Keresse meg az Azure Data Lake Storage Gen2-t , és válassza a Folytatás lehetőséget.

    Screenshot from the Azure portal of creating a new data in ADLS Gen2.

  3. A Formátum kiválasztása panelen válassza a DelimitedText elemet, amikor csv-fájlba ír. Válassza a Folytatás lehetőséget.

    Screenshot from the Azure portal of the format page when creating a new data in ADLS Gen2.

  4. Nevezze el a "TripDataCSV" fogadóadatkészletet. Válassza az "ADLSGen2" elemet csatolt szolgáltatásként. Adja meg, hogy hová szeretné írni a csv-fájlt. Megírhatja például az adatokat a tárolóban staging-containerlévő fájlbatrip-data.csv. Állítsa az Első sort fejlécként igaz értékre, ha azt szeretné, hogy a kimeneti adatok fejlécekkel rendelkezzenek. Mivel még nincs fájl a célhelyen, állítsa az Importálási sémát Nincs értékre. Ha végzett , válassza az OK gombra.

    Screenshot from the Azure portal of the properties page of creating a new data in ADLS Gen2.

A másolási tevékenység tesztelése folyamatkeresési futtatással

  1. Ha ellenőrizni szeretné, hogy a másolási tevékenység megfelelően működik-e, válassza a hibakeresési futtatás végrehajtásához a folyamatvászon tetején található Hibakeresés lehetőséget. A hibakeresési futtatás lehetővé teszi a folyamat teljes körű vagy töréspontig történő tesztelését, mielőtt közzétennénk a data factory szolgáltatásban.

    Screenshot from the Azure portal of the debug button.

  2. A hibakeresési futtatás figyeléséhez nyissa meg a folyamatvászon Kimenet lapját. A monitorozási képernyő 20 másodpercenként automatikusan visszavált, vagy ha manuálisan választja ki a frissítés gombot. A másolási tevékenység speciális monitorozási nézetet biztosít, amely a Műveletek oszlop szemüveg ikonjának kiválasztásával érhető el.

    Screenshot from the Azure portal of the monitoring button.

  3. A másolásfigyelési nézet megadja a tevékenység végrehajtási adatait és teljesítményjellemzőit. Megtekintheti az olyan információkat, mint az adatok olvasása/írása, a sorok olvasása/írása, az olvasási/írási fájlok és az átviteli sebesség. Ha mindent megfelelően konfigurált, 49 999 sort kell látnia egy fájlba az ADLS-fogadóban.

    Screenshot from the Azure portal of the performance details of the copy monitoring view.

  4. Mielőtt továbblépne a következő szakaszra, javasoljuk, hogy tegye közzé a módosításokat a data factory szolgáltatásban a Publish all in the factory top bar (Az összes közzététele) lehetőség választásával. Bár ez a labor nem foglalkozik ezzel a tesztkörnyezettel, az Azure Data Factory támogatja a teljes git-integrációt. A Git-integráció lehetővé teszi a verziókövetést, az adattárakban való iteratív mentést és az adat-előállítón végzett együttműködést. További információ: forráskövetés az Azure Data Factoryben.

    Screenshot from the Azure portal of the publish all button.

Adatok átalakítása adatfolyam-leképezéssel

Most, hogy sikeresen átmásolta az adatokat az Azure Data Lake Storage-ba, ideje összekapcsolni és összesíteni az adatokat egy adattárházba. A leképezési adatfolyamot, az Azure Data Factory vizuálisan megtervezett átalakítási szolgáltatását használjuk. A leképezési adatfolyamok lehetővé teszik a felhasználók számára az átalakítási logika kód nélküli fejlesztését és végrehajtását az ADF szolgáltatás által felügyelt Spark-fürtökön.

Az ebben a lépésben létrehozott adatfolyam összekapcsolja az előző szakaszban létrehozott TripDataCSV adatkészletet egy négy kulcsoszlopon alapuló "SQLDB"-ben tárolt táblával dbo.TripFares . Ezután az adatok oszlop payment_type alapján lesznek összesítve, hogy kiszámítsák bizonyos mezők átlagát, és egy Azure Synapse Analytics-táblába írjanak.

Adatfolyam-tevékenység hozzáadása a folyamathoz

  1. A folyamatvászon tevékenységpaneljén nyissa meg az Áthelyezés és átalakítás harmonikát, és húzza az adatfolyam-tevékenységet a vászonra.

    Screenshot from the Azure portal of the data flow option in the Move & Transform menu.

  2. A megnyíló oldalpanelen válassza az Új adatfolyam létrehozása és az Adatfolyam leképezése lehetőséget. Kattintson az OK gombra.

    Screenshot from the Azure portal of adding a new mapping data flow.

  3. A rendszer arra az adatfolyam-vászonra irányítja, ahol az átalakítási logikát fogja létrehozni. Az általános lapon adja meg az adatfolyam "JoinAndAggregateData" nevét.

    Screenshot from the Azure portal of the Join And Aggregate Data flow.

Az utazási adatok CSV-forrásának konfigurálása

  1. Első lépésként konfigurálja a két forrásátalakítást. Az első forrás a "TripDataCSV" DelimitedText adatkészletre mutat. Forrásátalakítás hozzáadásához válassza a vászon Forrás hozzáadása mezőjét.

    Screenshot from the Azure portal of the add source button in a new data flow.

  2. Nevezze el a forrás "TripDataCSV" nevét, és válassza ki a "TripDataCSV" adatkészletet a forrás legördülő listából. Ha emlékszik, kezdetben nem importált sémát az adatkészlet létrehozásakor, mivel ott nem voltak adatok. Mivel trip-data.csv már létezik, válassza a Szerkesztés lehetőséget az adathalmaz beállításai lap megnyitásához.

    Screenshot from the Azure portal of the edit source dataset button in the data flow options.

  3. Lépjen a Lapséma lapra, és válassza a Séma importálása lehetőséget. Válassza a Kapcsolat/tár lehetőséget, ha közvetlenül a fájltárolóból szeretne importálni. 14 típusú sztringoszlopnak kell megjelennie.

    Screenshot from the Azure portal of the schema source selection.

  4. Térjen vissza a "JoinAndAggregateData" adatfolyamhoz. Ha a hibakeresési fürt elindult (a hibakeresési csúszka melletti zöld kör jelzi), az Adatok előnézete lapon pillanatképet kaphat az adatokról. Az adatok előnézetének lekéréséhez válassza a Frissítés lehetőséget.

    Screenshot from the Azure portal of the data flow preview.

Megjegyzés:

Az adatelőnézet nem ír adatokat.

Utazás viteldíjainak konfigurálása SQL Database-forrás

  1. A második forrás, amely pontokat ad hozzá az SQL Database táblához dbo.TripFares. A "TripDataCSV" forrás alatt van egy másik Forrás hozzáadása mező. Új forrásátalakítás hozzáadásához jelölje ki.

    Screenshot from the Azure portal of adding another data source to a data flow.

  2. Nevezze el ennek a forrásnak a "TripFaresSQL" nevet. Új SQL Database-adatkészlet létrehozásához válassza az Új lehetőséget a forrásadatkészlet mező mellett.

    Screenshot from the Azure portal of the new source dataset on another copy data step in the data flow.

  3. Válassza az Azure SQL Database csempét, és válassza a Folytatás lehetőséget. Észreveheti, hogy a data factory számos összekötője nem támogatott az adatfolyamok leképezésében. Ha ezen források egyikéből szeretne adatokat átalakítani, a másolási tevékenység használatával betöltse azt egy támogatott forrásba.

    Screenshot from the Azure portal of adding a new Azure SQL Database dataset to the data flow.

  4. Hívja meg a TripFares adatkészletet. Válassza az "SQLDB" elemet társított szolgáltatásként. Válassza ki a tábla nevét dbo.TripFares a táblanév legördülő listából. Importálja a sémát a kapcsolatból/tárolóból. Ha végzett , válassza az OK gombra.

    Screenshot from the Azure portal of the properties of adding a new Azure SQL Database dataset to the data flow.

  5. Az adatok ellenőrzéséhez kérje le az adatok előnézetét az Adatelőnézet lapon.

    Screenshot from the Azure portal of the data preview of another data source in the data flow.

Belső csatlakozás TripDataCSV és TripFaresSQL

  1. Új átalakítás hozzáadásához válassza a plusz ikont a TripDataCSV jobb alsó sarkában. A Több bemenet/kimenet csoportban válassza a Csatlakozás lehetőséget.

    Screenshot from the Azure portal of the join button in data sources in a data flow.

  2. Nevezze el az "InnerJoinWithTripFares" illesztési átalakítást. Válassza a "TripFaresSQL" lehetőséget a jobb oldali stream legördülő listából. Az illesztés típusaként válassza az Inner (Belső ) lehetőséget. Ha többet szeretne megtudni a leképezési adatfolyam különböző illesztési típusairól, tekintse meg az illesztési típusokat.

    Válassza ki az egyes streamek oszlopait az Illesztési feltételek legördülő listából. További csatlakozási feltétel hozzáadásához válassza a meglévő feltétel melletti plusz ikont. Alapértelmezés szerint az összes illesztés feltétel és egy AND operátor együttese, ami azt jelenti, hogy az egyezéshez minden feltételnek teljesülnie kell. Ebben a laborban egyezni szeretnénk a következő oszlopokonmedallion: hack_licensevendor_idpickup_datetime

    Screenshot from the Azure portal of data flow join settings.

  3. Ellenőrizze, hogy sikeresen csatlakozott-e 25 oszlophoz egy adatelőnézettel együtt.

    Screenshot from the Azure portal of the data preview of a data flow with joined data sources.

Összesítés payment_type szerint

  1. Az illesztési átalakítás befejezése után adjon hozzá egy összesített átalakítást az InnerJoinWithTripFares melletti plusz ikonra kattintva. Válassza az Összesítés lehetőséget a Sémamódosító területen.

    Screenshot from the Azure portal of the new aggregate button.

  2. Adja az összesítő átalakításnak az "AggregateByPaymentType" nevet. Válassza ki payment_type a csoportot oszlop szerint.

    Screenshot from the Azure portal of aggregate settings.

  3. Lépjen az Összesítések lapra. Adjon meg két összesítést:

    • Az átlagos viteldíj fizetési típus szerint csoportosítva
    • Az utazás teljes távolsága fizetési típus szerint csoportosítva

    Először az átlagos viteldíj-kifejezést fogja létrehozni. Az Oszlop hozzáadása vagy kijelölése feliratú szövegmezőbe írja be a "average_fare" kifejezést.

    Screenshot from the Azure portal of the Grouped by option in aggregate settings.

  4. Aggregációs kifejezés megadásához jelölje ki az Enter kifejezés kék mezőjét, amely megnyitja az adatfolyam-kifejezésszerkesztőt, amely egy olyan eszköz, amellyel vizuálisan hozhat létre adatfolyam-kifejezéseket bemeneti sémával, beépített függvényekkel és műveletekkel, valamint felhasználó által definiált paraméterekkel. A kifejezésszerkesztő képességeivel kapcsolatos további információkért tekintse meg a kifejezésszerkesztő dokumentációját.

    Az átlagos viteldíj lekéréséhez az avg() aggregációs függvénnyel összesítheti az total_amount oszlopot egy egész számmal toInteger(). Az adatfolyam-kifejezés nyelvében ez a következőképpen van definiálva avg(toInteger(total_amount)): . Ha elkészült, válassza a Mentés és befejezés lehetőséget.

    Screenshot from the Azure portal of the Visual Expression Builder showing an aggregate function avg(toInteger(total_amount)).

  5. További összesítési kifejezés hozzáadásához válassza a mellette lévő plusz ikont average_fare. Válassza az Oszlop hozzáadása lehetőséget.

    Screenshot from the Azure portal of the add column button in the aggregate settings grouped by option.

  6. Az Oszlop hozzáadása vagy kijelölése feliratú szövegmezőbe írja be a következőt: "total_trip_distance". Az utolsó lépéshez hasonlóan nyissa meg a kifejezésszerkesztőt a kifejezésbe való belépéshez.

    A teljes utazási távolság lekéréséhez az sum() aggregációs függvénnyel összesítheti az trip_distance oszlopot egy egész számra a következővel toInteger(): . Az adatfolyam-kifejezés nyelvében ez a következőképpen van definiálva sum(toInteger(trip_distance)): . Ha elkészült, válassza a Mentés és befejezés lehetőséget.

    Screenshot from the Azure portal of two columns in the aggregate settings grouped by option.

  7. Tesztelje az átalakítási logikát az Adatok előnézete lapon. Mint látható, a korábbiakhoz képest lényegesen kevesebb sor és oszlop van. Csak az átalakítás során definiált három csoport és aggregációs oszlop folytatódik lefelé. Mivel a mintában csak öt fizetésitípus-csoport szerepel, csak öt sor jelenik meg.

    Screenshot from the Azure portal of aggregate data preview.

Az Azure Synapse Analytics-fogadó konfigurálása

  1. Most, hogy befejeztük az átalakítási logikát, készen állunk arra, hogy az adatokat egy Azure Synapse Analytics-táblába süllyesztsük. Vegyen fel egy fogadóátalakítást a Cél szakaszban.

    Screenshot from the Azure portal of the add sink button in the data flow.

  2. Nevezze el az "SQLDWSink" fogadót. Új Azure Synapse Analytics-adatkészlet létrehozásához válassza az Új lehetőséget a fogadó adathalmaz mező mellett.

    Screenshot from the Azure portal of a new sink dataset button in the sink settings.

  3. Válassza ki az Azure Synapse Analytics csempét, és válassza a Folytatás lehetőséget.

    Screenshot from the Azure portal of a new Azure Synapse Analytics dataset for a new data sink.

  4. Hívja meg az "AggregatedTaxiData" adatkészletet. Válassza az "SQLDW" elemet társított szolgáltatásként. Válassza az Új tábla létrehozása lehetőséget, és nevezze el az új táblát dbo.AggregateTaxiData. Ha végzett , válassza az OK gombra.

    Screenshot from the Azure portal of creating a new table for the data sink.

  5. Lépjen a fogadó Gépház lapjára. Mivel új táblát hozunk létre, a táblaművelet alatt ki kell választanunk a Tábla újbóli létrehozása lehetőséget. Törölje az Előkészítés engedélyezése jelölőnégyzet jelölését, amely azt váltja ki, hogy sorról sorra vagy kötegbe szúrunk-e be.

    Screenshot from the Azure portal of data sink settings, the recreate table option.

Sikeresen létrehozta az adatfolyamot. Most itt az ideje, hogy egy folyamattevékenységben futtassa.

A folyamat végpontok közötti hibakeresése

  1. Lépjen vissza az IngestAndTransformData folyamat lapjára. Figyelje meg az "IngestIntoADLS" másolási tevékenység zöld mezőjét. Húzza át a "JoinAndAggregateData" adatfolyam-tevékenységhez. Ez létrehoz egy "sikeres" értéket, amely miatt az adatfolyam-tevékenység csak akkor fut, ha a másolat sikeres.

    Screenshot from the Azure portal of a green success pipeline.

  2. Ahogyan a másolási tevékenységnél is, válassza a Hibakeresés lehetőséget a hibakeresési futtatás végrehajtásához. Hibakeresési futtatások esetén az adatfolyam-tevékenység az aktív hibakeresési fürtöt használja új fürt pörgetése helyett. A folyamat végrehajtása egy kicsit több mint egy percet vesz igénybe.

    Screenshot from the Azure portal of the data flow debug button for the on success pipeline.

  3. A másolási tevékenységhez hasonlóan az adatfolyamnak is van egy speciális monitorozási nézete, amelyet a szemüveg ikon ér el a tevékenység befejezésekor.

    Screenshot from the Azure portal of the output monitor on a pipeline.

  4. A monitorozási nézetben egy egyszerűsített adatfolyam-gráf látható, valamint az egyes végrehajtási szakaszok végrehajtási ideje és sorai. Ha helyesen végzett, 49 999 sort kellett volna összesítenie öt sorba ebben a tevékenységben.

    Screenshot from the Azure portal of the output monitor details on a pipeline.

  5. Az átalakítások kiválasztásával további részleteket kaphat a végrehajtásról, például particionálási információkat és új/frissített/elvetett oszlopokat.

    Screenshot from the Azure portal of stream information on the pipeline output monitor.

Ezzel befejezte a labor adat-előállító részét. Ha eseményindítókkal szeretné üzembe helyezni az erőforrásokat, tegye közzé azokat. Sikeresen futtatott egy folyamatot, amely adatokat fogyott az Azure SQL Database-ből az Azure Data Lake Storage-ba a másolási tevékenységgel, majd összesítve az adatokat egy Azure Synapse Analyticsbe. Az adatok sikeres megírásának ellenőrzéséhez tekintse meg magát az SQL Servert.

Adatmegosztás az Azure Data Share szolgáltatás használatával

Ebben a szakaszban megtudhatja, hogyan állíthat be új adatmegosztást az Azure Portal használatával. Ez magában foglalja egy új adatmegosztás létrehozását, amely az Azure Data Lake Storage Gen2 és az Azure Synapse Analytics adatkészleteit tartalmazza. Ezután konfigurál egy pillanatkép-ütemezést, amely lehetővé teszi az adatfelhasználók számára a velük megosztott adatok automatikus frissítését. Ezután meghívja a címzetteket az adatmegosztásba.

Miután létrehozott egy adatmegosztást, átválthat a kalapokra, és adatfelhasználóvá válik. Adatfelhasználóként végigvezeti az adatmegosztási meghívás elfogadásának folyamatán, konfigurálja az adatok fogadásának helyét, és leképezi az adathalmazokat különböző tárolási helyekre. Ezután elindít egy pillanatképet, amely a megadott célhelyre másolja az Önnel megosztott adatokat.

Adatok megosztása (adatszolgáltatói folyamat)

  1. Nyissa meg az Azure Portalt a Microsoft Edge-ben vagy a Google Chrome-ban.

  2. A lap tetején található keresősáv használatával keressen adatmegosztásokat

    Screenshot from the Azure portal of searching for data shares in the Azure portal search bar.

  3. Válassza ki a névben a "Provider" (Szolgáltató) nevű adatmegosztási fiókot. Például: DataProvider0102.

  4. Válassza az adatok megosztásának megkezdése lehetőséget

    Screenshot from the Azure portal of the start sharing your data button.

  5. Válassza a +Létrehozás lehetőséget az új adatmegosztás konfigurálásának megkezdéséhez.

  6. A Megosztás név alatt adjon meg egy tetszőleges nevet. Ezt a megosztásnevet fogja látni az adatfelhasználó, ezért mindenképpen adjon neki egy leíró nevet, például TaxiData-t.

  7. A Leírás területen adjon meg egy mondatot, amely az adatmegosztás tartalmát írja le. Az adatmegosztás a taxiút-adatok széles skáláját tartalmazza, amelyek számos üzletben vannak tárolva, például az Azure Synapse Analyticsben és az Azure Data Lake Storage-ban.

  8. A Használati feltételek területen adja meg azokat a feltételeket, amelyeket az adatfelhasználónak be kell tartania. Ilyenek például a "Ne ossza el ezeket az adatokat a szervezeten kívül" vagy a "Hivatkozás jogi megállapodásra".

    Screenshot from the Azure portal of the Data Share details in Sent Shares.

  9. Válassza a Folytatás lehetőséget.

  10. Válassza az Adathalmazok hozzáadása lehetőséget

    Screenshot from the Azure portal of the Add dataset button in the Data Share in Sent Shares.

  11. Az Azure Synapse Analytics kiválasztásával válasszon ki egy táblát az Azure Synapse Analyticsből, amelyben az ADF-átalakítások landoltak.

  12. A folytatás előtt egy szkriptet kap, amelyet futtatnia kell. A megadott szkript létrehoz egy felhasználót az SQL-adatbázisban, hogy lehetővé tegye az Azure Data Share MSI számára a hitelesítést a nevében.

    Fontos

    A szkript futtatása előtt be kell állítania magát Active Directory Rendszergazda az Azure SQL Database logikai SQL-kiszolgálójához.

  13. Nyisson meg egy új lapot, és lépjen az Azure Portalra. Másolja ki a megadott szkriptet, hogy létrehozzon egy felhasználót abban az adatbázisban, amelyből adatokat szeretne megosztani. Ehhez jelentkezzen be az EDW-adatbázisba az Azure Portal Lekérdezésszerkesztőjével a Microsoft Entra-hitelesítés használatával. A felhasználót a következő példaszkriptben kell módosítania:

    CREATE USER [dataprovider-xxxx@contoso.com] FROM EXTERNAL PROVIDER; 
    ALTER ROLE db_owner ADD MEMBER [wiassaf@microsoft.com];
    
  14. Váltson vissza az Azure Data Share-be, ahol adathalmazokat adott hozzá az adatmegosztáshoz.

  15. Válassza az EDW elemet, majd válassza az AggregatedTaxiData lehetőséget a táblához.

  16. Válassza az Adathalmaz hozzáadása lehetőséget

    Most már rendelkezünk egy SQL-táblával, amely az adathalmaz részét képezi. Ezután további adatkészleteket adunk hozzá az Azure Data Lake Storage-ból.

  17. Válassza az Adathalmaz hozzáadása lehetőséget, és válassza az Azure Data Lake Storage Gen2 lehetőséget

    Screenshot from the Azure portal of add an ADLS Gen2 dataset.

  18. Válassza a Tovább lehetőséget

  19. Bontsa ki a wwtaxidata elemet. Bontsa ki a Boston Taxi adatait. Megoszthatja a fájlszintet.

  20. Válassza ki a Boston Taxi Data mappát, ha a teljes mappát hozzá szeretné adni az adatmegosztáshoz.

  21. Válassza az Adathalmazok hozzáadása lehetőséget

  22. Tekintse át a hozzáadott adathalmazokat. Hozzá kell adnia egy SQL-táblát és egy ADLS Gen2-mappát az adatmegosztáshoz.

  23. Select Continue

  24. Ezen a képernyőn címzetteket vehet fel az adatmegosztásba. A hozzáadott címzettek meghívókat kapnak az adatmegosztáshoz. A tesztkörnyezethez két e-mail-címet kell megadnia:

    1. A benne lévő Azure-előfizetés e-mail-címe.

      Screenshot from the Azure portal of the Data Share add recipients.

    2. Adja hozzá a fiktív adatfelhasználó neve .janedoe@fabrikam.com

  25. Ezen a képernyőn konfigurálhat egy pillanatkép-beállítást az adatfelhasználó számára. Ez lehetővé teszi számukra, hogy az Ön által meghatározott időközönként megkapják az adatok rendszeres frissítéseit.

  26. Ellenőrizze a Pillanatkép ütemezését , és konfigurálja az adatok óránkénti frissítését az Ismétlődés legördülő listával.

  27. Select Create.

    Most már aktív adatmegosztása van. Lehetővé teszi, hogy áttekintse, mit láthat adatszolgáltatóként adatmegosztás létrehozásakor.

  28. Válassza ki a létrehozott adatmegosztást DataProvider néven. Ehhez az Elküldött megosztások az Adatmegosztásban lehetőség kiválasztásával navigálhat.

  29. Válassza ki a Pillanatkép ütemezése lehetőséget. Ha úgy dönt, letilthatja a pillanatkép-ütemezést.

  30. Ezután válassza az Adathalmazok lapot. A létrehozás után további adatkészleteket is hozzáadhat ehhez az adatmegosztáshoz.

  31. Válassza az Előfizetések megosztása lapot. Még nem léteznek megosztási előfizetések, mert az adatfelhasználó még nem fogadta el a meghívást.

  32. Lépjen a Meghívók lapra. Itt megjelenik a függőben lévő meghívás(ok) listája.

    Screenshot from the Azure portal of Pending invitations.

  33. Válassza ki a meghívót janedoe@fabrikam.com. Select Delete. Ha a címzett még nem fogadta el a meghívást, azt a továbbiakban nem fogja tudni megtenni.

  34. Válassza az Előzmények lapot. Egyelőre semmi sem jelenik meg, mert az adatfelhasználó még nem fogadta el a meghívást, és pillanatképet aktivált.

Adatok fogadása (Adatfelhasználói folyamat)

Most, hogy áttekintettük az adatmegosztást, készen állunk arra, hogy kontextust váltsunk, és viseljük az adatfelhasználói kalapunkat.

Most már rendelkeznie kell egy Azure Data Share-meghívóval a Beérkezett üzenetek mappában a Microsoft Azure-ból. Indítsa el az Outlook Web Accesst (outlook.com), és jelentkezzen be az Azure-előfizetéshez megadott hitelesítő adatokkal.

A kapott e-mailben válassza a "Meghívó >megtekintése" lehetőséget. Ezen a ponton szimulálni fogja az adatfelhasználói élményt, amikor egy adatszolgáltató meghívást fogad az adatmegosztásra.

Screenshot from Outlook of an Email invitation.

Előfordulhat, hogy a rendszer arra kéri, hogy válasszon ki egy előfizetést. Győződjön meg arról, hogy kiválasztja azt az előfizetést, amelyben ebben a laborban dolgozott.

  1. Válassza ki a DataProvider meghívást.

  2. Ebben a Meghívó képernyőn figyelje meg a korábban adatszolgáltatóként konfigurált adatmegosztás különböző részleteit. Tekintse át a részleteket, és fogadja el a használati feltételeket, ha meg van adva.

  3. Válassza ki a tesztkörnyezethez már létező előfizetést és erőforráscsoportot.

  4. Adatmegosztási fiók esetén válassza a DataConsumer lehetőséget. Új adatmegosztási fiókot is létrehozhat.

  5. A Fogadott megosztás neve mellett figyelje meg, hogy az alapértelmezett megosztás neve az adatszolgáltató által megadott név. Adjon a megosztásnak egy rövid nevet, amely leírja a kapni kívánt adatokat, például a TaxiDataShare-t.

    Screenshot from the Azure portal of the page to Accept and Configure a data share.

  6. Dönthet úgy, hogy elfogadja és konfigurálja most , vagy fogadja el és konfigurálja később. Ha most úgy dönt, hogy elfogadja és konfigurálja, adjon meg egy tárfiókot, ahol az összes adatot át kell másolni. Ha később elfogadja és konfigurálja, a megosztásban lévő adathalmazok le lesznek képezve, és manuálisan kell őket leképeznie. Ezt később fogjuk választani.

  7. Válassza az Elfogadás lehetőséget, majd konfigurálja később.

    A beállítás konfigurálásakor létrejön egy megosztási előfizetés, de az adatok nem érnek el, mivel nincs célhely megfeleltetve.

    Ezután konfigurálja az adathalmaz-leképezéseket az adatmegosztáshoz.

  8. Válassza ki a fogadott megosztást (az 5. lépésben megadott nevet).

    Az eseményindító pillanatképe szürkítve van, de a megosztás aktív.

  9. Válassza az Adathalmazok lapot. Minden adatkészlet nincs megfeleltetve, ami azt jelenti, hogy nincs célhely az adatok másolásához.

    Screenshot from the Azure portal of unmapped datasets.

  10. Válassza ki az Azure Synapse Analytics-táblát, majd válassza a + Leképezés célhoz lehetőséget.

  11. A képernyő jobb oldalán válassza a Céladattípus legördülő listát.

    Az SQL-adatokat számos adattárhoz rendelheti. Ebben az esetben egy Azure SQL Database-hez leszünk megfeleltetve.

    Screenshot from the Azure portal of map datasets to target.

    (Nem kötelező) Válassza ki az Azure Data Lake Storage Gen2-t céladattípusként.

    (Nem kötelező) Válassza ki azt az előfizetést, erőforráscsoportot és tárfiókot, amelyben dolgozott.

    (Nem kötelező) Dönthet úgy, hogy csv vagy parquet formátumban fogadja az adatokat a data lake-be.

  12. A Cél adattípus mellett válassza az Azure SQL Database lehetőséget.

  13. Válassza ki azt az előfizetést, erőforráscsoportot és tárfiókot, amelyben dolgozott.

    Screenshot from the Azure portal of map datasets to a target Azure SQL Database.

  14. A folytatáshoz létre kell hoznia egy új felhasználót az SQL Serveren a megadott szkript futtatásával. Először másolja a vágólapra a megadott szkriptet.

  15. Nyisson meg egy új Azure Portal lapot. Ne zárja be a meglévő lapot, mert egy pillanat alatt vissza kell térnie hozzá.

  16. A megnyitott új lapon keresse meg az SQL-adatbázisokat.

  17. Válassza ki az SQL-adatbázist (az előfizetésben csak egynek kell lennie). Ügyeljen arra, hogy ne válassza ki az adattárházat.

  18. Lekérdezésszerkesztő kiválasztása (előzetes verzió)

  19. A Microsoft Entra-hitelesítés használatával jelentkezzen be a Lekérdezésszerkesztőbe.

  20. Futtassa az adatmegosztásban megadott lekérdezést (a 14. lépésben vágólapra másolva).

    Ez a parancs lehetővé teszi, hogy az Azure Data Share szolgáltatás felügyelt identitásokat használjon az Azure Serviceshez az SQL Serveren való hitelesítéshez, hogy adatokat másolhasson bele.

  21. Térjen vissza az eredeti lapra, és válassza a Célhoz rendelendő térkép lehetőséget.

  22. Ezután válassza ki az adathalmaz részét képező Azure Data Lake Storage Gen2 mappát, és képezheti le egy Azure Blob Storage-fiókra.

    Screenshot from the Azure portal of map datasets to a target Azure Blob Storage.

    Az összes adathalmaz megfeleltetése után készen áll arra, hogy megkezdje az adatok fogadását az adatszolgáltatótól.

    Screenshot from the Azure portal of received shares mapped.

  23. Válassza a Részletek lehetőséget.

    Az eseményindító pillanatképe már nem szürkítve van, mivel az adatmegosztásban már vannak másolni kívánt célhelyek.

  24. Válassza az Eseményindító pillanatkép –>Teljes másolat lehetőséget.

    Screenshot from the Azure portal of the trigger snapshot, full copy option.

    Ezzel megkezdi az adatok másolását az új adatmegosztási fiókba. Valós forgatókönyv esetén ezek az adatok egy harmadik féltől származnak.

    Az adatok körülbelül 3–5 percet vesznek igénybe. A folyamat előrehaladását az Előzmények lap kiválasztásával figyelheti.

    Várakozás közben lépjen az eredeti adatmegosztásra (DataProvider), és tekintse meg az Előfizetések és előzmények megosztása lap állapotát. Most már aktív előfizetés van, és adatszolgáltatóként azt is figyelheti, hogy az adatfelhasználó mikor kezdte fogadni a velük megosztott adatokat.

  25. Lépjen vissza az adatfelhasználó adatmegosztásához. Ha az eseményindító állapota sikeres, keresse meg a cél SQL-adatbázist és a Data Lake-t, és ellenőrizze, hogy az adatok a megfelelő tárolókban landolt-e.

Gratulálunk, befejezte a labort!