Adatintegráció Azure Data Factory és Azure Data Share

a következőkre vonatkozik: Az Azure szinapszis Analytics Azure Data Factory

Ahogy az ügyfelek modern adattárház- és elemzési projektekbe kezdik őket, nem csupán több adatra van szükségük, hanem az adataik nagyobb rálátására is az adattárakban. Ez a workshop bemutatja, hogyan egyszerűsíthető Azure Data Factory és Azure Data Share azure-beli adatintegráció és -kezelés.

A kódmentes ETL/ELT engedélyezésétől az adatok átfogó nézetének létrehozásáig az Azure Data Factory fejlesztései lehetővé teszik az adatmérnökök számára, hogy magabiztosan több adatot és ezáltal több értéket vigyenek be a vállalatba. Azure Data Share lehetővé teszi, hogy szabályozott módon oszt meg üzleti megosztást.

Ebben a workshopban a Azure Data Factory (ADF) használatával fogja adatokat Azure SQL Database-ből az Azure Data Lake Storage Gen2-be (ADLS Gen2). Miután leküldi az adatokat a lake-be, átalakíthatja őket leképezési adatfolyamok, az adat-előállító natív átalakítási szolgáltatása segítségével, és át fogja őket Azure Synapse Analytics. Ezután átalakított adatokkal és néhány további adatgal is megoszthatja a táblát a Azure Data Share.

A laborban használt adatok New York-i taxi adatai. Az adatbázisba való importáláshoz töltse SQL Database taxiadatok bacpac fájlját.

Előfeltételek

  • Azure-előfizetés: Ha nem rendelkezik Azure-előfizetéssel, első lépésként mindössze néhány perc alatt létrehozhat egy ingyenes fiókot.

  • Azure SQL Database: Ha még nem SQL DB-adatbázist, megtudhatja, hogyan hozhat létre SQL DB-fiókot

  • Azure Data Lake Storage Gen2-tárfiók: Ha nem ADLS Gen2-tárfiókkal, megtudhatja, hogyan hozhat létre ADLS Gen2 tárfiókot.

  • Azure Synapse Analytics: Ha még nem Azure Synapse Analytics, megtudhatja, hogyan hozhat létre egy Azure Synapse Analytics-példányt.

  • Azure Data Factory: Ha még nem hozott létre adat-előállítót, tekintse meg az adat-előállítók létrehozásáról készült adatokat.

  • Azure Data Share: Ha még nem hozott létre adat megosztást, tekintse meg az adat megosztások létrehozásáról készült részt.

A saját Azure Data Factory beállítása

Ebben a szakaszban megtudhatja, hogyan férhet hozzá az Azure Data Factory felhasználói élményhez (ADF UX) a Azure Portal. Az ADF felhasználói felületét használva minden használt adattárhoz három csatolt szolgáltatást fog konfigurálni: Azure SQL DB, ADLS Gen2 és Azure Synapse Analytics.

A Azure Data Factory szolgáltatásokban határozzák meg a külső erőforrások kapcsolati adatait. Azure Data Factory jelenleg több mint 85 összekötőt támogat.

Nyissa meg a Azure Data Factory felhasználói felületét

  1. Nyissa meg Azure Portal böngészőben Microsoft Edge Google Chrome böngészőben.

  2. Az oldal tetején található keresősáv használatával keressen rá a "Data Factories" kifejezésre

    1. portál

  3. Kattintson az adat-előállító erőforrására az erőforrás panel megnyitásához.

    2. portál

  4. Az ADF felhasználói felület megnyitásához kattintson az Author and Monitor (Szerzői és figyelés) elemre. Az ADF felhasználói felület a következő adf.azure.com.

    3. portál

  5. A rendszer átirányítja az ADF felhasználói felület kezdőlapjára. Ez az oldal gyorsútfelvételeket, oktatóvideókat és az adat-előállító fogalmait ismertető oktatóanyagokra mutató hivatkozásokat tartalmaz. A szerzői beállítások szerkesztésének elkezdésében kattintson a ceruza ikonra a bal oldali sávon.

    A portál konfigurálása

Azure SQL Database-beli társított szolgáltatás létrehozása

  1. Csatolt szolgáltatás létrehozásához a bal oldali sávon válassza a Manage hub (Központ kezelése) lehetőséget, majd a Kapcsolatok panelen válassza a Linked services (Csatolt szolgáltatások) lehetőséget, majd az Új lehetőséget egy új összekapcsolt szolgáltatás hozzáadásához.

    2. konfigurálás a portálon

  2. Az első konfigurálni fog egy Azure SQL-adatbázis. A keresősáv használatával szűrheti az adattár listáját. Kattintson a Azure SQL Database csempére, majd a Folytatás gombra.

    4. konfigurálás a portálon

  3. A SQL DB konfigurációs panelen adja meg az "SQLDB" nevet a csatolt szolgáltatás neveként. Adja meg a hitelesítő adatait, hogy az adat-előállító csatlakozni tud az adatbázishoz. Ha hitelesítést SQL, adja meg a kiszolgáló nevét, az adatbázist, a felhasználónevet és a jelszót. A Kapcsolat tesztelése gombra kattintva ellenőrizheti, hogy a kapcsolati adatok helyesek-e. Ha elkészült, kattintson a Létrehozás gombra.

    5. konfigurálás a portálon

Összekapcsolt Azure Synapse Analytics létrehozása

  1. Ismételje meg ugyanezt a folyamatot egy Azure Synapse Analytics szolgáltatás hozzáadásához. A kapcsolatok lapon kattintson az Új elemre. Válassza ki a Azure Synapse Analytics csempét, és kattintson a Folytatás gombra.

    6. konfigurálás a portálon

  2. A csatolt szolgáltatás konfigurációs panelen adja meg az "SQLDW" nevet a csatolt szolgáltatás neveként. Adja meg a hitelesítő adatait, hogy az adat-előállító csatlakozni tud az adatbázishoz. Ha hitelesítést SQL, adja meg a kiszolgáló nevét, az adatbázist, a felhasználónevet és a jelszót. A Kapcsolat tesztelése gombra kattintva ellenőrizheti, hogy a kapcsolati adatok helyesek-e. Ha elkészült, kattintson a Létrehozás gombra.

    7. konfigurálás a portálon

2. generációs Azure Data Lake Storage létrehozása

  1. A labor utolsó szükséges csatolt szolgáltatása egy 2. generációs Azure Data Lake Storage szolgáltatás. A kapcsolatok lapon kattintson az Új elemre. Válassza az Azure Data Lake Storage Gen2 csempét, majd kattintson a Folytatás gombra.

    8. konfigurálás a portálon

  2. A csatolt szolgáltatás konfigurációs panelén adja meg az "ADLSGen2" nevet a csatolt szolgáltatás neveként. Ha fiókkulcsos hitelesítést használ, válassza ki ADLS Gen2 tárfiókját a fiók Storage legördülő menüből. A Kapcsolat tesztelése gombra kattintva ellenőrizheti, hogy a kapcsolati adatok helyesek-e. Ha elkészült, kattintson a Létrehozás gombra.

    9. konfigurálás a portálon

Adatfolyam hibakeresési módjának bekapcsolása

Az Adatok átalakítása leképezési adatfolyam használatával című szakaszban leképezési adatfolyamokat fog feléjük építeni. A leképezési adatfolyamok létrehozása előtt ajánlott bekapcsolni a hibakeresési módot, amely lehetővé teszi az átalakítási logika másodpercek alatt való tesztelését egy aktív Spark-fürtön.

A hibakeresés bekapcsolához kattintson az Adatfolyam hibakeresése csúszkára az adatfolyam-vászon vagy folyamatvászon felső sávjában, ha adatfolyam-tevékenységek vannak. Kattintson az OK gombra, amikor megjelenik a megerősítő párbeszédpanel. A fürt létrehozása körülbelül 5–7 percet is igénybe fog venni. Folytassa az Adatok bemásolása az Azure SQL DB-ADLS Gen2 a másolási tevékenységgel inicializálás közben.

10-es konfigurálás a portálon

Az Adatfolyam hibakeresési csúszkája helyének képernyőképe.

Adatok bemásolása a másolási tevékenységgel

Ebben a szakaszban egy másolási tevékenységgel fog létrehozni egy folyamatot, amely egy táblát ad át egy Azure SQL DB-ről egy ADLS Gen2 tárfiókba. Megtudhatja, hogyan adhat hozzá folyamatot, konfigurálhatja az adatkészletet, és hogyan lehet hibakeresést végezni a folyamatokon az ADF felhasználói felület segítségével. Az ebben a szakaszban használt konfigurációs minta alkalmazható a relációs adattárból fájlalapú adattárba való másolásra.

A Azure Data Factory a folyamatok olyan tevékenységek logikai csoportosítása, amelyek együtt végeznek el egy feladatot. A tevékenységek meghatározzák az adatokon végrehajtani szükséges műveletet. Az adatkészletek a csatolt szolgáltatásban használni kívánt adatokra mutatnak.

Másolási tevékenységgel kapcsolatos folyamat létrehozása

  1. A gyári erőforrások panelen kattintson a plusz ikonra az új erőforrásmenü megnyitásához. Válassza a Folyamat lehetőséget.

    1. másolás a portálon

  2. A folyamatvászon Általános lapján nevezze el a folyamatot leíró nevet, például: "IngestAndTransformTaxiData".

    2. portálmásoló

  3. A folyamatvásznon a Tevékenységek panelen nyissa meg az Áthelyezés és átalakítás ét, és húzza az Adatok másolása tevékenységet a vászonra. Adjon leíró nevet a másolási tevékenységnek, például: "IngestIntoADLS".

    3. másolás a portálon

Az Azure SQL DB-forrásadatkészlet konfigurálása

  1. Kattintson a másolási tevékenység Forrás lapfülére. Új adatkészlet létrehozásához kattintson az Új elemre. A forrás a "dbo" tábla lesz. A TripData a korábban konfigurált "SQLDB" csatolt szolgáltatásban található.

    Portál másolása 4

  2. Keressen rá az Azure SQL Database, majd kattintson a Folytatás gombra.

    Portál másolása 5

  3. Hívja meg az adatkészletet "TripData"-nak. A csatolt szolgáltatásként válassza az "SQLDB" lehetőséget. Válassza a "dbo" táblanevet. TripData a tábla neve legördülő menüből. Importálja a sémát a kapcsolatból/tárolóból. Ha elkészült, kattintson az OK gombra.

    Portálmásolat 6

Sikeresen létrehozta a forrásadatkészletet. Győződjön meg arról, hogy a forrásbeállításokban az alapértelmezett Tábla érték van kiválasztva a lekérdezés használata mezőben.

Fogadó ADLS Gen2 konfigurálása

  1. Kattintson a másolási tevékenység Fogadó fülére. Új adatkészlet létrehozásához kattintson az Új elemre.

    Portál másolása 7

  2. Keressen rá az Azure Data Lake Storage Gen2 kifejezésre, és kattintson a Folytatás gombra.

    8. másolás a portálon

  3. A formátum kiválasztása panelen válassza a Tagolt Szöveg lehetőséget, miközben csv-fájlba ír. Kattintson a Folytatás gombra.

    Portal copy 9

  4. A fogadó adatkészletnek nevezze el a "TripDataCSV" nevet. Csatolt szolgáltatásként válassza az "ADLSGen2" lehetőséget. Adja meg, hová szeretné írni a CSV-fájlt. Az adatokat például a tárolóban található trip-data.csv fájlba staging-container írhatja. Állítsa az Első sor fejlécet igazra, mivel azt szeretné, hogy a kimeneti adatok fejlécekkel is tartalmazzanak. Mivel még nincs fájl a célhelyen, állítsa a Séma importálása beállítását None (Nincs) beállításra. Ha elkészült, kattintson az OK gombra.

    Portál másolása 10

A másolási tevékenység tesztelése folyamat hibakeresési futtatásával

  1. A másolási tevékenység megfelelő működését a folyamatvászon tetején található Hibakeresés gombra kattintva ellenőrizheti a hibakeresési futtatás végrehajtásához. A hibakeresési futtatás lehetővé teszi a folyamat tesztelését akár végpontok között, akár egy töréspontig, mielőtt közzétenjük az adat-előállító szolgáltatásban.

    Portál másolása 11

  2. A hibakeresési futtatás monitorozásához válassza a folyamatvászon Kimenet lapját. A figyelési képernyő automatikusan frissül 20 másodpercenként, vagy ha manuálisan kattint a frissítés gombra. A másolási tevékenység speciális figyelési nézetet biztosít, amely a Műveletek oszlopban található szemüveg ikonra kattintva érhető el.

    Portálmásolat 12

  3. A másolásfigyelés nézet a tevékenység végrehajtásának részleteit és teljesítményjellemzőit tartalmazza. Itt olyan információkat láthat, mint az adatok olvasása/írása, a sorok olvasása/írása, a fájlok olvasása/írása és az átviteli sebesség. Ha mindent megfelelően konfigurált, 49 999 sort kell látnia, amelyek egy fájlba vannak írva az ADLS-fogadóban.

    Portál másolása 13

  4. A következő szakaszra való továbblépés előtt javasolt közzétenni a módosításokat a data factory szolgáltatásban az Összes közzététele gombra kattintva a gyár felső sávjában. Bár a labor nem terjed ki rá, a Azure Data Factory támogatja a teljes Git-integrációt. A Git-integráció lehetővé teszi a verziószám-vezérlést, az iteratív mentést az adattárban és az együttműködést az adat-előállítókban. További információkért lásd a forrásvezérlőt a Azure Data Factory.

    1. közzététel a portálon

Adatok átalakítása adatfolyam-leképezéssel

Most, hogy sikeresen átmásolta az adatokat az Azure Data Lake Storage, ideje összevonni és összesíteni az adatokat egy adattárházba. A leképezési adatfolyamot fogjuk használni, Azure Data Factory vizuálisan megtervezett átalakítási szolgáltatást használjuk. Az adatfolyamok leképezése lehetővé teszi a felhasználók számára, hogy átalakítási logikai kódot fejlessnek ki és hajtsanak végre az ADF szolgáltatás által felügyelt Spark-fürtökön.

Az ebben a lépésben létrehozott belső adatfolyam az előző szakaszban létrehozott "TripDataCSV" adatkészletet egy "dbo" táblával illeszti össze. A TripFares négy kulcsoszlop alapján van tárolva az SQLDB-adatbázisban. Ezután az adatok oszlop alapján összesítve kiszámítják bizonyos mezők átlagát, és egy táblázatban payment_type Azure Synapse Analytics meg.

Adatfolyam-tevékenység hozzáadása a folyamathoz

  1. A folyamatvásznon a Tevékenységek panelen nyissa meg az Áthelyezés és átalakítás ét, majd húzza az Adatfolyam tevékenységet a vászonra.

    1. portáladatfolyam

  2. A megnyíló oldalpanelen válassza az Új adatfolyam létrehozása, majd az Adatfolyam leképezése lehetőséget. Kattintson az OK gombra.

    2. portáladatfolyam

  3. A rendszer arra az adatfolyam-vászonra irányítja, ahol az átalakítási logikát fogja építeni. Az általános lapon adja az adatfolyamnak a "JoinAndAggregateData" nevet.

    3. portáladatfolyam

Az útadatok CSV-forrásának konfigurálása

  1. Első lépésként konfigurálni szeretné a két forrásátalakítást. Az első forrás a "TripDataCSV" tagoltSzöveg adatkészletre mutat. Forrásátalakítás hozzáadásához kattintson a vásznon a Forrás hozzáadása mezőre.

    4. portáladatfolyam

  2. Adja a forrásnak a "TripDataCSV" nevet, és válassza ki a "TripDataCSV" adatkészletet a forrás legördülő menüből. Ha emlékszik rá, az adatkészlet létrehozásakor nem importált sémát, mert ott nem voltak adatok. Mivel trip-data.csv már létezik, kattintson a Szerkesztés gombra az adatkészlet beállításai lapra való ugráshoz.

    5. portáladatfolyam

  3. A Lap sémája lapon kattintson a Séma importálása elemre. Válassza a Kapcsolat/tárolóból lehetőséget a fájltárolóból való közvetlen importáláshoz. 14 sztring típusú oszlopnak kell megjelennie.

    6. portáladatfolyam

  4. Vissza "JoinAndAggregateData" adatfolyamhoz. Ha a hibakeresési fürt elindult (ezt egy zöld kör jelzi a hibakeresési csúszka mellett), az Adatok előnézete lapon pillanatképet készíthet az adatokról. Kattintson a Frissítés gombra az adatelőnézet lekéréséhez.

    7. portáladatfolyam

Megjegyzés

Az adatelőnézet nem ír adatokat.

Az utazások és az SQL konfigurálása

  1. A második hozzáadott forrás a dbo adatbázistábla SQL fog. TripFares" (Utazásfares) A "TripDataCSV" forrás alatt egy újabb Forrás hozzáadása mező található. Kattintson rá egy új forrásátalakítás hozzáadásához.

    8. portáladatfolyam

  2. A forrásnak nevezze el a "TripFaresSQL" nevet. Kattintson a forrásadatkészlet mező melletti Új elemre egy új adatbázis-SQL létrehozásához.

    9. portáladatfolyam

  3. Válassza a Azure SQL Database csempét, és kattintson a Folytatás gombra. Megjegyzés: Előfordulhat, hogy az adat-előállító számos összekötőt nem támogat a leképezési adatfolyam. Az egyik ilyen forrásból származó adatok átalakításához a másolási tevékenység használatával egy támogatott forrásba kell behozni őket.

    Portáladatfolyam 10

  4. Hívja meg az adatkészletet "TripFares"-nak. A csatolt szolgáltatásként válassza az "SQLDB" lehetőséget. Válassza a "dbo" táblanevet. TripFares a tábla neve legördülő menüből. Importálja a sémát a kapcsolatból/tárolóból. Ha elkészült, kattintson az OK gombra.

    11. portáladatfolyam

  5. Az adatok ellenőrzéséhez lekér egy adatelőnézetet az Adatelőnézet lapon.

    A portál adatfolyama 12

A TripDataCSV és a TripFaresSQL belső illesztés

  1. Új átalakítás hozzáadásához kattintson a TripDataCSV jobb alsó sarkában található plusz ikonra. A Multiple inputs/outputs (Több bemenet/kimenet) alatt válassza a Join (Csatlakozás) lehetőséget.

    Portálhoz való csatlakozás 1

  2. Az illesztés átalakításának nevezze el az "InnerJoinWithTripFares" nevet. Válassza a TripFaresSQL lehetőséget a jobb stream legördülő menüből. Az illesztés típusaként válassza a Belső lehetőséget. A leképezési adatfolyamok különböző illesztési típusaival kapcsolatos további információkért lásd: illesztési típusok.

    Válassza ki az egyes streamek oszlopait az Illesztés feltételei legördülő menüben. További illesztés feltétel hozzáadásához kattintson egy meglévő feltétel melletti plusz ikonra. Alapértelmezés szerint minden összekapcsolás feltételt egy AND operátorral kombinál, ami azt jelenti, hogy az egyezéshez minden feltételnek teljesülnie kell. Ebben a laborban a következő oszlopokat szeretnénk megfeleltetni: medallion hack_license , , vendor_id és pickup_datetime

    Portál-csatlakozás 2

  3. Ellenőrizze, hogy sikeresen összekapcsolt-e 25 oszlopot egy adatelőnézettel.

    Portál-csatlakozás 3

Összesítés payment_type

  1. Miután befejezte az illesztés átalakítását, adjon hozzá egy összesítési átalakítást az InnerJoinWithTripFares melletti plusz ikonra kattintva. A Sémamódosító alatt válassza az Összesítés lehetőséget.

    Portál 1. agg.

  2. Az összesített átalakításnak nevezze el az "AggregateByPaymentType" nevet. Csoportosítás payment_type oszlopként válassza a lehetőséget.

    2. portál

  3. Ugrás az Összesítések lapra. Itt két aggregációt fog megadni:

    • Az átlagos ár fizetési típus szerint csoportosítva
    • Az utazás teljes távolsága fizetési típus szerint csoportosítva

    Először létre kell hoznia az átlagos árkifejezést. Az Add or select a column(Oszlop hozzáadása vagy kiválasztása) feliratú szövegmezőbe írja be a "average_fare" szöveget.

    Portál 3. agg.

  4. Összesítési kifejezés beíratáshoz kattintson az Enter expression (Kifejezés beírása) feliratú kék dobozra. Ez megnyitja az adatfolyam-kifejezésszerkesztőt, amely egy bemeneti sémát, beépített függvényeket és műveleteket, valamint felhasználó által definiált paramétereket használó adatfolyam-kifejezések vizuális létrehozására használható. A kifejezésszerkesztő képességeivel kapcsolatos további információkért tekintse meg a kifejezésszerkesztő dokumentációját.

    Az átlagos ár lekért értékhez használja az aggregátum függvényt az oszlop egész számra való összesítésére a avg() total_amount toInteger() következővel: . Az adatfolyam-kifejezésnyelvben ez a következő: avg(toInteger(total_amount)) . Ha végzett, kattintson a Mentés gombra, és fejezze be a munkát.

    Portál 4. agg.

  5. További aggregátumkifejezés hozzáadásához kattintson a melletti plusz average_fare ikonra. Válassza az Oszlop hozzáadása lehetőséget.

    Portál 5. agg.

  6. Az Add or select a column(Oszlop hozzáadása vagy kiválasztása) feliratú szövegmezőbe írja be a "total_trip_distance" szöveget. Ahogyan az előző lépésben is, nyissa meg a kifejezésszerkesztőt, és írja be a kifejezést.

    A teljes út távolságának lekért értékhez használja az aggregátum függvényt az oszlop egész számra való összesítésére a sum() trip_distance toInteger() használatával. Az adatfolyam-kifejezésnyelvben ez a következő: sum(toInteger(trip_distance)) . Ha végzett, kattintson a Mentés gombra, és fejezze be a munkát.

    Portál 6. agg.

  7. Tesztelje az átalakítási logikát az Adatelőnézet lapon. Amint látható, a korábbinál lényegesen kevesebb sor és oszlop van. Csak az átalakításban meghatározott három csoport és aggregációs oszlop folytatja a lefelé irányuló munkát. Mivel a mintában csak öt fizetésitípus-csoport van, a kimenet csak öt sort tartalmaz.

    Portál 7. agg.

A Azure Synapse Analytics konfigurálása

  1. Most, hogy befejeztük az átalakítási logikát, készen állunk arra, hogy az adatokat egy új táblába Azure Synapse Analytics. Adjon hozzá egy fogadóátalakítást a Cél szakaszban.

    Portál fogadója 1

  2. A fogadónak nevezze el az "SQLDWSink" nevet. Kattintson a fogadó adatkészlet mező melletti Új gombra egy új Azure Synapse Analytics létrehozásához.

    2. portál-fogadó

  3. Válassza a Azure Synapse Analytics csempét, majd kattintson a Folytatás gombra.

    Portál fogadója 3

  4. Hívja meg az "AggregatedTaxiData" adatkészletet. Válassza az "SQLDW" lehetőséget csatolt szolgáltatásként. Válassza az Új tábla létrehozása lehetőséget, és adja az új táblának a dbo nevet. AggregateTaxiData. Ha elkészült, kattintson az OK gombra

    Portál fogadója, 4

  5. A fogadó Gépház lapra. Mivel új táblát hozunk létre, a Tábla újbóli létrehozása lehetőséget kell választanunk a tábla művelet alatt. Törölje a Enable staging(Előkészítés engedélyezése) kijelölését, ami azt határozza meg, hogy sorról sorra vagy kötegbe van-e beszúrva.

    Portál fogadója 5

Sikeresen létrehozta az adatfolyamot. Most itt az ideje, hogy egy folyamattevékenységben futtassa.

A folyamat hibakeresése végpontok között

  1. Vissza IngestAndTransformData folyamat lapját. Figyelje meg a zöld mezőt az IngestIntoADLS másolási tevékenységen. Húzza át a "JoinAndAggregateData" adatfolyam-tevékenységre. Ez "sikeres" tevékenységet hoz létre, ami miatt az adatfolyam-tevékenység csak akkor fog futni, ha a másolás sikeres volt.

    1. portál-folyamat

  2. Ahogy a másolási tevékenységben is, kattintson a Hibakeresés gombra a hibakeresési futtatás végrehajtásához. Hibakeresési futtatás esetén az adatfolyam-tevékenység az aktív hibakeresési fürtöt fogja használni, nem pedig új fürtöt. A folyamat végrehajtása kissé több mint egy percet is igénybe fog venni.

    2. portál-folyamat

  3. A másolási tevékenységhez hasonló az adatfolyam speciális figyelési nézete, amelyet a tevékenység befejezésekor a szemüveg ikon fog elérni.

    3. portál-folyamat

  4. A figyelési nézetben egy egyszerűsített adatfolyam-diagramot láthat, valamint az egyes végrehajtási fázisok végrehajtási időit és sorait. Ha helyesen tette, a tevékenységben 49 999 sort kellett volna öt sorra összesítenie.

    4. portál-folyamat

  5. Az átalakításra kattintva további részleteket kaphat a végrehajtásról, például a particionálási információkat és az új/frissített/eldobott oszlopokat.

    5. portál-folyamat

Ezzel befejezte a labor adat-előállító részét. Ha triggerekkel szeretné aktiválni az erőforrásokat, tegye közzé őket. Sikeresen futtatott egy folyamatot, amely adatokat betöltött az Azure SQL Database-ból az Azure Data Lake Storage-ba a másolási tevékenységgel, majd az adatokat egy Azure Synapse Analytics. Az adatok sikeres megíratásának ellenőrzéséhez a saját maga SQL Server meg.

Adatmegosztás az Azure Data Share szolgáltatás használatával

Ebben a szakaszban megtudhatja, hogyan állíthat be új adat megosztását a Azure Portal. Ehhez létre kell majd hoznunk egy új adat megosztást, amely az Azure Data Lake Store Gen2 és a Azure Synapse Analytics. Ezután konfigurálni fog egy pillanatkép-ütemezést, amely lehetőséget ad az adat felhasználóinak a velük megosztott adatok automatikus frissítésére. Ezután meghívja a címzetteket az adat-megosztásba.

Miután létrehozott egy adat megosztását, át kell váltania a tálat, és az lesz az adat felhasználója. Adatfelvevőként végig fog menni egy adatmegoszolási meghívó elfogadásán, annak konfigurálásán, hogy hol szeretné megkapni az adatokat, és hogyan lehet az adatkészleteket különböző tárolási helyekre leképezni. Ezután elindít egy pillanatképet, amely a megadott célhelyre másolja az Ön által megosztott adatokat.

Adatok megosztása (adatszolgáltatói folyamat)

  1. Nyissa meg Azure Portal böngészőt a Microsoft Edge Google Chrome-ban.

  2. Az oldal tetején található keresősáv használatával keressen rá az Adatmegosztások kifejezésre

    Portálhirdetések

  3. Válassza ki azt az adat-megosztási fiókot, amely nevében a "Provider" szöveg van megszabadva. Például: DataProvider0102.

  4. Válassza az Adatok megosztásának elkezdása lehetőséget

    Megosztás kezdete

  5. Az új adat megosztásának konfigurálásához válassza a +Létrehozás lehetőséget.

  6. A Megosztás neve alatt adjon meg egy választott nevet. Ez az adat fogyasztója számára látható megosztásnév, ezért mindenképpen adjon neki leíró nevet, például TaxiData.

  7. A Leírás alatt helyezzen el egy mondatot, amely leírja az adat megosztásának tartalmát. Az adat megosztás a taxis utazások világra vonatkozó adatait fogja tartalmazni, amelyek számos üzletben vannak tárolva, beleértve a Azure Synapse Analytics azure Data Lake Store.

  8. A Használati feltételek adja meg azokat a kifejezéseket, amelyek betartását az adat fogyasztója szeretné. Ilyen például a "Ne ossza el az adatokat a szervezeten kívül" vagy a "Jogi megállapodásra való hivatkozás".

    Megosztás részletei

  9. Válassza a Folytatás lehetőséget.

  10. Válassza az Adatkészletek hozzáadása lehetőséget

    1. adatkészlet hozzáadása

  11. Válassza Azure Synapse Analytics lehetőséget, és válasszon ki egy táblát a Azure Synapse Analytics közül, amelybe az ADF-átalakítások beültek.

    SQL-adatkészlet hozzáadása

  12. A folytatás előtt kap egy szkriptet, amit futtatnia kell. A megadott szkript létrehoz egy felhasználót a SQL adatbázisban, hogy a Azure Data Share MSI hitelesítsen a nevében.

Fontos

A szkript futtatása előtt be kell állítania magát az Active Directory rendszergazdája SQL Server.

  1. Nyisson meg egy új lapot, és lépjen a Azure Portal. Másolja ki a megadott szkriptet, és hozzon létre egy felhasználót abban az adatbázisban, amelyből meg szeretné osztani az adatokat. Ehhez AAD-hitelesítéssel kell bejelentkeznie az EDW-adatbázisba a Lekérdezéskezelő (előzetes verzió) használatával.

    Módosítania kell a szkriptet, hogy a létrehozott felhasználó szögletes zárójelek között ássa el. Pl:

    create user [dataprovider-xxxx] from external login; exec sp_addrolemember db_owner, [dataprovider-xxxx];

  2. Váltson vissza arra Azure Data Share, ahol adatkészleteket adott hozzá az adat megosztásához.

  3. Válassza az EDW lehetőséget, majd válassza ki az AggregatedTaxiData táblát.

  4. Válassza az Adatkészlet hozzáadása lehetőséget

    Most már van egy SQL táblánk, amely az adatkészletünk része. A következő lépés az Azure-beli virtuális Data Lake Store.

  5. Válassza az Adatkészlet hozzáadása, majd az Azure Data Lake Store Gen2 lehetőséget

    Adatkészlet-adls hozzáadása

  6. Kattintson a Tovább gombra.

  7. Bontsa ki a wwtaxidata adatokat. Bontsa ki a Boston Taxi Data (Boston taxi adatai) adatokat. Figyelje meg, hogy a megosztást a fájl szintjére is le lehet osztani.

  8. Válassza a Boston Taxi Data mappát, hogy a teljes mappát hozzáadja az adat megosztásához.

  9. Válassza az Adatkészletek hozzáadása lehetőséget

  10. Tekintse át a hozzáadott adatkészleteket. Hozzá kell adni egy SQL és egy ADLS Gen2 mappát az adat-megosztáshoz.

  11. Válassza a Folytatás elemet

  12. Ezen a képernyőn hozzáadhat címzetteket az adat-megosztáshoz. A hozzáadt címzettek meghívókat kapnak az adat megosztásához. Ebben a laborban két e-mail-címet kell hozzáadnia:

    1. A megadott Azure-előfizetés e-mail-címe.

      Címzettek hozzáadása

    2. Adja hozzá a nevet a nevű fiktív adat janedoe@fabrikam.com felhasználóhoz.

  13. Ezen a képernyőn konfigurálhat egy pillanatkép-beállítást az adat fogyasztója számára. Ez lehetővé teszi számukra, hogy rendszeres frissítéseket fogadjanak az adatokról az Ön által meghatározott időközönként.

  14. Jelölje be a Pillanatkép ütemezése jelölőnégyzetet, és konfigurálja az adatok óránkénti frissítését az Ismétlődés legördülő menüben.

  15. Válassza a Létrehozás lehetőséget.

    Most már van aktív adat megosztása. Áttekintheti, hogy mit láthat adatszolgáltatóként az adat megosztásának létrehozásakor.

  16. Válassza ki a létrehozott DataProvider (Adatprovider) című adat megosztását. A lap Elküldött megosztások lehetőségének kiválasztásával navigálhat Data Share.

  17. Kattintson a Pillanatkép ütemezése elemre. Ha szeretné, letilthatja a pillanatkép-ütemezést.

  18. Ezután válassza az Adatkészletek lapot. A létrehozás után további adatkészleteket is hozzáadhat ehhez az adat megosztáshoz.

  19. Válassza az Előfizetések megosztása lapot. Még nem létezik megosztási előfizetés, mert az adat fogyasztója még nem fogadta el a meghívást.

  20. Lépjen a Meghívók lapra. Itt láthatja a függőben lévő meghívó(k) listáját.

    Függőben lévő meghívók

  21. Válassza ki a janedoe@fabrikam.com meghívását. Válassza a Törlés elemet. Ha a címzett még nem fogadta el a meghívót, akkor erre már nem lesz képes.

  22. Válassza az Előzmények lapot. Egyelőre semmi sem jelenik meg, mert az adat fogyasztója még nem fogadta el a meghívást, és aktivált egy pillanatképet.

Adatok fogadása (adat fogyasztói folyamat)

Most, hogy áttekintetjük az adat részesedést, készen állunk a kontextusváltásra és az adathasználói kk elhasználódására.

Most már egy meghívóval Azure Data Share a beérkezett üzenetek között a Microsoft Azure. Indítsa Outlook Web Accesst (outlook.com), és jelentkezzen be az Azure-előfizetéséhez megadott hitelesítő adatokkal.

A kapott e-mailben kattintson a "Meghívók megtekintése >" elemre. Ezen a ponton szimulálni fogja az adat fogyasztói élményét, amikor adatszolgáltatói meghívót fogad az adat megosztására.

Meghívó e-mailben

Előfordulhat, hogy a rendszer arra kéri, hogy válasszon ki egy előfizetést. Győződjön meg arról, hogy azt az előfizetést választja ki, ahol a laborban dolgozott.

  1. Kattintson a DataProvider (Adatprovider) című meghívásra.

  2. Ezen a Meghívó képernyőn számos részletet fog észrevenni a korábban adatszolgáltatóként konfigurált adatmegoszlottról. Tekintse át a részleteket, és fogadja el a használati feltételeket, ha meg van téve.

  3. Válassza ki a tesztkörnyezethez már létező előfizetést és erőforráscsoportot.

  4. Az Adat share-fiók mezőben válassza a DataConsumer lehetőséget. Létrehozhat egy új adat share-fiókot is.

  5. Figyelje meg, hogy a Fogadott megosztás neve mellett az alapértelmezett megosztásnév az adatszolgáltató által megadott név. Adjon egy felhasználóbarát nevet a megosztásnak, amely leírja a kapni fog adatokat, például TaxiDataShare.

    Meghívó elfogadása

  6. Választhatja az Elfogadás és konfigurálás most vagy az Elfogadás és konfigurálás később lehetőséget. Ha úgy dönt, hogy most fogadja el és konfigurálja az adatokat, meg kell adnia egy tárfiókot, ahová az összes adatot másolnia kell. Ha később elfogadja és konfigurálja az adatokat, a megosztásban található adatkészletek leképezetlenek lesznek, és manuálisan kell leképezni őket. Ezt később fogjuk választani.

  7. Válassza az Elfogadás lehetőséget, és konfigurálja a későbbiekben.

    A beállítás konfigurálásakor a rendszer létrehoz egy megosztási előfizetést, de az adatok leesnek, mivel még nem lett leképezve cél.

    A következő lépés az adatleképezések konfigurálása az adat megosztásához.

  8. Válassza ki a Fogadott megosztást (az 5. lépésben megadott nevet).

    Az eseményindító pillanatképe ki van szürkülve, de a megosztás aktív.

  9. Válassza az Adatkészletek lapot. Figyelje meg, hogy minden adatkészlet Leképezetlen, ami azt jelenti, hogy nincs céljuk az adatok másolására.

    leképezetlen adatkészletek

  10. Válassza ki a Azure Synapse Analytics, majd válassza a + Leképezés a célhoz lehetőséget.

  11. A képernyő jobb oldalán válassza a Cél adattípusa legördülő menüt.

    Az adatok SQL számos adattárra leképezheti. Ebben az esetben egy új Azure SQL Database.

    Hozzárendelés

    (Nem kötelező) Céladattípusként Data Lake Store Az Azure Data Lake Store Gen2 lehetőséget.

    (Nem kötelező) Válassza ki azt az előfizetést, erőforráscsoportot Storage a fiókot, amelyben dolgozott.

    (Nem kötelező) Választhat, hogy csv vagy parquet formátumban fogadja az adatokat a data lake-be.

  12. A Cél adattípusa mellett válassza a Azure SQL Database.

  13. Válassza ki azt az előfizetést, erőforráscsoportot Storage a fiókot, amelyben dolgozott.

    leképezés sql-be

  14. A folytatás előtt létre kell hoznia egy új felhasználót a SQL Server szkript futtatásával. Először másolja a megadott szkriptet a vágólapra.

  15. Nyisson meg egy Azure Portal lapot. Ne zárja be a meglévő lapot, mert hamarosan vissza kell majd jönnie.

  16. A megnyitott új lapon keresse meg a SQL adatbázisokat.

  17. Válassza ki SQL adatbázist (csak egynek kell lennie az előfizetésben). Ügyeljen arra, hogy ne válassza ki az adattárházat.

  18. Válassza a Lekérdezésszerkesztő (előzetes verzió) lehetőséget

  19. AAD-hitelesítéssel jelentkezzen be a Lekérdezésszerkesztőbe.

  20. Futtassa az adat megosztásában megadott lekérdezést (a 14. lépésben a vágólapra másolható).

    Ez a parancs lehetővé Azure Data Share, hogy a Azure Data Share felügyelt identitásokat használjon az Azure-szolgáltatásokhoz a hitelesítéshez a SQL Server, hogy adatokat másol a szolgáltatásba.

  21. Vissza az eredeti lapra, és válassza a Leképezés célként lehetőséget.

  22. Ezután válassza ki az adatkészlet részét képezi azure data lake gen2 mappát, és képezi le egy Azure Blob Storage fiókra.

    storage

    Most, hogy minden adatkészlet le van leképezve, készen áll az adatok fogadására az adatszolgáltatótól.

    Leképezés

  23. Válassza a Részletek lehetőséget.

    Figyelje meg, hogy a Trigger snapshot (Eseményindító pillanatképe) már nincs szürkével kiszürkülve, mivel az adat megosztás célhelyeket is tartalmaz, amelyekbe másolni lehet.

  24. Válassza az Eseményindító pillanatkép -> Full Copy (Teljes másolás) lehetőséget.

    Ravaszt

    Ezzel elkezdi átmásolni az adatokat az új adat megosztási fiókba. Egy valós forgatókönyvben ezek az adatok egy harmadik féltől jönnek.

    Az adatok körülbelül 3–5 percet fognak igénybe venni. A folyamat előrehaladását az Előzmények lapra kattintva követheti nyomon.

    Amíg várakozik, lépjen az eredeti adat megosztásra (DataProvider), és tekintse meg az Előfizetések és előzmények megosztása lap állapotát. Figyelje meg, hogy most már van aktív előfizetés, és adatszolgáltatóként azt is figyelheti, hogy az adat fogyasztója mikor kezdte meg fogadni a velük megosztott adatokat.

  25. Lépjen vissza az adat fogyasztója adat megosztásához. Ha az eseményindító állapota sikeres, lépjen a SQL és a Data Lake célhelyére, és nézze meg, hogy az adatok a megfelelő tárolókba megtörténtek-e.

Gratulálunk, befejezte a labort!