Adatok másolása az Azure Blob Storage-ból egy Azure SQL Database adatbázisba a Azure Data Factory

A KÖVETKEZŐKRE VONATKOZIK: Azure Data Factory Azure Synapse Analytics

Ebben az oktatóanyagban az Azure Data Factory felhasználói felületének használatával hoz létre egy adat-előállítót. Az adat-előállítóban lévő folyamat adatokat másol az Azure Blob Storage-ból egy Azure SQL Database. Az oktatóanyagban szereplő konfigurációs minta fájlalapú adattárból relációs adattárba való másolásra vonatkozik. A forrásként és fogadóként támogatott adattárak listája a támogatott adattárakat tartalmazó táblázatban található.

Megjegyzés

Ha még csak ismerkedik a Data Factory használatával, olvassa el az Azure Data Factory használatának első lépéseit ismertető cikket.

Az oktatóanyagban az alábbi lépéseket fogja végrehajtani:

  • Adat-előállító létrehozása
  • Másolási tevékenységgel rendelkező folyamat létrehozása.
  • A folyamat próbafuttatása
  • A folyamat manuális aktiválása
  • A folyamat aktiválása ütemezés szerint
  • A folyamat és a tevékenységek futásának monitorozása

Előfeltételek

  • Azure-előfizetés. Ha nem rendelkezik Azure-előfizetéssel, mindössze néhány perc alatt létrehozhat egy ingyenes Azure-fiókot a virtuális gép létrehozásának megkezdése előtt.
  • Azure Storage-fiók. A Blob Storage lesz használatban forrás adattárként. Ha még nem rendelkezik tárfiókkal, tekintse meg az Azure Storage-fiók létrehozásának lépéseit ismertető cikket.
  • Azure SQL Database:. Ezt az adatbázist használjuk fogadó adattárként. Ha nincs adatbázisa a Azure SQL Database, az adatbázis létrehozásáról a Azure SQL Database a létrehozás lépéseit.

Blob és SQL-tábla létrehozása

Készítse elő a Blob Storage-et és az SQL Database-t az oktatóanyaghoz a következő lépésekkel.

Forrás blob létrehozása

  1. Indítsa el a Jegyzettömböt. Másolja be a következő szöveget, és mentse emp.txt néven egy fájlba a lemezen.

    FirstName,LastName
    John,Doe
    Jane,Doe
    
  2. Hozzon létre egy adftutorial nevű tárolót a Blob Storage-ban. Ebben a tárolóban hozzon létre egy input nevű mappát. Ezután töltse fel az emp.txt fájlt az input mappába. Ezekhez a feladatokhoz használja az Azure Portalt vagy olyan eszközöket, mint az Azure Storage Explorer.

Fogadó SQL-tábla létrehozása

  1. Használja a következő SQL a dbo.emp tábla létrehozásához az adatbázisban:

    CREATE TABLE dbo.emp
    (
        ID int IDENTITY(1,1) NOT NULL,
        FirstName varchar(50),
        LastName varchar(50)
    )
    GO
    
    CREATE CLUSTERED INDEX IX_emp_ID ON dbo.emp (ID);
    
  2. Engedélyezze az SQL Server elérését az Azure-szolgáltatások számára. Győződjön meg arról, hogy az Azure-szolgáltatásokhoz való hozzáférés engedélyezése****BE van kapcsolva az SQL Serverhez, hogy a Data Factory tudjon adatokat írni az SQL Serverre. A beállítás ellenőrzéséhez és bekapcsoláshoz válassza a logikai SQL-kiszolgáló > Áttekintés > A kiszolgáló tűzfalának beállítása> Azure-szolgáltatásokhoz való hozzáférés engedélyezése beállítást kapcsolja BE.

Adat-előállító létrehozása

Ebben a lépésben létrehoz egy adat-előállítót, és elindítja a Data Factory felhasználói felületét, hogy létrehozzon egy folyamatot az adat-előállítóban.

  1. Nyissa meg Microsoft Edge vagy a Google Chrome böngészőt. A Data Factory felhasználói felületének használata jelenleg csak a Microsoft Edge-ben és a Google Chrome-ban támogatott.

  2. A bal oldali menüben válassza az Erőforrás-integráció létrehozása > Data Factory. >

  3. A Create Data Factory lap Alapvető beállítások lapján válassza ki azt az Azure-előfizetést, amelyben létre szeretné hozni az adat-előállítót.

  4. Erőforráscsoport: hajtsa végre a következő lépések egyikét:

    a. Válasszon ki egy meglévő erőforráscsoportot a legördülő listából.

    b. Válassza az Új létrehozása lehetőséget, és adja meg egy új erőforráscsoport nevét.

    Az erőforráscsoportokkal kapcsolatos információkért tekintse meg az Erőforráscsoportok használata az Azure-erőforrások kezeléséhez ismertető cikket.

  5. A Régió területen válassza ki az adat-előállító helyét. A legördülő listán csak a támogatott helyek jelennek meg. Az adat-előállítók által használt adattárak (például az Azure Storage és az SQL Database) és számítási erőforrások (például az Azure HDInsight) más régiókban is lehetnek.

  6. A Név alatt adja meg az ADFTutorialDataFactory nevet.

    Az Azure data factory nevének globálisan egyedinek kell lennie. Ha a név értékével kapcsolatos hibaüzenet kap, adjon meg másik nevet az adat-előállítóhoz. (például sajátneveADFTutorialDataFactory). A Data Factory-összetevők elnevezési szabályait a Data Factory elnevezési szabályait ismertető cikkben találja.

    Új data factory hibaüzenet duplikált név esetén.

  7. A Verzió résznél válassza a V2 értéket.

  8. Válassza a git configuration (Git-konfiguráció) lapot a lap tetején, és jelölje be a Configure Git later (Git konfigurálása később) jelölőnégyzetet.

  9. Válassza az Áttekintés + létrehozás lehetőséget, majd az érvényesítés után válassza a Létrehozás lehetőséget.

  10. A létrehozás befejezése után az értesítés megjelenik az Értesítési központban. Az Adat-előállító lapra való navigáláshoz válassza az Ugrás az erőforráshoz lehetőséget.

  11. Válassza a Megnyitás lehetőséget a Azure Data Factory Studio csempén a Azure Data Factory felhasználói felületének külön lapon való elindításához.

Folyamat létrehozása

Ebben a lépésben létrehoz egy másolási tevékenységgel rendelkező folyamatot az adat-előállítóban. A másolási tevékenység adatokat másol egy Blob Storage-ból egy SQL Database-be. A rövid útmutatóban létrehozott egy folyamatot az alábbi lépéseket követve:

  1. Hozza létre a társított szolgáltatást.
  2. Hozzon létre bemeneti és kimeneti adatkészleteket.
  3. Folyamat létrehozása.

Ebben az oktatóanyagban először létrehozzuk a folyamatot. Ezután társított szolgáltatásokat és adatkészleteket hozunk létre, amikor szükség van rájuk a folyamat konfigurálásához.

  1. A kezdőlapon válassza a Vezénylés lehetőséget.

    Az ADF kezdőlapját bemutató képernyőkép.

  2. A Tulajdonságok alatti Általános panelen a Név beállításnál adja meg a CopyPipeline értéket. Ezután csukja össze a panelt a jobb felső sarokban található Tulajdonságok ikonra kattintva.

  3. A Tevékenységek eszközkészletben bontsa ki az Áthelyezés és átalakítás kategóriát, majd húzza a Adatok másolása tevékenységet az eszközkészletből a folyamat tervezőfelületére. Adja meg a CopyFromBlobToSql értéket a Név mezőben.

    Copy tevékenység

Forrás konfigurálása

Tipp

Ebben az oktatóanyagban a fiókkulcsot használja a forrásadattár hitelesítési típusaként, de más támogatott hitelesítési módszereket is választhat: SAS URI, szolgáltatásnév és felügyelt identitás, ha szükséges. További részleteket a cikk megfelelő szakaszaiban talál. Az adattárak titkos adatainak biztonságos tárolása érdekében ajánlott egy Azure Key Vault. Részletes ábrákért tekintse meg ezt a cikket.

  1. Ugrás a Forrás lapra. Forrásadatkészlet létrehozásához válassza az + Új lehetőséget.

  2. Az Új adatkészlet párbeszédpanelen válassza az Azure Blob Storage lehetőséget, majd válassza a Folytatás lehetőséget. A forrásadatok egy Blob Storage-ban vannak, tehát forrásadatkészletként az Azure Blob Storage-ot válassza.

  3. A Formátum kiválasztása párbeszédpanelen válassza ki az adatok formátumtípusát, majd válassza a Folytatás lehetőséget.

  4. A Tulajdonságok beállítása párbeszédpanelen a Név mezőbe írja be a SourceBlobDataset nevet. Jelölje be az Első sor fejlécként jelölőnégyzetet. A Linked service (Csatolt szolgáltatás) szövegmezőben válassza az + Új lehetőséget.

  5. Az Új csatolt szolgáltatás (Azure Blob Storage) párbeszédpanelen adja meg az AzureStorageLinkedService nevet, majd válassza ki a tárfiókját a Storage fióknév listából. Tesztelje a kapcsolatot, és válassza a Létrehozás lehetőséget a csatolt szolgáltatás üzembe helyezéséhez.

  6. A csatolt szolgáltatás a létrehozása után vissza lesz navigálva a Tulajdonságok beállítása lapra. A Fájl elérési útja mellett válassza a Tallózás lehetőséget.

  7. Lépjen az adftutorial/input mappába, válassza ki aemp.txt fájlt, majd kattintson az OK gombra.

  8. Válassza az OK lehetőséget. Automatikusan a folyamat lapjára navigál. A Forrás lapon ellenőrizze, hogy a SourceBlobDataset van-e kiválasztva. A lapon lévő adatok előnézetének megtekintéséhez válassza az Adatok előnézete elemet.

    Forrásadatkészlet

Fogadó konfigurálása

Tipp

Ebben az oktatóanyagban az SQL hitelesítést használja a fogadó adattár hitelesítési típusaként, de más támogatott hitelesítési módszereket is választhat: szolgáltatásnév és felügyelt identitás, ha szükséges. További részleteket a cikk megfelelő szakaszaiban talál. Az adattárak titkos adatainak biztonságos tárolása érdekében ajánlott titkos Azure Key Vault. Részletes ábrákért tekintse meg ezt a cikket.

  1. Váltson a Fogadó lapra, és válassza az + Új elemet egy fogadó-adatkészlet létrehozásához.

  2. Az Új adatkészlet párbeszédpanelen a keresőmezőbe írja be a "SQL" adatokat az összekötők szűréséhez, válassza a Azure SQL Database lehetőséget, majd kattintson a Folytatás gombra. Ebben az oktatóanyagban adatokat másol egy SQL Database-be.

  3. A Tulajdonságok beállítása párbeszédpanelen a Név mezőbe írja be az OutputSqlDataset nevet. A Linked service (Csatolt szolgáltatás) legördülő listában válassza az + Új lehetőséget. Az adatkészleteket mindig társítani kell egy társított szolgáltatáshoz. A csatolt szolgáltatás rendelkezik a kapcsolati sztringet, Data Factory futtatáskor a SQL Database csatlakozik. Az adatkészlet meghatározza azt a tárolót, mappát és fájlt (az utóbbi nem kötelező), ahova a rendszer az adatokat másolja.

  4. Az Új csatolt szolgáltatás (Azure SQL Database) párbeszédpanelen kövesse az alábbi lépéseket:

    a. A Név mezőbe írja az AzureSqlDatabaseLinkedService nevet.

    b. A Kiszolgáló neve mezőben válassza ki az SQL Server-példányát.

    c. Az Adatbázis neve alatt válassza ki az adatbázist.

    d. A Felhasználónév mezőben adja meg a felhasználó nevét.

    e. A Jelszó mezőben adja meg a felhasználó jelszavát.

    f. A kapcsolat teszteléséhez válassza a Kapcsolat tesztelése elemet.

    : A csatolt szolgáltatás üzembe helyezéséhez válassza a Létrehozás lehetőséget.

    Új társított szolgáltatás mentése

  5. Automatikusan a Tulajdonságok beállítása párbeszédpanelre navigál. A Tábla területen válassza a [dbo].[emp] elemet. Ez után válassza az OK gombot.

  6. Lépjen a folyamatot tartalmazó lapra, és győződjön meg arról, hogy a Fogadóadattár mezőben az OutputSqlDataset érték van kiválasztva.

    Folyamat lap

Igény szerint leképezheti a forrás sémáját a megfelelő célsémára a másolási tevékenység sémaleképezésének lépésével.

A folyamat érvényesítése

A folyamat érvényesítéséhez válassza az Érvényesítés elemet az eszköztáron.

A folyamathoz társított JSON-kódot a jobb felső kód elemre kattintva tekintheti meg.

A folyamat hibakeresése és közzététele

Elvégezheti a folyamat hibakeresését, mielőtt összetevőket (társított szolgáltatások, adatkészletek és folyamat) tenne közzé a Data Factoryben vagy a saját Azure Repos Git-adattárában.

  1. A folyamat hibakereséséhez válassza a Hibakeresés elemet az eszköztáron. A folyamat futtatási állapotát az ablak alján található Kimenet lapon tekintheti meg.

  2. Ha a folyamat sikeresen lefutott, a felső eszköztáron válassza az Összes közzététele lehetőséget. Ez a művelet közzéteszi a létrehozott entitásokat (adatkészleteket és folyamatokat) a Data Factoryben.

  3. Várjon, amíg megjelenik a Sikeres közzététel üzenet. Az értesítési üzenetek megtekintéséhez kattintson az Értesítések megjelenítése elemre (csengő gomb) a jobb felső sarokban.

A folyamat manuális aktiválása

Ebben a lépésben manuálisan fogja aktiválni az előző lépésben közzétett folyamatot.

  1. Kattintson az Aktiválás gombra az eszköztáron, majd válassza az Aktiválás most lehetőséget. A Folyamatfuttassa oldalon kattintson az OK gombra.

  2. Lépjen a bal oldali Figyelés lapra. Itt láthat egy manuális eseményindító által aktivált folyamatfuttatást. A PIPELINE NAME (FOLYAMAT NEVE) oszlop alatti hivatkozásokkal megtekintheti a tevékenység részleteit, és újrafuttathatja a folyamatot.

    [ Folyamatfutnak monitorozása](./media/tutorial-copy-data-portal/monitor-pipeline-inline-and-expended.png)

  3. A folyamat futtatásához társított tevékenységfuttatásokat a PIPELINE NAME (FOLYAMAT NEVE) oszlopban található CopyPipeline (Másolási folyamat) hivatkozásra kattintva láthatja. Ebben a példában csak egy tevékenység van, így csak egy bejegyzés látható a listában. A másolási művelettel kapcsolatos részletekért válassza a Részletek hivatkozást (szemüveg ikon) az ACTIVITY NAME (TEVÉKENYSÉG NEVE) oszlopban. Válassza a felül található Minden folyamatfutta lehetőséget a Folyamatfuttaik nézetre való visszaúthoz. A nézet frissítéséhez válassza a Frissítés parancsot.

    [ Tevékenységfutnak figyelése](./media/tutorial-copy-data-portal/view-activity-runs-inline-and-expended.png)

  4. Ellenőrizze, hogy két további sor van-e hozzáadva az adatbázis emp táblához.

A folyamat aktiválása ütemezés szerint

Ebben az ütemezésben egy ütemezési eseményindítót fog létrehozni a folyamathoz. Az eseményindító a meghatározott ütemezés (például óránként vagy naponta) szerint futtatja a folyamatot. Itt beállíthatja, hogy az eseményindító percenként fusson a megadott záró dátumidőig.

  1. Lépjen a bal oldali Monitorozás lap feletti Létrehozás lapra.

  2. Lépjen a folyamathoz, kattintson az eszköztáron az Aktiválás, majd az Új/Szerkesztés lehetőségre.

  3. Az Eseményindítók hozzáadása párbeszédpanelen válassza az + Új lehetőséget az Eseményindító kiválasztása területhez.

  4. Az Új eseményindító ablakban hajtsa végre az alábbi lépéseket:

    a. A Név mezőbe írja a RunEveryMinute nevet.

    b. Frissítse az eseményindító kezdési dátumát. Ha a dátum az aktuális dátum/idő előtt van, az eseményindító a módosítás közzététele után lép életbe.

    c. Az Időzóna területen válassza ki a legördülő listát.

    d. Állítsa az Ismétlődés 1 percenként beállításra.

    e. Jelölje be az Adja meg a záró dátumot jelölőnégyzetet, és frissítse az End On (Záró dátum) részt úgy, hogy az az aktuális dátum/idő után néhány perccel korábbi legyen. Az eseményindító csak a módosítások közzététele után lesz aktív. Ha csak néhány perccel későbbre van beállítva, és addig nem teszi közzé, akkor nem fog eseményindító-futtatásokat látni.

    f. Az Aktiválva beállításhoz válassza az Igen lehetőséget.

    : Válassza az OK lehetőséget.

    Fontos

    Minden egyes folyamatfuttatásnak van bizonyos költségvonzata, ezért a befejezés időpontját ezt figyelembe véve adja meg.

  5. Az Eseményindító szerkesztése lapon tekintse át a figyelmeztetést, majd válassza a Mentés lehetőséget. A jelen példában található folyamat nem használ paramétereket.

  6. Kattintson az Összes közzététele elemre a módosítás közzétételéhez.

  7. Lépjen a bal oldali Figyelés lapra az aktivált folyamatfuttatások megtekintéséhez.

    [ Aktivált folyamatfuttat](./media/tutorial-copy-data-portal/triggered-pipeline-runs-inline-and-expended.png)

  8. A Folyamatfuttasonok nézetről az Eseményindító-futtatás nézetre való váltáshoz válassza az eseményindító-futtatásokat az ablak bal oldalán.

  9. Itt megtekintheti az eseményindító-futtatások listáját.

  10. Ellenőrizze, hogy a megadott befejezési időig percenként (folyamatfuttatásonként) két sor be van-e szúrva az emp táblába.

Következő lépések

A példában szereplő folyamat adatokat másol az egyik helyről egy másikra a Blob Storage-ban. Megtanulta végrehajtani az alábbi műveleteket:

  • Adat-előállító létrehozása
  • Másolási tevékenységgel rendelkező folyamat létrehozása.
  • A folyamat próbafuttatása
  • A folyamat manuális aktiválása
  • A folyamat aktiválása ütemezés szerint
  • A folyamat és a tevékenységek futásának monitorozása

A következő oktatóanyagra lépve megismerheti az adatok helyszíni rendszerből felhőre való másolásának folyamatát: