Gyakorlat – Számítási átalakítások használata az Azure Data Factoryben

Befejeződött

Bizonyos esetekben előfordulhat, hogy a kód nélküli átalakítás nem felel meg a követelményeknek. Az Azure Data Factory használatával betöltheti a különböző forrásokból gyűjtött nyers adatokat, és számos számítási erőforrással dolgozhat, például az Azure Databricks, az Azure HDInsight vagy más számítási erőforrások használatával, hogy a követelményeknek megfelelően strukturálja azokat.

ADF és az Azure Databricks

Az Azure Databricks és az ADF integrációja például lehetővé teszi a Databricks-jegyzetfüzetek ADF-folyamaton belüli hozzáadását a Databricks elemzési és adatátalakítási képességeinek kihasználásához. Hozzáadhat jegyzetfüzetet az adat-munkafolyamaton belül, hogy strukturálja és átalakítsa a különféle forrásokból az ADF-be betöltött nyers adatokat. Miután megtörtént az adatok átalakítása a Databricksszel, betöltheti azokat bármely adattárházforrásba.

Az ADF és az Azure Databricks együttes képességeit használó adatbetöltés és -átalakítás alapvetően a következő lépésekből áll:

  1. Azure Storage-fiók létrehozása – Az első lépés egy Azure Storage-fiók létrehozása a betöltött és átalakított adatok tárolásához.

  2. Azure Data Factory létrehozása – Miután beállította a tárfiókot, létre kell hoznia az Azure Data Factoryt az Azure Portalon.

  3. Adat-munkafolyamat létrehozása – Miután elkészült a tár és az ADF, először létre kell hoznia egy folyamatot, melynek során az első lépés adatok átmásolása a forrásból az ADF másolási műveletével. A másolási művelet lehetővé teszi adatok másolását különféle helyszíni és felhőbeli forrásokból.

  4. Databricks-jegyzetfüzet hozzáadása folyamathoz – Miután átmásolta az adatokat az ADF-be, hozzá kell adnia a Databricks-jegyzetfüzetet a folyamathoz a másolási tevékenység után. Ez a jegyzetfüzet szükség szerint tartalmazhat szintaxist és kódot a nyers adatok átalakításához és tisztításához.

  5. Elemzés végrehajtása az adatokon – Most, hogy megtörtént az adatok tisztítása és a megfelelő formátumba rendezése, a Databricks-jegyzetfüzetekkel további betanítást vagy elemzést végezhet rajtuk a kívánt eredmények eléréséhez.

Elsajátította, mi az az Azure Data Factory, és hogyan segít Önnek az adatok betöltésében és átalakításában az Azure Databricks integrációja. Most hozzunk létre egy teljes körű minta munkafolyamatot.

Azure Databricks-jegyzetfüzetek integrálása az Azure Data Factory folyamatával

Az Azure Databricks-jegyzetfüzetek Azure Databricks-folyamattal való integrálásához számos feladatot kell elvégezni az alábbiak szerint:

  1. Databricks hozzáférési jogkivonat létrehozása.

  2. Databricks-jegyzetfüzet létrehozása

  3. Társított szolgáltatások létrehozása

  4. Hozzon létre egy Databricks Notebook-tevékenységet használó folyamatot.

  5. Folyamatfuttatás aktiválása.

    Megjegyzés:

    Az alábbi lépések feltételezik, hogy már ki van építve egy Azure Databricks-fürt

1. feladat: Databricks hozzáférési jogkivonat létrehozása.

  1. Az Azure Portalon kattintson az Erőforráscsoportok elemre, majd az awrgstudxx elemre, majd az awdbwsstudxx elemre, ahol az xx a neve monogramja.

  2. Kattintson a Munkaterület indítása elemre

  3. Kattintson a databricks-munkaterület bal alsó sarkában található Gépház felhasználóra.

  4. Kattintson a Felhasználói Gépház elemre.

  5. Lépjen a Hozzáférési jogkivonatok lapra, és kattintson az Új jogkivonat létrehozása gombra.

  6. Írja be a leírást az "ADF-integrációhoz" megjegyzésbe , és adja meg a 10 napos élettartamot , majd kattintson a Létrehozás gombra

  7. Másolja ki a létrehozott jogkivonatot és tárolja a Jegyzettömb, majd kattintson a Kész gombra.

2. feladat: Databricks-jegyzetfüzet létrehozása

  1. A képernyő bal oldalán kattintson a Munkaterület ikonra, majd a Munkaterület szó melletti nyílra, majd a Létrehozás , majd a Mappa elemre. Nevezze el a mappát adftutorial névvel, majd kattintson a Mappa létrehozása parancsra. Az adftutorial mappa megjelenik a Munkaterületen.

  2. Kattintson az adftutorial melletti legördülő nyílra, majd a Létrehozás, majd a Jegyzetfüzet parancsra.

  3. A Jegyzetfüzet létrehozása párbeszédpanelen írja be a mynotebook nevét, és győződjön meg arról, hogy a nyelv a Pythont állítja be, majd kattintson a Létrehozás gombra. Megjelenik a mynotebook címmel ellátott jegyzetfüzet/

  4. Az újonnan létrehozott „mynotebook” jegyzetfüzetben adja hozzá a következő kódot:

    # Creating widgets for leveraging parameters, and printing the parameters
    
    dbutils.widgets.text("input", "","")
    dbutils.widgets.get("input")
    y = getArgument("input")
    print ("Param -\'input':")
    print (y)
    

    Megjegyzés:

    hogy a jegyzetfüzet elérési útja /adftutorial /mynotebook

3. feladat: Társított szolgáltatások létrehozása

  1. A Microsoft Edge-ben kattintson a portál lapjára az Azure Portalon, majd térjen vissza az Azure Data Factorybe, és kattintson az Azure Data Factory Studio megnyitására.

  2. A képernyő bal oldalán kattintson a Kezelés ikonra.

  3. A Csatlakozás alatt kattintson a Társított szolgáltatások elemre.

  4. A Csatolt szolgáltatásban a képernyő tetején kattintson az + Új gombra,

  5. Kattintson a Számítás lapra, kattintson az Azure Databricks, majd a Folytatás gombra.

  6. Az Új társított szolgáltatás (Azure Databricks) képernyőn töltse ki az alábbi adatokat, és kattintson a Befejezés gombra

    • Név: xx_dbls, ahol az xx a monogramja
    • Databricks-munkaterület: awdbwsstudxx, ahol az xx a monogramja
    • Fürt kiválasztása: meglévő használata
    • Tartomány/régió: ki kell tölteni
    • Hozzáférési jogkivonat: Másolja ki a hozzáférési jogkivonatot a Jegyzettömb és illessze be ebbe a mezőbe
    • Válasszon a meglévő fürtök közül: awdbclstudxx, ahol az xx a monogramja
    • Más beállítások megadása az alapértelmezett beállításokra

    Megjegyzés:

    Amikor a befejezésre kattint, a rendszer visszalép a Szerző és figyelő képernyőre, ahol a xx_dbls létrejött, és az előző exercize fájlban létrehozott többi társított szolgáltatással együtt.

4. feladat: Databricks Notebook-tevékenységet használó folyamat létrehozása.

  1. A képernyő bal oldalán kattintson a Szerző ikonra, majd a Folyamat elemre. Ekkor megnyílik egy lap egy folyamattervezővel.

  2. A folyamattervező alján kattintson a paraméterek fülre, majd kattintson az + Új elemre

  3. Paraméter létrehozása a név nevével, sztringtípussal

  4. A Tevékenységek menüben bontsa ki a Databrickset.

  5. Kattintson a Jegyzetfüzet elemre, és húzza a jegyzetfüzetet a vászonra.

  6. Az alsó Jegyzetfüzet1 ablak tulajdonságai között hajtsa végre a következő lépéseket:

    • Váltson az Azure Databricks lapra.

    • Válassza ki az előző eljárásban létrehozott xx_dbls .

    • Váltson a Gépház lapra, és helyezze a /adftutorial/mynotebookot a Jegyzetfüzet elérési útba.

    • Bontsa ki az alapparamétereket, majd kattintson az + Új elemre

    • Paraméter létrehozása a bemenet nevével, @pipeline().parameters.name értékkel

  7. A Jegyzetfüzet1 alkalmazásban kattintson az Ellenőrzés gombra a Mentés sablonként gomb mellett. Ahogy megjelenik az ablak a képernyő jobb oldalán, a következőt írja: "A folyamat ellenőrzése megtörtént. Nem található hiba." Kattintson a >> gombra az ablak bezárásához.

  8. Kattintson az Összes közzététele elemre a társított szolgáltatás és folyamat közzétételéhez.

    Megjegyzés:

    Megjelenik egy üzenet, amely azt jeleníti meg, hogy az üzembe helyezés sikeres.

5. feladat: Folyamatfuttatás aktiválása

  1. A Jegyzetfüzet1 alkalmazásban kattintson az Eseményindító hozzáadása elemre, majd a Hibakeresés gomb melletti Trigger Most gombra.

  2. A Folyamatfuttatás párbeszédpanel a névparamétert kéri. Itt paraméterként használja a következőt: /path/filename. Kattintson a Finish gombra. Piros kör jelenik meg a jegyzetfüzet1 tevékenység felett a vásznon.

6. feladat: A folyamat figyelése

  1. A képernyő bal oldalán kattintson a Monitor fülre . Ellenőrizze, hogy lát-e folyamatfuttatást. Egy, a jegyzetfüzetet végrehajtó Databricks feladatfürt létrehozása körülbelül 5–8 percet vesz igénybe.

  2. Rendszeres időközönként kattintson a Frissítés gombra a folyamat futási állapotának ellenőrzéséhez.

  3. A folyamat futásához kapcsolódó tevékenységfuttatások megtekintéséhez kattintson a Tevékenységfuttatások megtekintése elemre a Műveletek oszlopban.

7. feladat: A kimenet ellenőrzése

  1. A Microsoft Edge-ben kattintson a mynotebook - Databricks fülre

  2. Az Azure Databricks-munkaterületen kattintson a fürtökre, és a feladat állapota függőben lévő végrehajtásként, futtatásként vagy leálltként jelenik meg.

  3. Kattintson az awdbclstudxx fürtre, majd az Eseménynaplóra a tevékenységek megtekintéséhez.

    Megjegyzés:

    A folyamatfuttatás indításának időpontjával kezdődő eseménytípusnak kell megjelennie.