Databricks-jegyzetfüzet futtatása a Databricks-jegyzetfüzet tevékenységeivel az Azure Data Factoryban
A következőkre vonatkozik: Azure Data Factory Azure Synapse Analytics
Tipp.
Próbálja ki a Data Factoryt a Microsoft Fabricben, amely egy teljes körű elemzési megoldás a nagyvállalatok számára. A Microsoft Fabric az adattovábbítástól az adatelemzésig, a valós idejű elemzésig, az üzleti intelligenciáig és a jelentéskészítésig mindent lefed. Ismerje meg, hogyan indíthat új próbaverziót ingyenesen!
Ebben az oktatóanyagban egy olyan Azure Data Factory-folyamatot hoz létre az Azure Portal használatával, amely végrehajt egy Databricks-jegyzetfüzetet a Databricks-feladatfürtön. Továbbítja továbbá az Azure Data Factory paramétereit a Databricks-jegyzetfüzetnek a végrehajtás során.
Az oktatóanyagban az alábbi lépéseket fogja végrehajtani:
Adat-előállító létrehozása
Hozzon létre egy Databricks-jegyzetfüzetek tevékenységeit használó folyamatot.
Folyamat futtatásának aktiválása
A folyamat futásának monitorozása.
Ha még nincs Azure-előfizetése, kezdés előtt hozzon létre egy ingyenes fiókot.
Az alábbi videóban a funkció bemutatását és ismertetését tekintheti meg tizenegy percben:
Előfeltételek
- Azure Databricks-munkaterület. Hozzon létre egy Databricks-munkaterületet, vagy használjon egy már meglévőt. Hozzon létre egy Python-jegyzetfüzetet az Azure Databricks-munkaterületen. Ezután hajtsa végre a jegyzetfüzetet, és továbbítson neki paramétereket az Azure Data Factory segítségével.
Adat-előállító létrehozása
Indítsa el a Microsoft Edge vagy a Google Chrome böngészőt. A Data Factory felhasználói felületének használata jelenleg csak a Microsoft Edge-ben és a Google Chrome-ban támogatott.
Válassza az Erőforrás létrehozása lehetőséget az Azure Portal menüjében, válassza az Integráció, majd a Data Factory lehetőséget.
A Data Factory létrehozása lap Alapszintű beállítások lapján válassza ki azt az Azure-előfizetést, amelyben létre szeretné hozni az adat-előállítót.
Erőforráscsoport: hajtsa végre a következő lépések egyikét:
Válasszon ki egy meglévő erőforráscsoportot a legördülő listából.
Válassza az Új létrehozása lehetőséget, és adja meg egy új erőforráscsoport nevét.
Az erőforráscsoportokkal kapcsolatos információkért tekintse meg a Using resource groups to manage your Azure resources (Erőforráscsoportok használata az Azure-erőforrások kezeléséhez) című cikket.
Régió esetén válassza ki az adat-előállító helyét.
A listában csak a Data Factory által támogatott helyek és az Azure Data Factory-metaadatok tárolási helye jelenik meg. A Data Factory által használt társított adattárak (például az Azure Storage és az Azure SQL Database) és a Data Factory által használt számítások (például az Azure HDInsight) más régiókban is futtathatók.
A Név mezőbe írja be az ADFTutorialDataFactory nevet.
Az Azure data factory nevének globálisan egyedinek kell lennie. Ha a következő hibaüzenet jelenik meg, módosítsa a data factory nevét (például használja <az ADFTutorialDataFactory nevet>). A Data Factory-összetevők elnevezési szabályait a Data Factory elnevezési szabályait ismertető cikkben találja.
A Verzió résznél válassza a V2 értéket.
Válassza a Tovább: Git-konfiguráció, majd a Git konfigurálása később jelölőnégyzetet.
Válassza a Véleményezés + létrehozás lehetőséget, majd az ellenőrzés sikeres befejezése után válassza a Létrehozás lehetőséget .
A létrehozás befejezése után válassza az Erőforrás megnyitása lehetőséget a Data Factory lapra való navigáláshoz. Az Azure Data Factory Studio megnyitása csempét választva indítsa el az Azure Data Factory felhasználói felületi (UI) alkalmazást egy külön böngészőlapon.
Társított szolgáltatások létrehozása
Ebben a szakaszban létrehoz egy Databricks társított szolgáltatást. Ez a társított szolgáltatás tartalmazza a Databricks-fürt kapcsolatadatait:
Azure Databricks-beli társított szolgáltatás létrehozása
A kezdőlapon váltson a bal oldali panel Kezelés lapjára.
Válassza a Csatolt szolgáltatások lehetőséget a Csatlakozás ions területen, majd válassza az + Új lehetőséget.
Az Új társított szolgáltatás ablakban válassza a Compute>Azure Databricks lehetőséget, majd a Folytatás lehetőséget.
Az Új társított szolgáltatás ablakban hajtsa végre a következő lépéseket:
A Név mezőbe írja be a AzureDatabricks_LinkedService.
Válassza ki a jegyzetfüzet futtatásához megfelelő Databricks-munkaterületet .
A Fürt kiválasztása beállításnál válassza az Új feladatfürt lehetőséget.
A Databrick-munkaterület URL-címe esetében az adatokat automatikusan ki kell tölteni.
Hitelesítési típus esetén, ha az Access Tokent választja, hozza létre az Azure Databricks munkahelyéről. A lépéseket itt találhatja meg. Felügyeltszolgáltatás-identitás és felhasználó által hozzárendelt felügyelt identitás esetén adjon közreműködői szerepkört mindkét identitásnak az Azure Databricks-erőforrás hozzáférés-vezérlési menüjében.
Fürtverzió esetén válassza ki a használni kívánt verziót.
Fürtcsomópont-típus esetén válassza az oktatóanyag általános célú (HDD) kategóriájában a Standard_D3_v2lehetőséget.
A Feldolgozók mezőben adja meg a 2 mennyiséget.
Select Create.
Folyamat létrehozása
Kattintson a + (plusz) gombra, majd a menüben válassza a Folyamat elemet.
Hozzon létre egy, a folyamatban használni kívánt paramétert. Később ezt a paramétert átadhatja a Databricks-jegyzetfüzet tevékenységeinek. Az üres folyamatban válassza a Paraméterek lapot, majd válassza az + Új lehetőséget, és nevezze el névként.
A Tevékenységek eszközkészletben bontsa ki a Databricks elemet. Húzza a Jegyzetfüzet tevékenységet a Tevékenységek eszközkészletből a folyamat tervezőfelületére.
A Databricks-jegyzetfüzet tevékenységeinek tulajdonságok ablakában végezze el az alábbi lépéseket:
Váltson az Azure Databricks lapra.
Válassza AzureDatabricks_LinkedService (amelyet az előző eljárás során hozott létre).
Váltson a Settings (Beállítások) lapra.
Tallózással válasszon ki egy Databricks-jegyzetfüzet útvonalat. Hozzunk létre egy jegyzetfüzetet, és adjuk meg itt az útvonalat. A következő néhány lépést követve megkaphatja a jegyzetfüzet útvonalat.
Indítsa el az Azure Databricks-munkaterületet.
Hozzon létre egy Új mappát a munkaterületen, és adja neki az adftutorial nevet.
Új jegyzetfüzet létrehozását bemutató képernyőkép. (Python), nevezzük mynotebooknak az adftutorial mappa alatt, és kattintson a Létrehozás gombra.
Az újonnan létrehozott „mynotebook” jegyzetfüzetben adja hozzá a következő kódot:
# Creating widgets for leveraging parameters, and printing the parameters dbutils.widgets.text("input", "","") y = dbutils.widgets.get("input") print ("Param -\'input':") print (y)
Ebben az esetben a jegyzetfüzet elérési útja a /adftutorial /mynotebook.
Váltson vissza a Data Factory felhasználói felületet létrehozó eszközre. Lépjen Gépház Lapfülre a Jegyzetfüzet1 tevékenység alatt.
a. Adjon hozzá egy paramétert a jegyzetfüzet-tevékenységhez. Ugyanazt a paramétert használja, mint amit korábban hozzáadott a folyamathoz.
b. Adja meg a paramétert bemenetként, és adja meg az értéket kifejezésként @pipeline().parameters.name.
A folyamat érvényesítéséhez kattintson az Érvényesítés gombra az eszköztáron. Az érvényesítési ablak bezárásához kattintson a Bezárás gombra.
Válassza az Összes közzététele lehetőséget. A Data Factory felhasználói felülete entitásokat (társított szolgáltatásokat és folyamatot) tesz közzé az Azure Data Factory szolgáltatásban.
Folyamat futtatásának aktiválása
Válassza az EszköztárOn az Eseményindító hozzáadása lehetőséget, majd válassza az Eseményindító lehetőséget.
A Folyamatfuttatás párbeszédpanel a névparamétert kéri. Itt paraméterként használja a következőt: /path/filename. Kattintson az OK gombra.
A folyamat futásának monitorozása
Váltson a Figyelés lapra. Ellenőrizze, hogy lát-e folyamatfuttatást. Egy, a jegyzetfüzetet végrehajtó Databricks feladatfürt létrehozása körülbelül 5–8 percet vesz igénybe.
Rendszeres időközönként kattintson a Frissítés gombra a folyamat futási állapotának ellenőrzéséhez.
A folyamatfuttatáshoz társított tevékenységfuttatások megtekintéséhez válassza a folyamat1 hivatkozást a Folyamat neve oszlopban.
A Tevékenységfuttatások lapon válassza a Kimenet lehetőséget a Tevékenység neve oszlopban az egyes tevékenységek kimenetének megtekintéséhez, a Databricks-naplókra mutató hivatkozást pedig a Kimenet panelen találja a részletesebb Spark-naplókhoz.
A folyamatfuttatások nézetre való visszaváltáshoz válassza a minden folyamatfuttatás hivatkozását a felső menüben.
Kimenet ellenőrzése
Jelentkezzen be az Azure Databricks-munkaterületre, lépjen a Fürtökhöz, és láthatja, hogy a Feladat állapota végrehajtás függőben, fut vagy megszakítva.
A Feladat nevére kattintva megtekintheti a további részleteket. Ha a futás sikeres, érvényesítheti az átadott paramétereket és a Python-jegyzetfüzet kimenetét.
Kapcsolódó tartalom
A mintában szereplő folyamat elindít egy Databricks-jegyzetfüzet tevékenységet, és átad neki egy paramétert. Megtanulta végrehajtani az alábbi műveleteket:
Adat-előállító létrehozása
Hozzon létre egy Databricks-jegyzetfüzetek tevékenységeit használó folyamatot.
Folyamat futtatásának aktiválása
A folyamat futásának monitorozása.
Visszajelzés
https://aka.ms/ContentUserFeedback.
Hamarosan elérhető: 2024-ben fokozatosan kivezetjük a GitHub-problémákat a tartalom visszajelzési mechanizmusaként, és lecseréljük egy új visszajelzési rendszerre. További információ:Visszajelzés küldése és megtekintése a következőhöz: