Share via


Databricks-jegyzetfüzet futtatása a Databricks-jegyzetfüzet tevékenységeivel az Azure Data Factoryban

A következőkre vonatkozik: Azure Data Factory Azure Synapse Analytics

Tipp.

Próbálja ki a Data Factoryt a Microsoft Fabricben, amely egy teljes körű elemzési megoldás a nagyvállalatok számára. A Microsoft Fabric az adattovábbítástól az adatelemzésig, a valós idejű elemzésig, az üzleti intelligenciáig és a jelentéskészítésig mindent lefed. Ismerje meg, hogyan indíthat új próbaverziót ingyenesen!

Ebben az oktatóanyagban egy olyan Azure Data Factory-folyamatot hoz létre az Azure Portal használatával, amely végrehajt egy Databricks-jegyzetfüzetet a Databricks-feladatfürtön. Továbbítja továbbá az Azure Data Factory paramétereit a Databricks-jegyzetfüzetnek a végrehajtás során.

Az oktatóanyagban az alábbi lépéseket fogja végrehajtani:

  • Adat-előállító létrehozása

  • Hozzon létre egy Databricks-jegyzetfüzetek tevékenységeit használó folyamatot.

  • Folyamat futtatásának aktiválása

  • A folyamat futásának monitorozása.

Ha még nincs Azure-előfizetése, kezdés előtt hozzon létre egy ingyenes fiókot.

Az alábbi videóban a funkció bemutatását és ismertetését tekintheti meg tizenegy percben:

Előfeltételek

  • Azure Databricks-munkaterület. Hozzon létre egy Databricks-munkaterületet, vagy használjon egy már meglévőt. Hozzon létre egy Python-jegyzetfüzetet az Azure Databricks-munkaterületen. Ezután hajtsa végre a jegyzetfüzetet, és továbbítson neki paramétereket az Azure Data Factory segítségével.

Adat-előállító létrehozása

  1. Indítsa el a Microsoft Edge vagy a Google Chrome böngészőt. A Data Factory felhasználói felületének használata jelenleg csak a Microsoft Edge-ben és a Google Chrome-ban támogatott.

  2. Válassza az Erőforrás létrehozása lehetőséget az Azure Portal menüjében, válassza az Integráció, majd a Data Factory lehetőséget.

    Screenshot showing Data Factory selection in the New pane.

  3. A Data Factory létrehozása lap Alapszintű beállítások lapján válassza ki azt az Azure-előfizetést, amelyben létre szeretné hozni az adat-előállítót.

  4. Erőforráscsoport: hajtsa végre a következő lépések egyikét:

    1. Válasszon ki egy meglévő erőforráscsoportot a legördülő listából.

    2. Válassza az Új létrehozása lehetőséget, és adja meg egy új erőforráscsoport nevét.

    Az erőforráscsoportokkal kapcsolatos információkért tekintse meg a Using resource groups to manage your Azure resources (Erőforráscsoportok használata az Azure-erőforrások kezeléséhez) című cikket.

  5. Régió esetén válassza ki az adat-előállító helyét.

    A listában csak a Data Factory által támogatott helyek és az Azure Data Factory-metaadatok tárolási helye jelenik meg. A Data Factory által használt társított adattárak (például az Azure Storage és az Azure SQL Database) és a Data Factory által használt számítások (például az Azure HDInsight) más régiókban is futtathatók.

  6. A Név mezőbe írja be az ADFTutorialDataFactory nevet.

    Az Azure data factory nevének globálisan egyedinek kell lennie. Ha a következő hibaüzenet jelenik meg, módosítsa a data factory nevét (például használja <az ADFTutorialDataFactory nevet>). A Data Factory-összetevők elnevezési szabályait a Data Factory elnevezési szabályait ismertető cikkben találja.

    Screenshot showing the Error when a name is not available.

  7. A Verzió résznél válassza a V2 értéket.

  8. Válassza a Tovább: Git-konfiguráció, majd a Git konfigurálása később jelölőnégyzetet.

  9. Válassza a Véleményezés + létrehozás lehetőséget, majd az ellenőrzés sikeres befejezése után válassza a Létrehozás lehetőséget .

  10. A létrehozás befejezése után válassza az Erőforrás megnyitása lehetőséget a Data Factory lapra való navigáláshoz. Az Azure Data Factory Studio megnyitása csempét választva indítsa el az Azure Data Factory felhasználói felületi (UI) alkalmazást egy külön böngészőlapon.

    Screenshot showing the home page for the Azure Data Factory, with the Open Azure Data Factory Studio tile.

Társított szolgáltatások létrehozása

Ebben a szakaszban létrehoz egy Databricks társított szolgáltatást. Ez a társított szolgáltatás tartalmazza a Databricks-fürt kapcsolatadatait:

Azure Databricks-beli társított szolgáltatás létrehozása

  1. A kezdőlapon váltson a bal oldali panel Kezelés lapjára.

    Screenshot showing the Manage tab.

  2. Válassza a Csatolt szolgáltatások lehetőséget a Csatlakozás ions területen, majd válassza az + Új lehetőséget.

    Screenshot showing how to create a new connection.

  3. Az Új társított szolgáltatás ablakban válassza a Compute>Azure Databricks lehetőséget, majd a Folytatás lehetőséget.

    Screenshot showing how to specify a Databricks linked service.

  4. Az Új társított szolgáltatás ablakban hajtsa végre a következő lépéseket:

    1. A Név mezőbe írja be a AzureDatabricks_LinkedService.

    2. Válassza ki a jegyzetfüzet futtatásához megfelelő Databricks-munkaterületet .

    3. A Fürt kiválasztása beállításnál válassza az Új feladatfürt lehetőséget.

    4. A Databrick-munkaterület URL-címe esetében az adatokat automatikusan ki kell tölteni.

    5. Hitelesítési típus esetén, ha az Access Tokent választja, hozza létre az Azure Databricks munkahelyéről. A lépéseket itt találhatja meg. Felügyeltszolgáltatás-identitás és felhasználó által hozzárendelt felügyelt identitás esetén adjon közreműködői szerepkört mindkét identitásnak az Azure Databricks-erőforrás hozzáférés-vezérlési menüjében.

    6. Fürtverzió esetén válassza ki a használni kívánt verziót.

    7. Fürtcsomópont-típus esetén válassza az oktatóanyag általános célú (HDD) kategóriájában a Standard_D3_v2lehetőséget.

    8. A Feldolgozók mezőben adja meg a 2 mennyiséget.

    9. Select Create.

      Screenshot showing the configuration of the new Azure Databricks linked service.

Folyamat létrehozása

  1. Kattintson a + (plusz) gombra, majd a menüben válassza a Folyamat elemet.

    Screenshot showing buttons for creating a new pipeline.

  2. Hozzon létre egy, a folyamatban használni kívánt paramétert. Később ezt a paramétert átadhatja a Databricks-jegyzetfüzet tevékenységeinek. Az üres folyamatban válassza a Paraméterek lapot, majd válassza az + Új lehetőséget, és nevezze el névként.

    Screenshot showing how to create a new parameter.

    Screenshot showing how to create the name parameter.

  3. A Tevékenységek eszközkészletben bontsa ki a Databricks elemet. Húzza a Jegyzetfüzet tevékenységet a Tevékenységek eszközkészletből a folyamat tervezőfelületére.

    Screenshot showing how to drag the notebook to the designer surface.

  4. A Databricks-jegyzetfüzet tevékenységeinek tulajdonságok ablakában végezze el az alábbi lépéseket:

    1. Váltson az Azure Databricks lapra.

    2. Válassza AzureDatabricks_LinkedService (amelyet az előző eljárás során hozott létre).

    3. Váltson a Settings (Beállítások) lapra.

    4. Tallózással válasszon ki egy Databricks-jegyzetfüzet útvonalat. Hozzunk létre egy jegyzetfüzetet, és adjuk meg itt az útvonalat. A következő néhány lépést követve megkaphatja a jegyzetfüzet útvonalat.

      1. Indítsa el az Azure Databricks-munkaterületet.

      2. Hozzon létre egy Új mappát a munkaterületen, és adja neki az adftutorial nevet.

        Screenshot showing how to create a new folder.

      3. Új jegyzetfüzet létrehozását bemutató képernyőkép. (Python), nevezzük mynotebooknak az adftutorial mappa alatt, és kattintson a Létrehozás gombra.

        Screenshot showing how to create a new notebook.

        Screenshot showing how to set the properties of the new notebook.

      4. Az újonnan létrehozott „mynotebook” jegyzetfüzetben adja hozzá a következő kódot:

        # Creating widgets for leveraging parameters, and printing the parameters
        
        dbutils.widgets.text("input", "","")
        y = dbutils.widgets.get("input")
        print ("Param -\'input':")
        print (y)
        

        Screenshot showing how to create widgets for parameters.

      5. Ebben az esetben a jegyzetfüzet elérési útja a /adftutorial /mynotebook.

  5. Váltson vissza a Data Factory felhasználói felületet létrehozó eszközre. Lépjen Gépház Lapfülre a Jegyzetfüzet1 tevékenység alatt.

    a. Adjon hozzá egy paramétert a jegyzetfüzet-tevékenységhez. Ugyanazt a paramétert használja, mint amit korábban hozzáadott a folyamathoz.

    Screenshot showing how to add a parameter.

    b. Adja meg a paramétert bemenetként, és adja meg az értéket kifejezésként @pipeline().parameters.name.

  6. A folyamat érvényesítéséhez kattintson az Érvényesítés gombra az eszköztáron. Az érvényesítési ablak bezárásához kattintson a Bezárás gombra.

    Screenshot showing how to validate the pipeline.

  7. Válassza az Összes közzététele lehetőséget. A Data Factory felhasználói felülete entitásokat (társított szolgáltatásokat és folyamatot) tesz közzé az Azure Data Factory szolgáltatásban.

    Screenshot showing how to publish the new data factory entities.

Folyamat futtatásának aktiválása

Válassza az EszköztárOn az Eseményindító hozzáadása lehetőséget, majd válassza az Eseményindító lehetőséget.

Screenshot showing how to select the 'Trigger now' command.

A Folyamatfuttatás párbeszédpanel a névparamétert kéri. Itt paraméterként használja a következőt: /path/filename. Kattintson az OK gombra.

Screenshot showing how to provide a value for the name parameters.

A folyamat futásának monitorozása

  1. Váltson a Figyelés lapra. Ellenőrizze, hogy lát-e folyamatfuttatást. Egy, a jegyzetfüzetet végrehajtó Databricks feladatfürt létrehozása körülbelül 5–8 percet vesz igénybe.

    Screenshot showing how to monitor the pipeline.

  2. Rendszeres időközönként kattintson a Frissítés gombra a folyamat futási állapotának ellenőrzéséhez.

  3. A folyamatfuttatáshoz társított tevékenységfuttatások megtekintéséhez válassza a folyamat1 hivatkozást a Folyamat neve oszlopban.

  4. A Tevékenységfuttatások lapon válassza a Kimenet lehetőséget a Tevékenység neve oszlopban az egyes tevékenységek kimenetének megtekintéséhez, a Databricks-naplókra mutató hivatkozást pedig a Kimenet panelen találja a részletesebb Spark-naplókhoz.

  5. A folyamatfuttatások nézetre való visszaváltáshoz válassza a minden folyamatfuttatás hivatkozását a felső menüben.

Kimenet ellenőrzése

Jelentkezzen be az Azure Databricks-munkaterületre, lépjen a Fürtökhöz, és láthatja, hogy a Feladat állapota végrehajtás függőben, fut vagy megszakítva.

Screenshot showing how to view the job cluster and the job.

A Feladat nevére kattintva megtekintheti a további részleteket. Ha a futás sikeres, érvényesítheti az átadott paramétereket és a Python-jegyzetfüzet kimenetét.

Screenshot showing how to view the run details and output.

A mintában szereplő folyamat elindít egy Databricks-jegyzetfüzet tevékenységet, és átad neki egy paramétert. Megtanulta végrehajtani az alábbi műveleteket:

  • Adat-előállító létrehozása

  • Hozzon létre egy Databricks-jegyzetfüzetek tevékenységeit használó folyamatot.

  • Folyamat futtatásának aktiválása

  • A folyamat futásának monitorozása.