Databricks-jegyzetfüzet futtatása a Databricks-jegyzetfüzet tevékenységeivel az Azure Data Factoryban

A KÖVETKEZŐKRE VONATKOZIK: Azure Data Factory Azure Synapse Analytics

Ebben az oktatóanyagban egy olyan Azure Data Factory-folyamatot hoz létre az Azure Portal használatával, amely végrehajt egy Databricks-jegyzetfüzetet a Databricks-feladatfürtön. Továbbítja továbbá az Azure Data Factory paramétereit a Databricks-jegyzetfüzetnek a végrehajtás során.

Az oktatóanyagban az alábbi lépéseket fogja végrehajtani:

  • Adat-előállító létrehozása

  • Hozzon létre egy Databricks-jegyzetfüzetek tevékenységeit használó folyamatot.

  • Folyamat futtatásának aktiválása

  • A folyamat futásának monitorozása.

Ha még nincs Azure-előfizetése, kezdés előtt hozzon létre egy ingyenes fiókot.

Az alábbi videóban a funkció bemutatását és ismertetését tekintheti meg tizenegy percben:

Előfeltételek

  • Azure Databricks-munkaterület. Hozzon létre egy Databricks-munkaterületet, vagy használjon egy már meglévőt. Hozzon létre egy Python-jegyzetfüzetet az Azure Databricks-munkaterületen. Ezután hajtsa végre a jegyzetfüzetet, és továbbítson neki paramétereket az Azure Data Factory segítségével.

Adat-előállító létrehozása

  1. Indítsa el a Microsoft Edge vagy a Google Chrome böngészőt. A Data Factory felhasználói felületének használata jelenleg csak a Microsoft Edge-ben és a Google Chrome-ban támogatott.

  2. Válassza az Erőforrás létrehozása lehetőséget a Azure Portal menüben, válassza az Integráció, majd a Data Factory lehetőséget.

    Screenshot showing Data Factory selection in the New pane.

  3. A Data Factory létrehozása lap Alapszintű beállítások lapján válassza ki azt az Azure-előfizetést, amelyben létre szeretné hozni az adat-előállítót.

  4. Erőforráscsoport: hajtsa végre a következő lépések egyikét:

    1. Válasszon ki egy meglévő erőforráscsoportot a legördülő listából.

    2. Válassza az Új létrehozása lehetőséget, és adja meg egy új erőforráscsoport nevét.

    Az erőforráscsoportokkal kapcsolatos információkért tekintse meg a Using resource groups to manage your Azure resources (Erőforráscsoportok használata az Azure-erőforrások kezeléséhez) című cikket.

  5. Régió esetén válassza ki az adat-előállító helyét.

    A listában csak a Data Factory által támogatott helyek és az Azure Data Factory-metaadatok tárolási helye jelenik meg. A Data Factory által használt társított adattárak (például az Azure Storage és Azure SQL Database) és a Data Factory által használt számítások (például az Azure HDInsight) más régiókban is futtathatók.

  6. A Név mezőbe írja be az ADFTutorialDataFactory nevet.

    Az Azure data factory nevének globálisan egyedinek kell lennie. Ha a következő hibaüzenetet látja, módosítsa az adat-előállító nevét (például használja <a yournameADFTutorialDataFactory> parancsot). A Data Factory-összetevők elnevezési szabályait a Data Factory elnevezési szabályait ismertető cikkben találja.

    Screenshot showing the Error when a name is not available.

  7. A Verzió résznél válassza a V2 értéket.

  8. Válassza a Tovább: Git-konfiguráció, majd a Git konfigurálása később jelölőnégyzetet.

  9. Válassza a Véleményezés + létrehozás lehetőséget, majd az ellenőrzés sikeres befejezése után válassza a Létrehozás lehetőséget .

  10. A létrehozás befejezése után az Erőforrás megnyitása gombra kattintva lépjen a Data Factory lapra. Válassza a Azure Data Factory Studio megnyitása csempét a Azure Data Factory felhasználói felület (UI) alkalmazás külön böngészőlapon való elindításához.

    Screenshot showing the home page for the Azure Data Factory, with the Open Azure Data Factory Studio tile.

Társított szolgáltatások létrehozása

Ebben a szakaszban létrehoz egy Databricks társított szolgáltatást. Ez a társított szolgáltatás tartalmazza a Databricks-fürt kapcsolatadatait:

Azure Databricks-beli társított szolgáltatás létrehozása

  1. A kezdőlapon váltson a bal oldali panel Kezelés lapjára.

    Screenshot showing the Manage tab.

  2. Válassza a Csatolt szolgáltatások lehetőséget a Kapcsolatok területen, majd válassza az + Új lehetőséget.

    Screenshot showing how to create a new connection.

  3. Az Új társított szolgáltatás ablakban válassza a ComputeAzure>Databricks elemet, majd a Folytatás lehetőséget.

    Screenshot showing how to specify a Databricks linked service.

  4. Az Új társított szolgáltatás ablakban hajtsa végre a következő lépéseket:

    1. A Név mezőbe írja be a AzureDatabricks_LinkedService.

    2. Válassza ki a megfelelő Databricks-munkaterületet , amelyen a jegyzetfüzetet futtatni fogja.

    3. A Fürt kiválasztása beállításnál válassza az Új feladatfürt lehetőséget.

    4. A Databrick-munkaterület URL-címe esetében az adatokat automatikusan ki kell tölteni.

    5. A Hozzáférési jogkivonatot hozza létre az Azure Databricks-munkaterületről. A lépéseket itt találhatja meg.

    6. Fürtverzió esetén válassza ki a használni kívánt verziót.

    7. Fürtcsomópont-típusesetén válassza Standard_D3_v2az oktatóanyag általános célú (HDD) kategóriájában.

    8. A Feldolgozók mezőben adja meg a 2 mennyiséget.

    9. Válassza a Létrehozás lehetőséget.

      Screenshot showing the configuration of the new Azure Databricks linked service.

Folyamat létrehozása

  1. Kattintson a + (plusz) gombra, majd a menüben válassza a Folyamat elemet.

    Screenshot showing buttons for creating a new pipeline.

  2. Hozzon létre egy, a folyamatban használni kívánt paramétert. Később ezt a paramétert átadhatja a Databricks-jegyzetfüzet tevékenységeinek. Az üres folyamatban válassza a Paraméterek lapot, majd az + Új lehetőséget, és nevezze el névként.

    Screenshot showing how to create a new parameter.

    Screenshot showing how to create the name parameter.

  3. A Tevékenységek eszközkészletben bontsa ki a Databricks elemet. Húzza a Jegyzetfüzet tevékenységet a Tevékenységek eszközkészletből a folyamat tervezőfelületére.

    Screenshot showing how to drag the notebook to the designer surface.

  4. A Databricks-jegyzetfüzet tevékenységeinek tulajdonságok ablakában végezze el az alábbi lépéseket:

    1. Váltson az Azure Databricks lapra.

    2. Válassza AzureDatabricks_LinkedService (amelyet az előző eljárásban hozott létre).

    3. Váltson a Gépház lapra.

    4. Tallózással válasszon ki egy Databricks-jegyzetfüzet útvonalat. Hozzunk létre egy jegyzetfüzetet, és adjuk meg itt az útvonalat. A következő néhány lépést követve megkaphatja a jegyzetfüzet útvonalat.

      1. Indítsa el az Azure Databricks-munkaterületet.

      2. Hozzon létre egy Új mappát a munkaterületen, és adja neki az adftutorial nevet.

        Screenshot showing how to create a new folder.

      3. Új jegyzetfüzet létrehozását bemutató képernyőkép. (Python) nevezzük mynotebooknakaz adftutorial mappában, és kattintson a Létrehozás gombra.

        Screenshot showing how to create a new notebook.

        Screenshot showing how to set the properties of the new notebook.

      4. Az újonnan létrehozott „mynotebook” jegyzetfüzetben adja hozzá a következő kódot:

        # Creating widgets for leveraging parameters, and printing the parameters
        
        dbutils.widgets.text("input", "","")
        y = dbutils.widgets.get("input")
        print ("Param -\'input':")
        print (y)
        

        Screenshot showing how to create widgets for parameters.

      5. Ebben az esetben a jegyzetfüzet elérési útja a /adftutorial/mynotebook.

  5. Váltson vissza a Data Factory felhasználói felületet létrehozó eszközre. Navigáljon Gépház Lapfülre a Jegyzetfüzet1 tevékenység alatt.

    a. Adjon hozzá egy paramétert a Jegyzetfüzet-tevékenységhez. Ugyanazt a paramétert használja, mint amit korábban hozzáadott a folyamathoz.

    Screenshot showing how to add a parameter.

    b. Adja meg a paramétert bemenetként , és adja meg az értéket kifejezésként @pipeline().parameters.name.

  6. A folyamat érvényesítéséhez kattintson az Érvényesítés gombra az eszköztáron. Az érvényesítési ablak bezárásához kattintson a Bezárás gombra.

    Screenshot showing how to validate the pipeline.

  7. Válassza az Összes közzététele lehetőséget. A Data Factory felhasználói felülete entitásokat (társított szolgáltatásokat és folyamatot) tesz közzé az Azure Data Factory szolgáltatásban.

    Screenshot showing how to publish the new data factory entities.

Folyamat futtatásának aktiválása

Válassza az Eseményindító hozzáadása lehetőséget az eszköztáron, majd válassza az Eseményindító lehetőséget.

Screenshot showing how to select the 'Trigger now' command.

A Folyamatfuttatás párbeszédpanel a névparamétert kéri. Itt paraméterként használja a következőt: /path/filename. Válassza az OK lehetőséget.

Screenshot showing how to provide a value for the name parameters.

A folyamat futásának monitorozása

  1. Váltson a Figyelés lapra. Ellenőrizze, hogy lát-e folyamatfuttatást. Egy, a jegyzetfüzetet végrehajtó Databricks feladatfürt létrehozása körülbelül 5–8 percet vesz igénybe.

    Screenshot showing how to monitor the pipeline.

  2. Rendszeres időközönként kattintson a Frissítés gombra a folyamat futási állapotának ellenőrzéséhez.

  3. A folyamatfuttatáshoz társított tevékenységfuttatások megtekintéséhez válassza a folyamat1 hivatkozást a Folyamatnév oszlopban.

  4. A Tevékenységfuttatások lapon válassza a Kimenet lehetőséget a Tevékenységnév oszlopban az egyes tevékenységek kimenetének megtekintéséhez, és a Kimenet panelen található Databricks-naplókra mutató hivatkozást talál a részletesebb Spark-naplókhoz.

  5. A folyamatfuttatások nézetre a felső menü Minden folyamatfuttatás hivatkozásának kiválasztásával válthat vissza.

Kimenet ellenőrzése

Jelentkezzen be az Azure Databricks-munkaterületre, lépjen a Fürtökhöz, és láthatja, hogy a Feladat állapota végrehajtás függőben, fut vagy megszakítva.

Screenshot showing how to view the job cluster and the job.

A Feladat nevére kattintva megtekintheti a további részleteket. Ha a futás sikeres, érvényesítheti az átadott paramétereket és a Python-jegyzetfüzet kimenetét.

Screenshot showing how to view the run details and output.

Következő lépések

A mintában szereplő folyamat elindít egy Databricks-jegyzetfüzet tevékenységet, és átad neki egy paramétert. Megtanulta végrehajtani az alábbi műveleteket:

  • Adat-előállító létrehozása

  • Hozzon létre egy Databricks-jegyzetfüzetek tevékenységeit használó folyamatot.

  • Folyamat futtatásának aktiválása

  • A folyamat futásának monitorozása.