Megosztás a következőn keresztül:


Adatok átalakítása Azure Databricks-tevékenység futtatásával

A Data Factory for Microsoft Fabric Azure Databricks-tevékenysége lehetővé teszi a következő Azure Databricks-feladatok vezénylésére:

  • Jegyzetfüzet
  • Jar
  • Python

Ez a cikk részletes útmutatót tartalmaz, amely leírja, hogyan hozhat létre Azure Databricks-tevékenységet a Data Factory felületével.

Előfeltételek

Első lépésként el kell végeznie a következő előfeltételeket:

Azure Databricks-tevékenység konfigurálása

Ha Azure Databricks-tevékenységet szeretne használni egy folyamatban, hajtsa végre a következő lépéseket:

Kapcsolat konfigurálása

  1. Hozzon létre egy új folyamatot a munkaterületen.

  2. Kattintson a folyamattevékenység hozzáadására, és keressen rá az Azure Databricksre.

    Screenshot of the Fabric Data pipelines landing page and Azure Databricks activity highlighted.

  3. Másik lehetőségként megkeresheti az Azure Databrickset a folyamattevékenységek panelen, és kiválaszthatja, hogy hozzáadja a folyamatvászonhoz.

    Screenshot of the Fabric UI with the Activities pane and Azure Databricks activity highlighted.

  4. Válassza ki az új Azure Databricks-tevékenységet a vásznon, ha még nincs kijelölve.

    Screenshot showing the General settings tab of the Azure Databricks activity.

Az Általános beállítások lap konfigurálásához tekintse meg az Általános beállításokat ismertető útmutatót.

Fürtök konfigurálása

  1. Válassza a Fürt fület. Ezután választhat egy meglévőt, vagy létrehozhat egy új Azure Databricks-kapcsolatot, majd kiválaszthat egy új feladatfürtöt, egy meglévő interaktív fürtöt vagy egy meglévő példánykészletet.

  2. Attól függően, hogy mit választ a fürthöz, töltse ki a megfelelő mezőket a bemutatott módon.

    • Az új feladatfürt és a meglévő példánykészlet alatt konfigurálhatja a feldolgozók számát, és engedélyezheti a kihasználatlan példányokat.
  3. Emellett további fürtbeállításokat is megadhat, például fürtszabályzatot, Spark-konfigurációt, Spark-környezeti változókat és egyéni címkéket a fürthöz, amelyhez csatlakozik. A databricks init szkriptek és a fürtnapló célútvonala a további fürtbeállítások között is hozzáadható.

    Feljegyzés

    Az Azure Data Factory Azure Databricks társított szolgáltatásban támogatott összes fejlett fürttulajdonság és dinamikus kifejezés mostantól a Microsoft Fabric Azure Databricks-tevékenységében is támogatott a felhasználói felület "További fürtkonfiguráció" szakaszában. Mivel ezek a tulajdonságok mostantól bekerülnek a tevékenység felhasználói felületébe; Ezek egyszerűen használhatók egy kifejezéssel (dinamikus tartalommal) anélkül, hogy az Azure Data Factory Azure Databricks társított szolgáltatásában speciális JSON-specifikációra lenne szükség.

    Screenshot showing the Cluster settings tab of the Azure Databricks activity.

  4. Az Azure Databricks-tevékenység mostantól a fürtszabályzat és a Unity Katalógus támogatását is támogatja.

    • A speciális beállítások között kiválaszthatja a fürtszabályzatot , így megadhatja, hogy mely fürtkonfigurációk engedélyezettek.
    • Emellett a speciális beállítások között konfigurálhatja a Unity Katalógus hozzáférési módját a fokozott biztonság érdekében.

    Screenshot showing the policy ID and Unity Catalog support under Cluster settings tab of the Azure Databricks activity.

Beállítások konfigurálása

A Gépház fülre kattintva 3 lehetőség közül választhat, hogy melyik Azure Databricks-típust szeretné vezényelni.

Screenshot showing the Settings tab of the Azure Databricks activity.

A jegyzetfüzettípus vezénylése az Azure Databricks-tevékenységben:

  1. A Gépház lapon a Jegyzetfüzet választógombot választva futtathat jegyzetfüzetet. Meg kell adnia az Azure Databricksen végrehajtandó jegyzetfüzet elérési útját, a jegyzetfüzetnek átadandó választható alapparamétereket, valamint a fürtre telepíteni kívánt további kódtárakat a feladat végrehajtásához.

    Screenshot showing the Notebooks type of the Azure Databricks activity.

A Jar-típus vezénylése az Azure Databricks-tevékenységben:

  1. A Gépház lapon a Jar választógombot választva futtathatja a Jart. Meg kell adnia az Azure Databricksen végrehajtandó osztálynevet, a Jarnak átadandó választható alapparamétereket, valamint a fürtre telepíteni kívánt további kódtárakat a feladat végrehajtásához.

    Screenshot showing the Jar type of the Azure Databricks activity.

A Python-típus vezénylése az Azure Databricks-tevékenységben:

  1. A Gépház lapon a Python-választógombot választva futtathat Egy Python-fájlt. Meg kell adnia az Azure Databricksben a végrehajtandó Python-fájl elérési útját, az opcionális alapparamétereket, valamint a fürtre telepíteni kívánt további kódtárakat a feladat végrehajtásához.

    Screenshot showing the Python type of the Azure Databricks activity.

Az Azure Databricks-tevékenységhez támogatott kódtárak

A fenti Databricks-tevékenységdefinícióban megadhatja a következő kódtártípusokat: jar, egg, whl, maven, pypi, cran.

További információkért tekintse meg a Databricks könyvtártípusokkal kapcsolatos dokumentációját .

Paraméterek átadása az Azure Databricks-tevékenység és -folyamatok között

A databricks-tevékenység BaseParameters tulajdonságával paramétereket adhat át a jegyzetfüzeteknek.

Bizonyos esetekben előfordulhat, hogy vissza kell adnia bizonyos értékeket a jegyzetfüzetből a szolgáltatásnak, amelyek felhasználhatók a szolgáltatás vezérlési folyamatához (feltételes ellenőrzésekhez), vagy az alsóbb rétegbeli tevékenységek használhatják fel (a méretkorlát 2 MB).

  1. A jegyzetfüzetben például meghívhatja a dbutils.notebook.exit("returnValue") nevet, és a megfelelő "returnValue" visszakerül a szolgáltatásba.

  2. A szolgáltatás kimenetét használhatja olyan kifejezésekkel, mint a @{activity('databricks activity name').output.runOutput}.

Screenshot showing how to pass base parameters in the Azure Databricks activity.

A folyamat mentése és futtatása vagy ütemezése

Miután konfigurálta a folyamathoz szükséges egyéb tevékenységeket, váltson a Kezdőlap lapra a folyamatszerkesztő tetején, és válassza a Mentés gombot a folyamat mentéséhez. A Futtatás lehetőséget választva közvetlenül futtathatja, vagy ütemezheti. Itt megtekintheti a futtatási előzményeket, vagy konfigurálhat más beállításokat is.

Screenshot showing how to save and run the pipeline.

Folyamatfuttatások monitorozása