Bevezetés az Azure Databricks-munkafolyamatok használatába

Az Azure Databricks Workflows vezényli az adatfeldolgozási, gépi tanulási és elemzési folyamatokat a Databricks Adatintelligencia-platformon. A munkafolyamatok teljes körűen felügyelt vezénylési szolgáltatásokat használnak a Databricks platformmal integrálva, beleértve az Azure Databricks-feladatokat is, hogy nem interaktív kódot futtasson az Azure Databricks-munkaterületen és a Delta Live Tablesben a megbízható és karbantartható ETL-folyamatok létrehozásához.

A munkafolyamatok Databricks-platformmal való vezénylésének előnyeiről a Databricks-munkafolyamatok című témakörben olvashat bővebben.

Példa Azure Databricks-munkafolyamatra

Az alábbi ábra egy Azure Databricks-feladat által vezényelt munkafolyamatot szemléltet:

  1. Futtasson egy Delta Live Tables-folyamatot, amely betölti a nyers kattintásfolyam-adatokat a felhőbeli tárolóból, megtisztítja és előkészíti az adatokat, munkamenetesíti az adatokat, és megőrzi a végső munkamenet-alapú adatokat a Delta Lake-re.
  2. Futtasson egy Delta Live Tables-folyamatot, amely betölti az adatokat a felhőbeli tárolóból, megtisztítja és átalakítja az adatokat feldolgozásra, és megőrzi a végső adatkészletet Delta Lake-ként.
  3. Csatlakozzon a sorrendhez és a munkamenet-alapú kattintásfolyam-adatokhoz, és hozzon létre egy új adatkészletet az elemzéshez.
  4. Funkciók kinyerése az előkészített adatokból.
  5. A funkciók megőrzéséhez és egy gépi tanulási modell betanítása érdekében párhuzamosan hajthat végre feladatokat.

Diagram illustrating an example workflow

Mi az Az Azure Databricks-feladatok?

Az Azure Databricks-feladatokkal adatfeldolgozási és elemzési alkalmazásokat futtathat egy Azure Databricks-munkaterületen. A feladat állhat egyetlen tevékenységből, vagy egy nagy, többfeladatos, összetett függőségekkel rendelkező munkafolyamat is lehet. Az Azure Databricks végzi a feladatok összehangolását, a fürtkezelést, a monitorozást és a hibajelentést az összes feladathoz. A feladatokat azonnal, rendszeresen, könnyen használható ütemezési rendszeren keresztül futtathatja, amikor új fájlok érkeznek egy külső helyre, vagy folyamatosan, hogy a feladat egy példánya mindig fusson. A feladatokat interaktív módon is futtathatja a jegyzetfüzet felhasználói felületén.

Feladatokat a Feladatok felhasználói felületen, a Databricks parancssori felületén vagy a Jobs API meghívásával hozhat létre és futtathat. A felhasználói felület vagy az API segítségével javíthatja és ismét futtathatja a sikertelen vagy törölt feladatokat. A feladatfuttatási eredményeket a felhasználói felület, a parancssori felület, az API és az értesítések (például e-mail, webhook célhely vagy Slack-értesítések) használatával figyelheti.

A Databricks parancssori felületének használatáról a Mi a Databricks parancssori felület? A Jobs API használatáról a Jobs API-t tekintheti meg.

Az alábbi szakaszok az Azure Databricks Jobs fontos funkcióit ismertetik.

Fontos

  • Egy munkaterület legfeljebb 1000 egyidejű tevékenységfuttatásra korlátozódik. 429 Too Many Requests válasz jelenik meg, ha olyan futtatást kér, amelyet a rendszer nem tud azonnal elindítani.
  • A munkaterület egy órán belül létrehozható feladatainak száma legfeljebb 10000 lehet (beleértve a "futtatások elküldését"). Ez a korlát a REST API- és jegyzetfüzet-munkafolyamatokkal létrehozott feladatokra is vonatkozik.

Adatfeldolgozás és elemzés megvalósítása feladatfeladatokkal

Az adatfeldolgozási és elemzési munkafolyamatot feladatokkal valósíthatja meg. A feladatok egy vagy több tevékenységből állnak. Létrehozhat olyan feladatfeladatokat, amelyek jegyzetfüzeteket, JARS-eket, Delta Live Tables-folyamatokat vagy Python-, Scala-, Spark-küldési és Java-alkalmazásokat futtatnak. A feladatfeladatok a Databricks SQL-lekérdezéseit, riasztásait és irányítópultjait is vezényelhetik elemzések és vizualizációk létrehozásához, vagy a dbt-tevékenység használatával dbt-átalakításokat futtathat a munkafolyamatban. Az örökölt Spark Submit-alkalmazások is támogatottak.

Egy másik feladatot futtató feladathoz is hozzáadhat egy feladatot. Ez a funkció lehetővé teszi, hogy egy nagy folyamatot több kisebb feladatra bontson, vagy általánosított modulokat hozzon létre, amelyeket több feladat újra felhasználhat.

A tevékenységek végrehajtási sorrendjét a tevékenységek közötti függőségek megadásával szabályozhatja. A feladatokat konfigurálhatja úgy, hogy egymás után vagy párhuzamosan fussanak.

Feladatok interaktív, folyamatos vagy feladat-eseményindítók használatával történő futtatása

A feladatokat interaktív módon futtathatja a Feladatok felhasználói felületéről, AZ API-ból vagy a parancssori felületről, vagy folyamatos feladatokat is futtathat. Létrehozhat egy ütemezést a feladat rendszeres futtatásához, vagy futtathatja a feladatot, amikor új fájlok érkeznek egy külső helyre, például az Amazon S3-ba, az Azure Storage-ba vagy a Google Cloud Storage-ba.

Feladat előrehaladásának figyelése értesítések használatával

Értesítéseket kaphat, ha egy feladat vagy tevékenység elindul, befejeződik vagy meghiúsul. Értesítéseket küldhet egy vagy több e-mail-címre vagy rendszercélra (például webhook-célhelyekre vagy Slackre). Lásd: E-mail- és rendszerértesítések hozzáadása feladateseményekhez.

Feladatok futtatása az Azure Databricks számítási erőforrásaival

A Databricks-fürtök és az SQL-raktárak biztosítják a számítási erőforrásokat a feladatokhoz. A feladatokat feladatfürttel, teljes célú fürttel vagy SQL-raktárral is futtathatja:

  • A feladatfürt egy dedikált fürt a feladathoz vagy az egyes feladatokhoz. A feladat használhat olyan feladatfürtöt, amelyet minden tevékenység megosztott, vagy konfigurálhat fürtöt az egyes tevékenységekhez, amikor létrehoz vagy szerkeszt egy tevékenységet. Egy feladatfürt akkor jön létre, amikor a feladat vagy tevékenység elindul és leáll, amikor a feladat vagy tevékenység véget ér.
  • A teljes célú fürtök olyan megosztott fürtök, amelyek manuálisan indulnak el és fejeződnek be, és több felhasználó és feladat is megosztható.

Az erőforrás-használat optimalizálása érdekében a Databricks egy feladatfürt használatát javasolja a feladatokhoz. A fürtindításra való várakozással töltött idő csökkentése érdekében fontolja meg egy teljes körű fürt használatát. Lásd: Az Azure Databricks számítási feladatainak használata.

Sql Warehouse használatával futtathat Databricks SQL-feladatokat, például lekérdezéseket, irányítópultokat vagy riasztásokat. SQL-raktárral is futtathat dbt-átalakításokat a dbt-feladattal.

Következő lépések

Az Azure Databricks-feladatok használatának első lépései:

További információ a munkafolyamatok Azure Databricks-feladatokkal történő kiépítéséről, kezeléséről és hibaelhárításáról:

  • Megtudhatja, hogyan kommunikálhat az Azure Databricks-feladatok tevékenységei között tevékenységértékekkel.
  • Ebből a cikkből megtudhatja, hogyan adhatja át a feladatokkal kapcsolatos kontextust feladat-tevékenységekbe feladatparaméter-változókkal.
  • Megtudhatja, hogyan konfigurálhatja a feladattevékenységeket feltételes futtatásra a tevékenység függőségeinek állapota alapján.
  • Megtudhatja, hogyan háríthatja el és javíthatja ki a sikertelen feladatokat.
  • Értesítést kaphat, ha a feladat futása elindul, befejeződik vagy sikertelen lesz a feladatfuttatási értesítésekkel.
  • A feladatokat egyéni ütemezés szerint indíthatja el, vagy folyamatos feladatot futtathat.
  • Megtudhatja, hogyan futtathatja az Azure Databricks-feladatot, amikor új adatok érkeznek fájlbetöltési eseményindítókkal.
  • Megtudhatja, hogyan használhatja a Databricks számítási erőforrásait a feladatok futtatásához.
  • Ismerje meg a Jobs API frissítéseit a munkafolyamatok Azure Databricks-feladatokkal való létrehozásának és kezelésének támogatásához.
  • Útmutatók és oktatóanyagok segítségével többet tudhat meg az adat-munkafolyamatok Azure Databricks-feladatokkal való implementálásáról.

Mi az a Delta Live Tables?

Feljegyzés

A Delta Live Tableshez prémium csomag szükséges. További információért forduljon a Databricks-fiók csapatához.

A Delta Live Tables egy keretrendszer, amely leegyszerűsíti az ETL- és streamelési adatfeldolgozást. A Delta Live Tables az adatok hatékony betöltését biztosítja az automatikus betöltő, AZ SQL és a Python felületek beépített támogatásával, amelyek támogatják az adatátalakítások deklaratív megvalósítását, valamint támogatják az átalakított adatok Delta Lake-be írását. Ön határozza meg az adatokon végrehajtandó átalakításokat, a Delta Live Tables pedig a feladatvezénylést, a fürtkezelést, a monitorozást, az adatminőséget és a hibakezelést kezeli.

Első lépésként tekintse meg a Delta Live Tables bemutatása című témakört.

Azure Databricks-feladatok és Delta Live Tables

Az Azure Databricks Jobs és a Delta Live Tables átfogó keretrendszert biztosít a teljes körű adatfeldolgozási és elemzési munkafolyamatok létrehozásához és üzembe helyezéséhez.

Az adatok betöltéséhez és átalakításához használja a Delta Live Tableset. Az Azure Databricks-feladatok segítségével vezényelheti a Databricks platformon egy vagy több adatfeldolgozási és elemzési feladatból álló számítási feladatokat, beleértve a Delta Live Tables betöltési és átalakítási feladatait.

Munkafolyamat-vezénylési rendszerként az Azure Databricks Jobs a következőket is támogatja:

  • Feladatok futtatása aktivált alapon, például munkafolyamat ütemezés szerint történő futtatása.
  • Adatelemzés SQL-lekérdezésekkel, gépi tanulással és adatelemzéssel jegyzetfüzetekkel, szkriptekkel vagy külső kódtárakkal stb.
  • Egyetlen feladatból álló feladat futtatása, például jar-ban csomagolt Apache Spark-feladat futtatása.

Munkafolyamat vezénylése az Apache AirFlow-tal

Bár a Databricks az Azure Databricks Jobs használatát javasolja az adat-munkafolyamatok vezényléséhez, az Apache Airflow használatával is kezelheti és ütemezheti az adat-munkafolyamatokat. Az Airflow használatával egy Python-fájlban definiálhatja a munkafolyamatot, az Airflow pedig felügyeli a munkafolyamat ütemezését és futtatását. Lásd: Azure Databricks-feladatok vezénylése az Apache Airflow használatával.

Munkafolyamat-vezénylés az Azure Data Factoryvel

Az Azure Data Factory (ADF) egy felhőalapú adatintegrációs szolgáltatás, amellyel adattárolási, áthelyezési és feldolgozási szolgáltatásokat írhat automatizált adatfolyamokba. Az ADF használatával egy Azure Databricks-feladatot vezényelhet egy ADF-folyamat részeként.

Ha meg szeretné tudni, hogyan futtathat egy feladatot az ADF webes tevékenységével, beleértve az Azure Databricks-beli hitelesítésT az ADF-ből, olvassa el az Azure Databricks-feladatok vezénylését az Azure Data Factoryből.

Az ADF beépített támogatást is biztosít a Databricks-jegyzetfüzetek, Python-szkriptek vagy kód ADF-folyamatokban lévő JAR-ekben csomagolt futtatásához.

A Databricks-jegyzetfüzetek ADF-folyamatokban való futtatásáról a Databricks-jegyzetfüzet futtatása az Azure Data Factory Databricks-notebook-tevékenységével, majd az adatok átalakítása Databricks-jegyzetfüzet futtatásával című témakörben olvashat.

Ha tudni szeretné, hogyan futtathat Python-szkripteket egy ADF-folyamatban, olvassa el az Adatok átalakítása Python-tevékenység Azure Databricksben való futtatásával című témakört.

Ha meg szeretné tudni, hogyan futtathat jar-ban csomagolt kódot egy ADF-folyamatban, olvassa el az Adatok átalakítása Jar-tevékenység azure Databricksben való futtatásával című témakört.