Adatfeldolgozási és elemzési munkafolyamatok implementálása feladatok használatával

Cikk
03/25/2024

Azure Databricks-feladatokkal vezényelheti az adatfeldolgozási, gépi tanulási vagy adatelemzési folyamatokat a Databricks platformon. Az Azure Databricks-feladatok számos számítási feladatot támogatnak, például jegyzetfüzeteket, szkripteket, Delta Live Tables-folyamatokat, Databricks SQL-lekérdezéseket és dbt-projekteket . Az alábbi cikkekből megtudhatja, hogyan valósíthatja meg az Azure Databricks Jobs funkcióit és lehetőségeit az adatfolyamok implementálásához.

Adatok átalakítása, elemzése és vizualizációja egy Azure Databricks-feladattal

A feladatokkal olyan adatfolyamot hozhat létre, amely betölti, átalakítja, elemzi és vizualizálja az adatokat. A Databricks SQL Azure Databricks-feladatban való használata példa egy olyan folyamatot hoz létre, amely:

Egy Python-szkripttel adatokat hív le REST API-val.
Delta Live Tables használatával betölti és átalakítja a beolvasott adatokat, és menti az átalakított adatokat a Delta Lake-be.
A Databricks SQL feladatintegrációjával elemzi az átalakított adatokat, és grafikonokat hoz létre az eredmények megjelenítéséhez.

Adatbázis-átalakítások használata egy feladatban

dbt A feladattípust akkor használja, ha adatátalakítást végez egy dbt core-projekttel, és integrálni szeretné a projektet egy Azure Databricks-feladatba, vagy új dbt-átalakításokat szeretne létrehozni, és futtatni szeretné az átalakításokat egy feladatban. Lásd: Dbt-átalakítások használata egy Azure Databricks-feladatban.

Python-csomag használata feladatban

A Python-kerekes fájlok a Python-alkalmazások futtatásához szükséges fájlok csomagolásának és terjesztésének szabványos módjai. Könnyen létrehozhat olyan feladatot, amely Python-kódként csomagolt Python-kódot használ a Python wheel feladattípussal. Lásd: Python-kerekes fájl használata egy Azure Databricks-feladatban.

JAR-ban csomagolt kód használata

A JVM-nyelven implementált kódtárak és alkalmazások, például a Java és a Scala általában Java-archívumfájlba (JAR) vannak csomagolva. Az Azure Databricks Jobs támogatja a JAR JAR-ban a feladattípussal csomagolt kódot. Lásd: JAR használata Azure Databricks-feladatban.

Jegyzetfüzetek vagy Python-kód használata egy központi adattárban

Az éles összetevők verziókövetésének és együttműködésének egyik gyakori módja egy központi adattár, például a GitHub használata. Az Azure Databricks Jobs támogatja a feladatok létrehozását és futtatását egy adattárból importált jegyzetfüzetekkel vagy Python-kóddal, beleértve a GitHubot vagy a Databricks Git-mappákat. Lásd: Verzióvezérelt forráskód használata egy Azure Databricks-feladatban.

Feladatok vezénylése az Apache Airflow-nal

A Databricks az Azure Databricks Jobs használatát javasolja a munkafolyamatok vezényléséhez. Az Apache Airflow-t azonban gyakran használják munkafolyamat-vezénylési rendszerként, és natív támogatást nyújt az Azure Databricks-feladatokhoz. Bár az Azure Databricks Jobs vizuális felhasználói felületet biztosít a munkafolyamatok létrehozásához, az Airflow Python-fájlokat használ az adatfolyamok definiálásához és üzembe helyezéséhez. Ha egy feladatot szeretne létrehozni és futtatni az Airflow-nal, tekintse meg az Azure Databricks-feladatok Vezénylése az Apache Airflow-nal című témakört.

Feladat futtatása egyszerű szolgáltatásnévvel

A feladatokat szolgáltatásfiókként futtathatja egy Microsoft Entra ID (korábbi nevén Azure Active Directory) alkalmazás és szolgáltatásnév használatával. Ha egy feladatot szolgáltatásfiókként futtat egy egyéni felhasználó helyett, akkor szabályozhatja a feladathoz való hozzáférést, meggyőződhet arról, hogy a feladat rendelkezik a szükséges engedélyekkel, és megakadályozhatja a problémákat, ha egy feladattulajdonost eltávolítanak egy munkaterületről. Az Azure Databricks-feladatok futtatásához szolgáltatásnév létrehozásával és használatával kapcsolatos oktatóanyagért lásd : Feladat futtatása Microsoft Entra ID szolgáltatásnévvel.

Share via