Az Azure Databricks-feladat futtatása kiszolgáló nélküli számítással munkafolyamatokhoz

Cikk
05/13/2024

Fontos

A munkafolyamatok kiszolgáló nélküli számítása nyilvános előzetes verzióban érhető el. A jogosultságról és az engedélyezésről további információt a kiszolgáló nélküli számítási nyilvános előzetes verzió engedélyezése című témakörben talál.

Fontos

Mivel a munkafolyamatok kiszolgáló nélküli számításának nyilvános előzetes verziója nem támogatja a kimenő forgalom szabályozását, a feladatok teljes hozzáféréssel rendelkeznek az internethez.

A munkafolyamatok kiszolgáló nélküli számítása lehetővé teszi az Azure Databricks-feladat futtatását az infrastruktúra konfigurálása és üzembe helyezése nélkül. A kiszolgáló nélküli számítással az adatfeldolgozási és elemzési folyamatok implementálására összpontosít, és az Azure Databricks hatékonyan kezeli a számítási erőforrásokat, beleértve a számítási feladatok számítási feladatainak optimalizálását és méretezését. Az automatikus skálázás és a Photon automatikusan engedélyezve van a feladatot futtató számítási erőforrásokhoz.

A munkafolyamatokhoz készült kiszolgáló nélküli számítás automatikus optimalizálása automatikusan optimalizálja a számítást a megfelelő erőforrások, például a példánytípusok, a memória és a számítási feladatok alapján működő feldolgozómotorok kiválasztásával. Az automatikus optimalizálás automatikusan újrapróbálkozza a sikertelen feladatokat is.

A Databricks automatikusan frissíti a Databricks Runtime-verziót, hogy támogassa a platform fejlesztéseit és frissítéseit, miközben biztosítja az Azure Databricks-feladatok stabilitását. A kiszolgáló nélküli számítás által a munkafolyamatokhoz használt databricks-futtatókörnyezet aktuális verziójának megtekintéséhez tekintse meg a kiszolgáló nélküli számítási kiadási megjegyzéseket.

Mivel a fürtlétrehozási engedély nem szükséges, minden munkaterület-felhasználó használhat kiszolgáló nélküli számítást a munkafolyamatok futtatásához.

Ez a cikk azt ismerteti, hogy az Azure Databricks Jobs felhasználói felületén kiszolgáló nélküli számítást használó feladatok hozhatók létre és futtathatók. Automatizálhatja a kiszolgáló nélküli számítást használó feladatok létrehozását és futtatását a Jobs API-val, a Databricks-eszközcsomagokkal és a Pythonhoz készült Databricks SDK-val.

A Kiszolgáló nélküli számítást használó feladatok létrehozásához és futtatásához a Jobs API használatával kapcsolatos további információkért tekintse meg a REST API-referenciában szereplő Feladatok című témakört .
A Databricks-eszközcsomagok kiszolgáló nélküli számítást használó feladatok létrehozására és futtatására való használatával kapcsolatos információkért lásd : Feladat fejlesztése az Azure Databricksben a Databricks-eszközcsomagok használatával.
A Databricks SDK for Python kiszolgáló nélküli számítást használó feladatok létrehozásához és futtatásához való használatáról a Pythonhoz készült Databricks SDK-t ismertető cikkben olvashat.

Követelmények

Az Azure Databricks-munkaterületen engedélyezni kell a Unity Catalog használatát.
Mivel a munkafolyamatok kiszolgáló nélküli számítása megosztott hozzáférési módot használ, a számítási feladatoknak támogatniuk kell ezt a hozzáférési módot.
Az Azure Databricks-munkaterületnek támogatott régióban kell lennie. Tekintse meg az Azure Databricks-régiókat.

Feladat létrehozása kiszolgáló nélküli számítással

A kiszolgáló nélküli számítást a jegyzetfüzet, a Python-szkript, a dbt és a Python-kerekes feladattípusok támogatják. Alapértelmezés szerint a kiszolgáló nélküli számítás lesz kiválasztva számítási típusként, amikor új feladatot hoz létre, és hozzáad egy ilyen támogatott tevékenységtípust.

Kiszolgáló nélküli feladat létrehozása

A Databricks a kiszolgáló nélküli számítás használatát javasolja az összes feladathoz. A feladatok tevékenységeihez különböző számítási típusokat is megadhat, amelyek akkor lehetnek szükségesek, ha a munkafolyamatok kiszolgáló nélküli számítása nem támogatja a feladattípust.

Meglévő feladat konfigurálása kiszolgáló nélküli számítás használatára

A feladat szerkesztésekor átválthat egy meglévő feladatra, hogy kiszolgáló nélküli számítást használjon a támogatott tevékenységtípusokhoz. A kiszolgáló nélküli számításra váltáshoz a következőkre kell váltania:

A Feladat részletei oldalpanelen kattintson a Felcserélés elemre a Számítás területen, kattintson az Új gombra, adja meg vagy frissítse a beállításokat, majd kattintson a Frissítés gombra.
Kattintson a Számítás legördülő menüre, és válassza a Kiszolgáló nélküli lehetőséget.

Feladat váltása kiszolgáló nélküli számításra

Jegyzetfüzet ütemezése kiszolgáló nélküli számítással

A feladatok kiszolgáló nélküli számítással történő létrehozására és ütemezésére szolgáló Feladatok felhasználói felületének használata mellett közvetlenül a Databricks-jegyzetfüzetekből is létrehozhat és futtathat kiszolgáló nélküli számítást használó feladatokat. Lásd: Ütemezett jegyzetfüzet-feladatok létrehozása és kezelése.

Spark-konfigurációs paraméterek beállítása

A Spark kiszolgáló nélküli számításon való konfigurálásának automatizálásához a Databricks csak bizonyos Spark-konfigurációs paraméterek beállítását teszi lehetővé. Az engedélyezett paraméterek listájáért tekintse meg a Támogatott Spark-konfigurációs paramétereket.

A Spark konfigurációs paramétereit csak a munkamenet szintjén állíthatja be. Ehhez állítsa be őket egy jegyzetfüzetbe, és adja hozzá a jegyzetfüzetet egy olyan feladathoz, amely ugyanabban a feladatban szerepel, amely a paramétereket használja. Tekintse meg az Apache Spark konfigurációs tulajdonságainak lekérését és beállítását egy jegyzetfüzetben.

Jegyzetfüzet-környezetek és -függőségek konfigurálása

A jegyzetfüzetfeladatok erőforrástár-függőségeinek és környezeti konfigurációjának kezeléséhez adja hozzá a konfigurációt a jegyzetfüzet egy cellájába. Az alábbi példa a Python-kódtárakat pip install telepíti a munkaterület fájljaiból és egy requirements.txt fájlból, és beállít egy munkamenet-változót spark.sql.session.timeZone :

%pip install -r ./requirements.txt
%pip install simplejson
%pip install /Volumes/my/python.whl
%pip install /Workspace/my/python.whl
%pip install https://some-distro.net/popular.whl
spark.conf.set('spark.sql.session.timeZone', 'Europe/Amsterdam')

Ha ugyanazt a környezetet több jegyzetfüzetben szeretné beállítani, egyetlen jegyzetfüzettel konfigurálhatja a környezetet, majd a %run magic paranccsal futtathatja a jegyzetfüzetet bármely olyan jegyzetfüzetből, amely a környezetkonfigurációt igényli. Lásd: Jegyzetfüzet importálása %run használatával.

Környezetek és függőségek konfigurálása nem jegyzetfüzet-tevékenységekhez

Egyéb támogatott tevékenységtípusok, például Python-szkriptek, Python-kerék vagy dbt-feladatok esetén az alapértelmezett környezet tartalmazza a telepített Python-kódtárakat. A telepített kódtárak listájának megtekintéséhez tekintse meg a Telepített Python-kódtárak szakaszt annak a Databricks Runtime-verziónak a kibocsátási megjegyzéseiben, amelyen a munkafolyamatok központi telepítéséhez szükséges kiszolgáló nélküli számítás alapul. A kiszolgáló nélküli számítás által a munkafolyamatokhoz használt databricks-futtatókörnyezet aktuális verziójának megtekintéséhez tekintse meg a kiszolgáló nélküli számítási kiadási megjegyzéseket. Python-kódtárakat is telepíthet, ha egy feladathoz nincs telepítve egy kódtár. Python-kódtárakat telepíthet munkaterületfájlokból, Unity Catalog-kötetekből vagy nyilvános csomagtárakból. Tár hozzáadása feladat létrehozásakor vagy szerkesztésekor:

A Környezet és tárak legördülő menüben kattintsonaz Alapértelmezett környezet mellett, vagy kattintson az + Új környezet hozzáadása elemre.
A Környezet konfigurálása párbeszédpanelen kattintson a + Tár hozzáadása elemre.
Válassza ki a függőség típusát a Kódtárak legördülő menüből.
A Fájl elérési útja szövegmezőbe írja be a tár elérési útját.

Egy munkaterületfájlban lévő Python Wheel esetében az elérési útnak abszolútnak kell lennie, és a következővel /Workspace/kell kezdődnie: .
A Unity Catalog-kötetben lévő Python-kerekekhez az elérési útnak kell lennie /Volumes/<catalog>/<schema>/<volume>/<path>.whl.
requirements.txt Egy fájl esetében válassza a PyPi lehetőséget, és írja be a következőt-r /path/to/requirements.txt:

Kattintson a Megerősítés vagy a + Tár hozzáadása gombra egy másik tár hozzáadásához.
Ha feladatot ad hozzá, kattintson a Tevékenység létrehozása gombra. Ha egy feladatot szerkeszt, kattintson a Mentés gombra.

Kiszolgáló nélküli számítási automatikus optimalizálás konfigurálása az újrapróbálkozások letiltásához

A munkafolyamatokhoz készült kiszolgáló nélküli számítás automatikus optimalizálása automatikusan optimalizálja a feladatok futtatásához használt számítást, és újrapróbálkozott a sikertelen feladatokkal. Az automatikus optimalizálás alapértelmezés szerint engedélyezve van, és a Databricks azt javasolja, hogy hagyja engedélyezve, hogy a kritikus számítási feladatok legalább egyszer sikeresen fussanak. Ha azonban olyan számítási feladatokkal rendelkezik, amelyeket legfeljebb egyszer kell végrehajtani, például olyan feladatokat, amelyek nem idempotensek, kikapcsolhatja az automatikus optimalizálást a tevékenységek hozzáadásakor vagy szerkesztésekor:

Az Újrapróbálkozás mellett kattintson a Hozzáadás gombra (vagy ha már létezik újrapróbálkozési szabályzat).
Az Újrapróbálkozási szabályzat párbeszédpanelen törölje a jelet a kiszolgáló nélküli automatikus optimalizálás engedélyezése (további újrapróbálkozást is tartalmazhat) jelölőnégyzetből.
Kattintson a Megerősítés gombra.
Ha feladatot ad hozzá, kattintson a Tevékenység létrehozása gombra. Ha egy feladatot szerkeszt, kattintson a Mentés gombra.

A kiszolgáló nélküli számítást munkafolyamatokhoz használó feladatok költségeinek monitorozása

A kiszolgáló nélküli számítást munkafolyamatokhoz használó feladatok költségeit a számlázható használati rendszer táblájának lekérdezésével figyelheti. Ez a táblázat úgy frissül, hogy tartalmazza a kiszolgáló nélküli költségekkel kapcsolatos felhasználói és számítási feladatok attribútumait. Lásd: Számlázható használati rendszer táblareferenciája.

A Spark-lekérdezések részleteinek megtekintése

A munkafolyamatok kiszolgáló nélküli számítása új felülettel rendelkezik a Spark-utasítások részletes futásidejű információinak, például a metrikáknak és a lekérdezési terveknek a megtekintéséhez. A feladatokban szereplő Spark-utasítások lekérdezési elemzéseinek megtekintése kiszolgáló nélküli számításon fut:

Kattintson a Munkafolyamatok elemre az oldalsávon.
A Név oszlopban kattintson arra a feladatnévre, amelyhez meg szeretné tekinteni az elemzéseket.
Kattintson arra a futtatásra, amelyhez elemzéseket szeretne megtekinteni.
A Feladat futtatása oldalpanel Számítási szakaszában kattintson a Lekérdezéselőzmények elemre.
A rendszer átirányítja a lekérdezési előzményekre, amelyet a program előre szűrt a feladat futtatási azonosítója alapján.

A lekérdezési előzmények használatáról további információt a Lekérdezési előzmények című témakörben talál.

Korlátozások

A kiszolgáló nélküli számítási feladatok munkafolyamatokra vonatkozó korlátozásainak listáját a kiszolgáló nélküli számítási kibocsátási megjegyzések kiszolgáló nélküli számítási korlátozásai című témakörben találja.

Share via