Apache Spark-készletkonfigurációk a Azure Synapse Analyticsben

Cikk
06/01/2023

A Spark-készlet metaadatok készlete, amely meghatározza a számítási erőforrások követelményeit és a kapcsolódó viselkedési jellemzőket a Spark-példányok példányosításakor. Ezek a jellemzők magukban foglalják többek között a nevet, a csomópontok számát, a csomópontok méretét, a skálázási viselkedést és az élettartamot. A Spark-készletek önmagukban nem használnak fel erőforrásokat. A Spark-készletek létrehozásával kapcsolatban nem merülnek fel költségek. A díjak csak akkor merülnek fel, ha egy Spark-feladat végrehajtása a cél Spark-készleten történik, és a Spark-példány igény szerint példányosítva lesz.

A Spark-készletek létrehozásáról és az összes tulajdonságuk megtekintéséről itt olvashat : Ismerkedés a Spark-készletekkel a Synapse Analyticsben

Izolált számítás

Az Izolált számítás lehetőség nagyobb biztonságot nyújt a sparkos számítási erőforrások számára a nem megbízható szolgáltatásokból, ha a fizikai számítási erőforrást egyetlen ügyfélnek szenteli. Az izolált számítási lehetőség olyan számítási feladatokhoz ideális, amelyek magas fokú elkülönítést igényelnek más ügyfelek számítási feladataitól a megfelelőségi és szabályozási követelmények teljesítését is magában foglaló okokból. A Számítás elkülönítése lehetőség csak a XXXLarge (80 vCPU / 504 GB) csomópontmérettel érhető el, és csak a következő régiókban érhető el. Az izolált számítási lehetőség a készlet létrehozása után engedélyezhető vagy letiltható, bár előfordulhat, hogy a példányt újra kell indítani. Ha a jövőben várhatóan engedélyezi ezt a funkciót, győződjön meg arról, hogy a Synapse-munkaterület egy elkülönített számítási támogatású régióban jön létre.

USA keleti régiója
USA 2. nyugati régiója
USA déli középső régiója
USA-beli államigazgatás – Arizona
USA-beli államigazgatás – Virginia

Csomópontok

Az Apache Spark-készletpéldány egy átjárócsomópontból és két vagy több munkavégző csomópontból áll, legalább három csomóponttal egy Spark-példányban. Az átjárócsomópont további felügyeleti szolgáltatásokat futtat, például a Livyt, a Yarn Resource Manager, a Zookeepert és a Spark-illesztőt. Minden csomópont olyan szolgáltatásokat futtat, mint a Node Agent és a Yarn Node Manager. Minden munkavégző csomópont futtatja a Spark-végrehajtó szolgáltatást.

Csomópontméretek

A Spark-készlet olyan csomópontméretekkel határozható meg, amelyek egy 4 virtuális maggal és 32 GB memóriával rendelkező kis számítási csomóponttól a 64 virtuális maggal és csomópontonként 432 GB memóriával rendelkező XXLarge számítási csomópontig terjednek. A csomópontméretek a készlet létrehozása után módosíthatók, bár előfordulhat, hogy a példányt újra kell indítani.

Méret	virtuális mag	Memory (Memória)
Kicsi	4	32 GB
Közepes	8	64 GB
Nagy	16	128 GB
Xlarge	32	256 GB
XXLarge	64	432 GB
XXX Nagy (izolált számítás)	80	504 GB

Automatikus méretezés

Az Apache Spark-készletek automatikus skálázása lehetővé teszi a számítási erőforrások automatikus vertikális fel- és leskálázását a tevékenység mennyisége alapján. Ha az automatikus skálázási funkció engedélyezve van, meg kell adnia a skálázható csomópontok minimális és maximális számát. Ha az automatikus skálázási funkció le van tiltva, a beállított csomópontok száma változatlan marad. Ez a beállítás a készlet létrehozása után módosítható, bár előfordulhat, hogy újra kell indítani a példányt.

Rugalmas készlettároló

Az Apache Spark-készletek mostantól támogatják a rugalmas készlet tárolását. A rugalmas készlettároló lehetővé teszi, hogy a Spark-motor monitorozza a munkavégző csomópont ideiglenes tárolóját, és szükség esetén további lemezeket csatoljon. Az Apache Spark-készletek ideiglenes lemezterületet használnak a készlet példányosítása közben. A Spark-feladatok shuffle map-kimeneteket írnak, adatokat elosztást és kiömlött adatokat írnak a helyi virtuálisgép-lemezekre. A helyi lemezt használó műveletek például rendezhetők, gyorsítótárazhatók és megőrizhetők. Ha a virtuális gép ideiglenes lemezterülete elfogy, a Spark-feladatok a "Lemezterületen kívül" hiba miatt meghiúsulhatnak (java.io.IOException: Nincs hely az eszközön). A "Lemezterületen kívül" hibák esetén a feladatok nagy része nem vált át az ügyfélre a Spark-feladatok újrakonfigurálásához (például a partíciók számának finomhangolásához) vagy fürtökhöz (például további csomópontok hozzáadása a fürthöz). Előfordulhat, hogy ezek a hibák nem konzisztensek, és a felhasználó végül éles feladatok futtatásával kísérletezik. Ez a folyamat több dimenzióban is költséges lehet a felhasználó számára:

Elvesztegetett idő. Az ügyfeleknek nagy mértékben ki kell próbálniuk a feladatkonfigurációkat próbaverzióval és hibával, és elvárják, hogy megértsék a Spark belső metrikáit a helyes döntés meghozatalához.
Elpazarolt erőforrások. Mivel az éles feladatok különböző mennyiségű adatot képesek feldolgozni, a Spark-feladatok nem determinisztikus módon meghiúsulhatnak, ha az erőforrások nincsenek túlterve. Vegyük például az adateltérés problémáját, ami azt eredményezheti, hogy néhány csomópont több lemezterületet igényel, mint mások. Jelenleg a Synapse-ben egy fürt minden csomópontja ugyanolyan lemezterületet kap, és az összes csomópont lemezterületének növelése nem ideális megoldás, és óriási károkat okoz.
A feladat végrehajtásának lassulása. Abban a hipotetikus forgatókönyvben, amikor a problémát csomópontok automatikus skálázásával oldjuk meg (feltéve, hogy a költségek nem a végfelhasználót terhelik), a számítási csomópont hozzáadása továbbra is költséges (néhány percet vesz igénybe) a tárterület hozzáadása helyett (néhány másodpercet vesz igénybe).

Önnek nincs szükség beavatkozásra, és emiatt kevesebb feladathibát kell látnia.

Megjegyzés

Azure Synapse Rugalmas készlet tárolója jelenleg nyilvános előzetes verzióban érhető el. A nyilvános előzetes verzióban a rugalmas készlet tárterületének használata díjmentes.

Automatikus szüneteltetés

Az automatikus szüneteltetési funkció egy beállított tétlenségi időszak után felszabadítja az erőforrásokat, csökkentve az Apache Spark-készlet teljes költségét. A funkció engedélyezése után beállítható az üresjárati idő perceinek száma. Az automatikus szüneteltetés funkció független az automatikus skálázási funkciótól. Az erőforrások szüneteltethetők, ha az automatikus skálázás engedélyezve van vagy le van tiltva. Ez a beállítás a készlet létrehozása után módosítható, de az aktív munkameneteket újra kell indítani.