Ajánlott eljárások: Fürtkonfiguráció

Azure Databricks több lehetőséget is kínál a fürtök létrehozásakor és konfigurálásakor, hogy a lehető legjobb teljesítményt nyújtsa a lehető legalacsonyabb költségek mellett. Ez a rugalmasság azonban kihívásokat is teremthet, amikor a számítási feladatok optimális konfigurációit próbálja meghatározni. Az új fürtök létrehozásakor vagy a meglévő fürtök konfigurálásakor a konfigurációs lehetőségeket a felhasználók által használt fürtök használati lehetőségeinek figyelembe vennie. Néhány dolog, amit figyelembe kell venni a konfigurációs beállítások meghatározásakor:

  • Milyen típusú felhasználó fogja használni a fürtöt? Az adatelemzők különböző feladattípusokat futtathatnak, amelyek követelményei eltérnek az adatmérnököktől vagy az adatelemzőktől.
  • Milyen típusú számítási feladatokat futtatnak a felhasználók a fürtön? Például a kötegelt kinyerési, átalakítási és betöltési (ETL) feladatok valószínűleg más követelményekkel rendelkeznek, mint az elemzési számítási feladatok.
  • Milyen szintű szolgáltatói szerződést (SLA-t) kell teljesítenie?
  • Milyen költségvetési korlátozások vannak érvényben?

Ez a cikk a fürtkonfigurációval kapcsolatos javaslatokat tartalmaz a különböző forgatókönyvekhez ezen szempontok alapján. Ez a cikk emellett a fürtök Azure Databricks és a funkciókkal kapcsolatos szempontokat is ismerteti.

A konfigurációs döntésekhez a költségek és a teljesítmény között meg kell egyenrekedni. A fürt elsődleges költsége magában foglalja a fürt által felhasznált Databricks-egységeket (DBUs), valamint a fürt futtatásához szükséges mögöttes erőforrások költségeit. Nem biztos, hogy egyértelműek a másodlagos költségek, például a vállalkozás számára az SLA-nak való meg nem fel elégedése, a csökkent alkalmazotti hatékonyság vagy a gyenge szabályozások miatt esetlegesen erőforrás-pazarlás.

Fürtszolgáltatás

A részletesebb fürtkonfigurációs forgatókönyvek megvitatása előtt fontos megérteni a fürtök Azure Databricks egyes funkcióit, és hogy ezek hogyan használhatók a legjobban.

Összes célú fürt és feladatfürt

Fürt létrehozásakor ki kell választania egy fürttípust: egy összes célú fürtöt vagy egy feladatfürtöt. Az összes célú fürt több felhasználóval is megosztható, és eseti elemzéshez, adatfeltáráshoz vagy fejlesztéshez a legmegfelelőbb. Miután végzett a feldolgozás megvalósításával, és készen áll a kód működőképesizálására, váltson át a feladatfürtön való futtatásra. A feladatfürtök leállnak a feladat végén, ami csökkenti az erőforrás-használatot és a költségeket.

Fürt üzemmód

Azure Databricks három fürtmódottámogat: Standard, Magas egyidejűség és Egycsomópontos. A legtöbb normál felhasználó standard vagy egycsomópontos fürtöt használ.

  • A standard fürtök ideálisak nagy mennyiségű adat feldolgozásához Apache Spark.
  • Az egycsomópontos fürtök kis mennyiségű adatot vagy nem elosztott számítási feladatokat, például egycsomópontos gépi tanulási kódtárakat használnak.
  • A magas egyidejűségi fürtök ideálisak olyan felhasználói csoportok számára, akiknek meg kell osztania az erőforrásokat, vagy alkalmi feladatokat kell futtatnia. A rendszergazdák általában magas egyidejűségi fürtöt hoznak létre. A Databricks az automatikus skálázás engedélyezését javasolja a magas egyidejűségi szintű fürtökhöz.

Igény szerinti és spot példányok

A költségek megtakarítása érdekében a Azure Databricks támogatja a fürtök igény szerinti és kihasználható példányok kombinációjával való létrehozását. A kihasználatlan példányokkal kihasználhatja az Azure nem használt kapacitását az alkalmazások futtatásával, az alkalmazás számítási kapacitásának növelésével és az átviteli sebesség növelésével.

Automatikus skálázás

Az automatikus skálázás lehetővé teszi a fürtök automatikus átméretezését a számítási feladatok alapján. Az automatikus skálázás számos alkalmazási helyzetet és forgatókönyvet használhat költség- és teljesítmény szempontjából, de nehéz lehet megérteni, hogy mikor és hogyan használható az automatikus skálázás. A következőkben néhány szempontot kell figyelembe venni annak meghatározásához, hogy az automatikus skálázást kell-e használni, és hogyan lehet a legnagyobb előnyt kihozni:

  • Az automatikus skálázás általában a rögzített méretű fürtökhöz képest csökkenti a költségeket.
  • Az automatikus skálázású számítási feladatok gyorsabban futnak, mint az alul kiépített, rögzített méretű fürtök.
  • Egyes számítási feladatok nem kompatibilisek az automatikus skálázású fürtök, például a spark-submit feladatokkal és néhány Python-csomaggal.
  • Az egyfelhasználós, minden célra használható fürtök esetében előfordulhat, hogy az automatikus skálázás lelassítja a fejlesztést vagy az elemzést, ha a minimálisan beállított dolgozók száma túl alacsony. Ennek az az oka, hogy az ezek által futtatott parancsok vagy lekérdezések gyakran több perc távolságra vannak egymástól. Ez az az idő, amelyben a fürt tétlen, és a költségek csökkentése érdekében leskálásos lehet. A következő parancs végrehajtásakor a fürtkezelő megkísérli a felskálázatot, amely néhány percet vesz igénybe, amíg a példányokat lekérte a felhőszolgáltatótól. Ez idő alatt előfordulhat, hogy a feladatok nem elegendő erőforrással futnak, ami lelassítja az eredmények lekérésének idejét. Bár a dolgozók minimális számának növelése segít, a költségeket is növeli. Ez egy másik példa, amelyben a költségeket és a teljesítményt egyensúlyba kell hoznunk.
  • A Delta Caching használata esetén fontos megjegyezni, hogy a csomóponton gyorsítótárazott adatok elvesznek, ha az adott csomópont leáll. Ha a gyorsítótárazott adatok megőrzése fontos a számítási feladathoz, érdemes lehet egy rögzített méretű fürtöt használni.
  • Ha egy ETL számítási feladatot futtató feladatfürttel van, a hangolás során időnként megfelelően méreteheti a fürtöt, ha tudja, hogy a feladat valószínűleg nem változik. Az automatikus skálázás azonban rugalmasságot biztosít az adatméret növekedése esetén. Azt is érdemes megjegyezni, hogy az optimalizált automatikus skálázás csökkentheti a hosszú ideig futó feladatokkal kapcsolatos költségeket, ha hosszú ideig tart, amikor a fürt kihasználatlan, vagy egy másik folyamat eredményeire vár. Azonban a feladat kisebb késéseket tapasztalhat, mivel a fürt megkísérli a megfelelő méretezést. Ha egy feladathoz szigorú ATA-k vannak meg, a rögzített méretű fürtök jobb választást kínálnak, vagy érdemes lehet egy Azure Databricks-készletet használni a fürt kezdési időének csökkentése érdekében.

Azure Databricks támogatja a helyi tárterület automatikus skálázását is. A helyi tárterület automatikus méretezésével a Azure Databricks monitorozza a fürt Spark-munkamunkásai számára rendelkezésre álló szabad lemezterület mennyiségét. Ha egy feldolgozó elkezd alacsonyan futni a lemezen, a Azure Databricks automatikusan csatlakoztat egy új felügyelt kötetet a feldolgozóhoz, mielőtt elfogy a lemezterület.

Medencék

A készletek az elérhető, használatra kész példányok fenntartásával csökkentik a fürt indítási és felskálás-időkorrekét. A Databricks azt javasolja, hogy a készletek előnyeit kihasználva javítsa a feldolgozási időt, és minimalizálja a költségeket.

Databricks Runtime verziók

A Databricks a legújabb Databricks Runtime használatát javasolja az összes célú fürthöz. A legújabb verzióval biztosíthatja a legújabb optimalizálásokat és a legfrissebb kompatibilitást a kód és az előre betöltött csomagok között.

Az operatív számítási feladatokat futtató feladatfürtök esetében érdemes lehet a Hosszú távú támogatás (LTS) Databricks Runtime használni. Az LTS-verzió használata biztosítja, hogy ne omjjon kompatibilitási problémákba, és alaposan tesztelje a számítási feladatokat a frissítés előtt. Ha gépi tanulással vagy genomokkal kapcsolatban speciális felhasználási esete van, fontolja meg a speciális Databricks Runtime használatát.

Fürt szabályzatok

Azure Databricks házirendek lehetővé teszik a rendszergazdák számára, hogy vezérlőket kényszerítsen a fürtök létrehozása és konfigurálása során. A Databricks fürt-szabályzatok használatát javasolja az útmutatóban tárgyalt javaslatok alkalmazásában. A fürt-szabályzatokkal kapcsolatos további információkért olvassa el a fürtökre vonatkozó ajánlott eljárások útmutatóját.

Automatikus le megszakítás

Sok felhasználó nem gondolja, hogy le kell mondania a fürtöt, amikor már nem használja őket. Szerencsére a fürtök automatikusan leállnak egy adott időszak után, alapértelmezés szerint 120 perc.

A rendszergazdák ezt az alapértelmezett beállítást a fürt szabályzatának létrehozásakor módosíthatják. A beállítás csökkentésével csökkentheti a költségeket, mert csökkenti a fürtök üresjárati idejét. Fontos megjegyezni, hogy amikor egy fürt leáll, minden állapot elveszik, beleértve az összes változót, ideiglenes táblát, gyorsítótárat, függvényt, objektumot stb. A fürt újraindításakor az állapot egészét vissza kell állítani. Ha egy fejlesztő egy 30 perces ebédszünetre lép ki, akkor pazarlás lenne a jegyzetfüzetet a korábban is ugyanolyan állapotba visszahozni.

Fontos

A tétlen fürtök a megszakítás előtti inaktivitási időszakban továbbra is halmozottan halmozottak fel DBU- és felhőpéldány-díjakat.

Szemétgyűjtés

Bár kevésbé nyilvánvaló, mint a cikkben tárgyalt egyéb szempontok, a szemétgyűjtés segíthet optimalizálni a fürtökön a feladat teljesítményét. A nagy mennyiségű RAM biztosításával a feladatok hatékonyabban teljesítenek, de késéseket is okozhatnak a szemétgyűjtés során.

A hosszú szemétgyűjtési frissítések hatásának minimalizálása érdekében kerülje az olyan fürtök üzembe helyezését, amelyekhez nagy mennyiségű RAM van konfigurálva az egyes példányok számára. Ha több RAM van lefoglalva a végrehajtóhoz, az hosszabb szemétgyűjtési időt fog igénybe verőlni. Ehelyett konfigurálja a kisebb RAM-méretű példányokat, és telepítsen több példányt, ha több memóriára van szüksége a feladatokhoz. Vannak azonban olyan esetek, amikor kevesebb, több RAM-mal rendelkező csomópont ajánlott, például olyan számítási feladatok esetében, amelyek sok elosztást igényelnek, ahogy azt a Fürtméretezés szempontjainál is tárgyaljuk.

Fürt hozzáférés-vezérlése

A fürtengedélyek két típusát konfigurálhatja:

  • A Fürt létrehozásának engedélyezése engedély szabályozza, hogy a felhasználók fürtöt hozhatnak létre.
  • A fürtszintű engedélyek egy adott fürt használatát és módosítását szabályozják.

A fürtengedélyek konfigurálásával kapcsolatos további információkért lásd: fürt hozzáférés-vezérlése.

Fürtöt akkor hozhat létre, ha fürt létrehozási engedélyekkel rendelkezik, vagy hozzáféréssel rendelkezik egy fürt szabályzathoz, amely lehetővé teszi bármely fürt létrehozására a szabályzat specifikációiban. A fürt létrehozója a tulajdonos, és Kezelhető engedélyekkel rendelkezik, ami lehetővé teszi számukra, hogy a fürt adatelérési engedélyeinek korlátain belül bármely más felhasználóval megosszák azt.

A fürtengedélyek és a fürt házirendek ismertetése fontos a fürtkonfigurációk gyakori forgatókönyvek esetén való meghatározásakor.

Fürtcímkék

A fürtcímkék lehetővé teszik a szervezet különböző csoportjai által használt felhőerőforrások költségeinek egyszerű monitorját. A fürtök létrehozásakor kulcs-érték sztringként megadhatja a címkéket, és Azure Databricks a címkéket felhőalapú erőforrásokra, például példányra és EBS-kötetre is alkalmazza. A címkék betartatásával kapcsolatos további információkért olvassa el a fürt szabályzatokkal kapcsolatos ajánlott eljárásokkal kapcsolatos útmutatóját.

Fürtméretezés szempontjai

Az Azure Databricks egy végrehajtót futtat munkavégző csomópontonként. Ezért a végrehajtó és a feldolgozó kifejezés felcserélhető a Azure Databricks kontextusában. A fürtök méretét általában a feldolgozók száma alapján állapítják meg, de más fontos tényezőket is figyelembe kell venni:

  • Végrehajtó magok teljes száma (számítás): Az összes végrehajtó magszáma. Ez határozza meg a fürt maximális párhuzamosságát.
  • Végrehajtó teljes memóriája: Az összes végrehajtó ram-jában lévő teljes memória. Ez határozza meg, hogy mennyi adat tárolható a memóriában, mielőtt lemezre kerül.
  • Végrehajtó helyi tárolója: A helyi lemezes tárolás típusa és mennyisége. A helyi lemez elsődlegesen az osztás és a gyorsítótárazás során kicsatolások esetén használatos.

További szempontok a feldolgozópéldány típusa és mérete, amelyek a fenti tényezőket is befolyásolják. A fürt méretezésekor vegye figyelembe a következőt:

  • Mennyi adatot fog a számítási feladat felhasználni?
  • Mi a számítási feladat számítási összetettsége?
  • Honnan olvas adatokat?
  • Hogyan particionálják az adatokat külső tárolóban?
  • Mekkora párhuzamosságra van szüksége?

A kérdések megválaszolása segít meghatározni az optimális fürtkonfigurációkat a számítási feladatok alapján. A csak keskeny átalakításokat (olyan átalakításokat, ahol az egyes bemeneti partíciók csak egy kimeneti partícióhoz fognak hozzájárulni) használt egyszerű ETL-stílusú számítási feladatok esetében a számításra optimalizált konfigurációra összpontosíthat. Ha sok osztásra számít, akkor fontos a memória mennyisége, valamint a tárterület, amely figyelembe veszi az adatmennyiséget. Kevesebb nagy méretű példány csökkentheti a hálózati I/O-t, amikor adatokat átvitele történik a gépek között a nagy átvitelű számítási feladatok során.

A feldolgozók száma és a feldolgozópéldány-típusok mérete között egyensúly van. Egy 40 maggal és 100 GB RAM-mal rendelkező, két feldolgozóval rendelkező fürt számítási és memória memóriája megegyezik egy nyolc feldolgozófürt 10 maggal és 25 GB RAM-mal.

Ha várhatóan számos újra beolvassa ugyanezeket az adatokat, a számítási feladatok gyorsítótárazása előnyös lehet. Fontolja meg a Tárolásra optimalizált konfigurációt a Delta Cache-gyorsítótárral.

Példák fürtméretezésre

Az alábbi példák adott típusú számítási feladatok alapján mutatják be a fürtökre vonatkozó javaslatokat. Ezek a példák olyan konfigurációkat is tartalmaznak, amelyek elkerülhetők, és miért nem alkalmasak ezek a konfigurációk a számítási feladatok típusaihoz.

Adatelemzés

Az adatelemzők általában több partícióból származó adatokat igénylő feldolgozást végeznek, ami számos osztási művelethez vezet. A kisebb számú csomóponttal lévő fürtök csökkenthetik az elosztás végrehajtásához szükséges hálózatot és lemez I/O-t. Az alábbi ábrán látható A fürt valószínűleg a legjobb választás, különösen az egyetlen elemzőt támogató fürtök esetén.

A D fürt valószínűleg a legrosszabb teljesítményt fogja nyújtani, mivel több, kevesebb memóriával és tárhellyel is felcsatolást igénylő csomópont esetén több adatfelosztásra lesz szükség a feldolgozás befejezéséhez.

Adatelemzési fürt méretezése

Az elemzési számítási feladatokhoz valószínűleg többször is be kell olvasnia ugyanezeket az adatokat, ezért az ajánlott feldolgozótípusok úgy vannak optimalizálva, hogy a Delta Cache engedélyezve legyen.

Az elemzési számítási feladatokhoz ajánlott további funkciók a következők:

  • Az automatikus leállítás engedélyezésével biztosíthatja, hogy a fürtök bizonyos tétlenség után leállnak.
  • Fontolja meg az automatikus skálázás engedélyezését az elemző jellemző számítási feladatai alapján.
  • Érdemes lehet készleteket használni, amelyek lehetővé teszik a fürtök előre jóváhagyott példánytípusokra való korlátozását, és biztosítják a konzisztens fürtkonfigurációkat.

Valószínűleg nem hasznos funkciók:

  • Storage automatikus skálázást, mivel ez a felhasználó valószínűleg nem fog sok adatot előállítani.
  • Magas egyidejűségi fürtök, mivel ez a fürt egyetlen felhasználóhoz, és a magas egyidejűségi fürtök a legmegfelelőbbek a megosztott használatra.

Alapszintű kötegelt ETL

Az egyszerű kötegelt ETL-feladatok, amelyek nem igényelnek széles körű átalakításokat, például illesztéseket vagy összesítéseket, általában kihasználják a számításra optimalizált fürtök előnyét. Az ilyen típusú számítási feladatok esetében az alábbi ábrán látható fürtök bármelyike elfogadható.

Alapszintű kötegelt ETL-fürtméretezés

A számításra optimalizált feldolgozótípusok használata ajánlott; Ezek olcsóbbak lesznek, és ezekhez a számítási feladatokhoz valószínűleg nincs szükség jelentős memóriára vagy tárterületre.

A készlet használata előnyt nyújthat az egyszerű ETL-feladatokat támogató fürtök számára a fürtindítási idők csökkentésével és a teljes futásidő csökkentésével a feladat folyamatok futtatásakor. Mivel azonban az ilyen típusú számítási feladatok általában ütemezett feladatokként futnak, ahol a fürt csak elég ideig fut a feladat elvégzéséhez, a készlet használata nem biztosít előnyt.

A következő funkciók valószínűleg nem hasznosak:

  • Delta Caching, mivel az adatok újraolvasása nem várható.
  • Az automatikus leállítás valószínűleg nem szükséges, mivel ezek valószínűleg ütemezett feladatok.
  • Az automatikus skálázás nem ajánlott, mivel a számítást és a tárolást előre konfigurálni kell a használathoz.
  • A magas egyidejűségi szintű fürtök többfelhasználósak számára vannak szánva, és nem hasznosak az egyetlen feladatot futtató fürtök számára.

Összetett kötegelt ETL

Az összetettebb ETL-feladatok, például az olyan feldolgozás, amelyhez uniók és táblák közötti illesztés szükséges, valószínűleg akkor működnek a legjobban, ha minimalizálható az adatok elkevert mennyisége. Mivel a fürtben a dolgozók számának csökkentése segít minimalizálni az elosztást, érdemes egy kisebb fürtöt, például az A fürtöt a következő ábrán egy nagyobb fürtre, például a D fürtre venni.

Összetett ETL-fürtméretezés

Az összetett átalakítások számításigényesek lehetnek, így az optimális számú magot el érő munkaterhelések esetében további csomópontok hozzáadására lehet szükség a fürthöz.

Az egyszerű ETL-feladatokhoz hasonló a számításra optimalizált feldolgozótípusok használata ajánlott; Ezek olcsóbbak lesznek, és ezekhez a számítási feladatokhoz valószínűleg nincs szükség jelentős memóriára vagy tárterületre. Az egyszerű ETL-feladatokhoz hasonló fő fürtszolgáltatás a készletek használata, amelyek csökkentik a fürtindítási időket, és csökkentik a teljes futásidőt a feladat folyamatok futtatásakor.

A következő funkciók valószínűleg nem hasznosak:

  • Delta Caching, mivel az adatok újraolvasása nem várható.
  • Az automatikus leállítás valószínűleg nem szükséges, mivel ezek valószínűleg ütemezett feladatok.
  • Az automatikus skálázás nem ajánlott, mivel a számítást és a tárolást előre konfigurálni kell a használathoz.
  • A magas egyidejűségi szintű fürtök többfelhasználósak számára vannak szánva, és nem hasznosak az egyetlen feladatot futtató fürtök számára.

Gépi tanulási modellek betanítása

Mivel a gépi tanulási modell betanítási kezdeti iterációi gyakran kísérleti jellegűek, egy kisebb fürt, például az A fürt jó választás. A kisebb fürtök az elosztások hatását is csökkentik.

Ha a stabilitás aggodalomra ad okot, vagy összetettebb szakaszok esetén egy nagyobb fürt, például a B vagy a C fürt jó választás lehet.

A nagy fürtök, például a D fürt nem ajánlottak az adatok csomópontok közötti elosztásának többletterhelése miatt.

Machine Learning-fürtök méretezése

Az ajánlott feldolgozótípusok olyan tárolók, amelyeken engedélyezve van a Delta Caching, hogy ugyanazokkal az adatokkal többször is beolvassa az adatokat, és lehetővé tegye a betanítás adatainak gyorsítótárazást. Ha a tárolásra optimalizált csomópontok által biztosított számítási és tárolási lehetőségek nem elegendőek, fontolja meg a GPU-optimalizált csomópontok használatát. Az egyik lehetséges hátránya, hogy a Delta Caching támogatja ezeket a csomópontokat.

Az elemzési számítási feladatokhoz ajánlott további funkciók a következők:

  • Az automatikus leállítás engedélyezésével biztosíthatja, hogy a fürtök bizonyos tétlenség után leállnak.
  • Fontolja meg az automatikus skálázás engedélyezését az elemző jellemző számítási feladatai alapján.
  • Használjon készleteket, amelyek lehetővé teszik a fürtök előre jóváhagyott példánytípusokra való korlátozását, és biztosítják a fürtkonfigurációk konzisztens használatát.

Valószínűleg nem hasznos funkciók:

  • Automatikus skálázás, mivel a gyorsítótárazott adatok elvesznek a csomópontok eltávolításakor, amikor a fürtök leskálaznak. Emellett a tipikus gépi tanulási feladatok gyakran az összes rendelkezésre álló csomópontot felhasználják, ebben az esetben az automatikus skálázás nem nyújt előnyt.
  • Storage automatikus skálázást, mivel ez a felhasználó valószínűleg nem fog sok adatot előállítani.
  • Magas egyidejűségi fürtök, mivel ez a fürt egyetlen felhasználóhoz, és a magas egyidejűségi fürtök a legmegfelelőbbek a megosztott használatra.

Gyakori forgatókönyvek

A következő szakaszok további javaslatokat tartalmaznak a fürtök gyakori fürthasználati mintákhoz való konfigurálásához:

  • Több felhasználó futtat adatelemzést és alkalmi feldolgozást.
  • Speciális felhasználási esetek, például gépi tanulás.
  • Ütemezett kötegelt feladatok támogatása.

Többfelhasználós fürtök

Forgatókönyv

Adatelemzés és alkalmi lekérdezések futtatásához több felhasználónak kell hozzáférést adnia az adatokhoz. A fürthasználat idővel ingadozhat, és a legtöbb feladat nem túl erőforrás-igényes. A felhasználóknak többnyire csak olvasási hozzáférésre van szükségük az adatokhoz, és elemzéseket vagy irányítópultokat szeretne létrehozni egy egyszerű felhasználói felületen.

A fürtök üzembe építésének ajánlott megközelítése a fürtben a csomópontok létesítése és az automatikus skálázás hibrid megközelítése. A hibrid megközelítés magában foglalja az igény szerinti és a helyszíni példányok számának meghatározását a fürthöz, valamint az automatikus skálázás engedélyezését a példányok minimális és maximális száma között.

Többfelhasználós forgatókönyv

Ez a fürt alapértelmezés szerint mindig elérhető és meg van osztva a csoporthoz tartozó felhasználók számára. Az automatikus skálázás engedélyezésével a fürt a terheléstől függően fel- és leskálálható.

A felhasználók nem férhetnek hozzá a fürt indításához/leállításához, de a kezdeti igény szerinti példányok azonnal elérhetők a felhasználói lekérdezésekre való válaszadáshoz. Ha a felhasználói lekérdezés nagyobb kapacitást igényel, az automatikus skálázás automatikusan további csomópontokat (főleg kihasznált példányokat) hoz létre a számítási feladatnak megfelelően.

Azure Databricks funkciókkal is rendelkezik a több-bérlős használat további javítása érdekében:

Ez a megközelítés a következővel tartja vissza a teljes költséget:

  • Megosztott fürtmodell használata.
  • Igény szerinti és kihasznált példányok vegyes használata.
  • Automatikus skálázás használata a kihasználatlan fürtök használatának elkerülése érdekében.

Specializált számítási feladatok

Forgatókönyv

Fürtöt kell biztosítani speciális felhasználási esetekhez vagy a szervezeten belüli csapatokhoz, például összetett adatfeltárási és gépi tanulási algoritmusokat futtató adattudósok számára. Jellemzően az a minta, hogy a felhasználónak rövid időre van szüksége egy fürtre az elemzés futtatásához.

Az ilyen típusú munkaterhelések esetében a legjobb megoldás olyan fürt szabályzatok létrehozása, amelyek előre meghatározott konfigurációkat kínálnak az alapértelmezett, rögzített és beállítási tartományokhoz. Ezek a beállítások magukban foglalhatják a példányok számát, a példánytípusokat, a spot és az igény szerinti példányokat, a szerepköröket, a telepítenünk kell a kódtárakat stb. A fürthasználati szabályzatok használatával a speciális követelményekkel a felhasználók gyorsan, szükség szerint konfigurálható fürtök indulnak el, és kikényszeríteni tudják a költségeket és a szabályzatnak való megfelelőséget.

Specializált tevékenységprofilok

Ez a megközelítés a fürtkonfigurációk előzetes meghatározásával nagyobb kontrollt biztosít a felhasználók számára, ugyanakkor lehetővé teszi a költségek szabályozását. Ez azt is lehetővé teszi, hogy különböző felhasználói csoportokhoz konfigurálja a fürtökön a különböző adatkészletek elérésére vonatkozó engedélyeket.

Ennek a megközelítésnek az egyik hátránya, hogy a felhasználóknak rendszergazdákkal kell dolgoznia a fürtök bármilyen módosításaiért, például a konfigurációért, a telepített kódtárakért stb.

Batch számítási feladatok

Forgatókönyv

Fürtöt kell biztosítani az ütemezett kötegelt feladatokhoz, például az adatelőkészítést végző éles ETL-feladatokhoz. Az ajánlott eljárás az, ha minden feladatfuttatáskor új fürtöt indít el. Az egyes feladatok új fürtön való futtatása segít elkerülni a megosztott fürtön futó más számítási feladatok által okozott hibákat és kihagyott ATA-kat. A feladat kritikusságától függően az összes igény szerinti példányt használhatja az SZOLGÁLTATÓI-k szintjének való megfeleltetése vagy a helyszíni és az igény szerinti példányok közötti egyensúlyra a költségmegtakarítás érdekében.

Ütemezett kötegelt számítási feladatok