Fürtök konfigurálása

Ez a cikk a fürtök létrehozásakor és szerkesztésekor elérhető konfigurációs Azure Databricks ismerteti. A fürtök felhasználói felülettel való létrehozására és szerkesztésére összpontosít. További módszerek: Fürtök CLI,Clusters API 2.0és Databricks Terraform-szolgáltató.

Ha segítségre van szüksége annak eldöntéséhez, hogy a konfigurációs lehetőségek melyik kombinációja illik a legjobban az igényeihez, tekintse meg a fürtkonfiguráció ajánlott eljárásait.

Create cluster

Spark konfigurációs tulajdonság lekérése titkos adatokat

A Databricks azt javasolja, hogy a bizalmas adatokat, például jelszavakat egyszerű szöveg helyett titkos adatokat tároljanak. Ha titkos kódra kíváncsi a Spark-konfigurációban, használja a következő szintaxist:

spark.<secret-prop-name> <path-value>

Ha például egy nevű Spark konfigurációs tulajdonságot a fájlban tárolt titkos értékre kell passwordsecrets/apps/acme-app/password beállítania:

spark.password {{secrets/apps/acme-app/password}}

További információkért lásd a Spark konfigurációs tulajdonságában vagy környezeti változójában található titkos elérési utakat.

Fürtszabályzat

A fürtszabályszabályok szabálykészlet alapján korlátozza a fürtök konfigurálási képességét. A házirendszabályok korlátozzák a fürt létrehozásához elérhető attribútumokat vagy attribútumértékeket. A fürthasználati szabályzatok ACL-ekkel korlátozzák a használatukat adott felhasználókra és csoportokra, így korlátozzák a fürt létrehozásakor kiválasztható házirendeket.

Fürt szabályzatának konfiguráláshoz válassza ki a fürt szabályzatát a Házirend legördülő menüben.

Select cluster policy

Megjegyzés

Ha nem hozott létre szabályzatokat amunkaterületen, a Szabályzat legördülő lista nem jelenik meg.

Ha a következővel kell:

  • Fürt létrehozására vonatkozóengedély : kiválaszthatja a Korlátlan szabályzatot, és létrehozhat teljes mértékben konfigurálható fürtöt. A Korlátlan szabályzat nem korlátozza a fürtattribútumokat és -attribútumértékeket.
  • A fürt létrehozási engedélye és a fürt szabályzataihoz való hozzáférés egyaránt kiválaszthatja a Korlátlan szabályzatot és azokat a szabályzatokat, amelyekhez hozzáféréssel rendelkezik.
  • Csak a fürt szabályzatok elérésekor kiválaszthatja azokat a szabályzatokat, amelyekhez hozzáféréssel rendelkezik.

Fürtmód

Azure Databricks három fürtmódot támogat: Standard, Magas egyidejűség és Egycsomópontos. Az alapértelmezett fürtmód a Standard.

Megjegyzés

A fürtkonfiguráció tartalmaz egy automatikus leállítási beállítást, amelynek alapértelmezett értéke a fürt üzemmódtól függ:

  • A standard és egycsomópontos fürtök alapértelmezés szerint automatikusan leállnak 120 perc után.
  • A magas egyidejűségi szintű fürtök alapértelmezés szerint nem leállnak automatikusan.

Fontos

A fürt üzemmódja a fürt létrehozása után nem változtatható meg. Ha másik fürt üzemmódot szeretne, létre kell hoznia egy új fürtöt.

Standard fürtök

A Standard fürt használata egyetlen felhasználó számára ajánlott. A standard fürtök bármilyen nyelven ( Python, SQL, R és Scala) fejlesztett számítási feladatokat futtatnak.

Magas egyidejűségi fürtök

A magas egyidejűségi szintű fürt egy felügyelt felhőerőforrás. A magas szintű egyidejűségi fürtök fő előnye, hogy részletes megosztást biztosítanak a maximális erőforrás-használat és a minimális lekérdezési késés érdekében.

A magas szintű egyidejűségi fürtök a SQL, a Pythonban és az R-ban fejlesztett számítási feladatokat futtatják. A magas szintű egyidejűségi fürtök teljesítményét és biztonságát a felhasználói kód külön folyamatokban való futtatása biztosítja, ami a Scala-ban nem lehetséges.

Emellett csak a magas egyidejűségi szintű fürtök támogatják a tábla hozzáférés-vezérlését.

Magas egyidejűségi fürt létrehozásához állítsa a Fürt üzemmódot Magas egyidejűség beállításra.

High Concurrency cluster mode

A magas egyidejűségi fürtök Fürtök API-val való létrehozására vonatkozó példáért tekintse meg a magas egyidejűségi fürt példáját.

Egycsomópontos fürtök

Egycsomópontos fürt nem rendelkezik munkamunkásokkal, és Spark-feladatokat futtat az illesztőcsomóponton.

Ezzel szemben a Standard fürtnek legalább egy Spark feldolgozó csomópontra van szüksége az illesztőprogram-csomópont mellett a Spark-feladatok végrehajtásához.

Egycsomópontos fürt létrehozásához állítsa a Fürt üzemmódotegycsomópontosra.

Single Node cluster mode

További információ az egycsomópontos fürtökről: Egycsomópontos fürtök.

Medencék

A fürt kezdési ideje csökkentéséhez csatlakoztathat egy fürtöt az inaktív példányok előre meghatározott készletéhez az illesztőprogram és a munkavégző csomópontok számára. A fürt a készletekben található példányok használatával jön létre. Ha egy készlet nem rendelkezik elegendő tétlen erőforrással a kért illesztőprogram vagy munkavégző csomópontok létrehozásához, a készlet új példányok igénylésével bővül a példányszolgáltatótól. Ha egy csatolt fürt leáll, a rendszer visszaadja a használt példányokat a készleteknek, és egy másik fürt újra felhasználhatja azokat.

Ha kiválaszt egy készletet a munkavégző csomópontokhoz, de az illesztőprogram-csomóponthoz nem, az illesztőprogram-csomópont örökli a készletet a munkavégző csomópont konfigurációjában.

Fontos

Ha megpróbál kiválasztani egy készletet az illesztőprogram-csomóponthoz, de a munkavégző csomópontok számára nem, hiba történik, és a fürt nem jön létre. Ez a követelmény megakadályozza azt a helyzetet, amikor az illesztőprogram-csomópontnak meg kell várnia a munkavégző csomópontok létrejöttét, vagy fordítva.

A készletek a készletekben való alkalmazásával kapcsolatos további Azure Databricks.

Databricks Runtime

A Databricks-runtimes a fürtökön futó alapvető összetevők készlete. Minden Databricks-Apache Spark tartalmaz, és olyan összetevőket és frissítéseket ad hozzá, amelyek javítják a használhatóságot, a teljesítményt és a biztonságot. Részletekért lásd: Databricks-runtimes.

Azure Databricks a fürt létrehozásakor vagy szerkesztésekor a Databricks Runtime Version (Verzió) legördülő menüben számos különböző típusú futásidejű és különböző verziójú futásidejű futtatástípust kínál.

Select Runtime version

Photon-képek

Fontos

Ez a funkció a nyilvános előzetes verzióban érhető el.

Megjegyzés

A 8.3-as Databricks Runtime és a feletti érhetők el.

Photon-kép kiválasztása:

  1. Csak a Photon-rendszerképtípusokat tartalmazó futásidőket jeleníti meg. Jelölje be a Photon jelölőnégyzetet:

    Select Photon

  2. Válasszon ki egy Photon-runtime-t.

  3. Másik lehetőségként válasszon ki egy példánytípust a Feldolgozó típusa és az Illesztőprogram típusa legördülő menüben.

A Databricks a következő példánytípusokat javasolja az optimális ár és teljesítmény érdekében:

  • Standard_E4ds_v4
  • Standard_E8ds_v4
  • Standard_E16ds_v4

A Photon-tevékenységet a Spark felhasználói felületén tudja megtekinteni. Az alábbi képernyőképen a lekérdezés részletei DAG látható. A Dag-ban a Photon két jele van. Először is a Photon operátorok a "Photon" szóval kezdődnek, PhotonGroupingAgg például: . Másodszor, a DAG-ban a Photon operátorai és fázisai színes színűek, míg a nem fotonok kékek.

Photon DAG

Docker-rendszerképek

Egyes Databricks Runtime esetén megadhat egy Docker-rendszerképet a fürt létrehozásakor. A példahasználati esetek közé tartozik a kódtár testreszabása, egy arany tárolókörnyezet, amely nem változik, és a Docker CI/CD-integrációja.

A Docker-rendszerképekkel egyéni mélytanuló környezeteket is létrehozhat GPU-eszközökkel a fürtökön.

Útmutatásért lásd: Tárolók testreszabása a Databricks Container Services és a Databricks Container Services gpu-fürtökön való használata esetén.

Python-verzió

Fontos

A Python 2 2020. január 1-én érte el az élettartamát. A Python 2 a 6.0-Databricks Runtime és a verziókban nem támogatott. Databricks Runtime 5.5-ös és az alábbi 5.5-ös vagy azt támogató csomagok továbbra is támogatják a Python 2-t.

6.0-Databricks Runtime vagy azt futtató Python-fürtök

Databricks Runtime 6.0 -s (nem támogatott) és a fenti támogatja csak a Python 3-as és az azt támogató szoftvereket. A 6.0-s verzió által Databricks Runtime Python-környezettel kapcsolatos főbb változásokért tekintse meg a Python-környezetet a kibocsátási megjegyzésekben.

5.5 LTS Databricks Runtime futtató Python-fürtök

Az Databricks Runtime 5.5 LTS, Spark-feladatok, Python-jegyzetfüzetcellák és kódtártelepítések mind támogatják a Python 2-t és a 3-ast.

A felhasználói felületen létrehozott fürtök alapértelmezett Python-verziója a Python 3. Az Databricks Runtime 5.5 LTS-ben a fürtök alapértelmezett verziója a Python 2 REST API.

Python-verzió megadása

A Python-verzió megadásához, amikor a felhasználói felületen hoz létre fürtöt, válassza ki a Python-verzió legördülő menüből.

Cluster Python version

A Python-verzió megadásához, amikor az API-val hoz létre egy fürtöt, állítsa a környezeti változót vagy PYSPARK_PYTHON/databricks/python/bin/python/databricks/python3/bin/python3 értékre. Példaként tekintse meg a nagy REST API dbfs-be való feltöltését.

A konfiguráció hatásának ellenőrzéséhez futtassa a következőt PYSPARK_PYTHON egy Python-jegyzetfüzetben (vagy %python cellában):

import sys
print(sys.version)

Ha a értéket adja /databricks/python3/bin/python3 meg, a következő képhez hasonlónak kell lennie:

3.5.2 (default, Sep 10 2016, 08:21:44)
[GCC 5.4.0 20160609]

Fontos

Az Databricks Runtime 5.5 LTS-ben a jegyzetfüzetben való futtatás az Ubuntu rendszer Python-verzióját jelenti, amely %sh python --version Python python 2. A használatával hivatkozhat a Databricks-jegyzetfüzetek és a Spark által használt Python-verzióra: ez az elérési út automatikusan úgy van konfigurálva, hogy a megfelelő /databricks/python/bin/python Python-végrehajtható fájlra mutasson.

Gyakori kérdések (GYIK)

Használhatok Python 2- és Python 3-jegyzetfüzeteket ugyanazon a fürtön?

Nem. A Python-verzió egy fürtre kiterjedő beállítás, és nem konfigurálható jegyzetfüzetenként.

Milyen kódtárak vannak telepítve a Python-fürtökön?

A telepített kódtárakkal kapcsolatos részletekért tekintse meg a Databricks-runtime kibocsátási megjegyzéseit.

Működni fognak a meglévő PyPI-kódtárak a Python 3-ban?

Ez attól függ, hogy a kódtár verziója támogatja-e az Databricks Runtime Python 3-as verzióját.

Databricks Runtime 5.5 LTS a Python 3.5-öt használja. Databricks Runtime 6.0-s és Databricks Runtime Condával való használata Python 3.7-et használ. Lehetséges, hogy a Python-kódtár egy adott régi verziója nem kompatibilis a Python 3.7-es verziójával. Ebben az esetben a kódtár egy újabb verzióját kell használnia.

Működni fognak a meglévő .egg kódtárak a Python 3-ban?

Ez attól függ, hogy a meglévő képtár kompatibilis-e a Python 2-es és 3-as verzióval. Ha a kódtár nem támogatja a Python 3-t, akkor a kódtármellékletek sikertelenek lesznek, vagy futásidejű hibák lépnek fel.

A Python 3-ra való kódportolásról, valamint a Python 2-es és 3-as verzióval kompatibilis kódok írásával kapcsolatos átfogó útmutatóért lásd: A Python 3 támogatása.

Továbbra is telepíthetők Python-kódtárak init szkriptek használatával?

A fürtcsomópont-inicializálási szkriptek gyakori használata a csomagok telepítése.

Az Databricks Runtime 5.5 LTS esetén a használatával győződjön meg arról, hogy a Python-csomagok a rendszer Python-környezete helyett a Databricks Python virtuális környezetébe /databricks/python/bin/pip vannak telepítve.

A Databricks Runtime 6.0-s és Databricks Runtime Condával való használata után a parancs a megfelelő Python virtuális pippip környezetben hivatkozik a -re. Ha azonban init szkriptet használ a Python virtuális környezetének létrehozásához, mindig az abszolút elérési utat használja a és a pythonpip eléréséhez.

Fürtcsomópont típusa

A fürt egy illesztőprogram-csomópontból és nulla vagy több munkavégző csomópontból áll.

Az illesztőprogram- és munkavégző csomópontokhoz külön felhőszolgáltatói példánytípust választhat, bár alapértelmezés szerint az illesztőprogram-csomópont ugyanazt a példánytípust használja, mint a munkavégző csomópont. A különböző példánytípusok különböző családba illeszkednek, például a memóriaigényes vagy a nagy számítási igényű számítási feladatokhoz.

Megjegyzés

Ha a biztonsági követelmények között szerepel a számítási elkülönítés,válasszon ki egy Standard_F72s_V2-példányt feldolgozótípusként. Ezek a példánytípusok elkülönített virtuális gépeket képviselnek, amelyek a teljes fizikai gazdagépet fogyasztják, és biztosítják a támogatáshoz szükséges elkülönítési szintet, például az EGYESÜLT Államok Védelmi Minisztériumának 5. hatásszintje (IL5) számítási feladatait.

Illesztőprogram-csomópont

Az illesztőprogram-csomópont fenntartja a fürthöz csatolt összes jegyzetfüzet állapotinformációit. Az illesztőcsomópont emellett fenntartja a SparkContext illesztőt, és értelmezi a fürtön lévő jegyzetfüzetből vagy kódtárból futtatott összes parancsot, és futtatja a Spark-végrehajtókkal koordináló Apache Spark-főkiszolgálót.

Az illesztőprogram-csomópont típusának alapértelmezett értéke megegyezik a munkavégző csomópont típusának értékével. Nagyobb, több memóriával dolgozó illesztőcsomópont-típust is választhat, ha a Spark-dolgozók sok adatát tervezi elemezni a collect() jegyzetfüzetben.

Tipp

Mivel az illesztőprogram-csomópont fenntartja a csatolt jegyzetfüzetek összes állapotinformációját, mindenképpen válassza le a nem használt jegyzetfüzeteket az illesztőprogram-csomópontról.

Feldolgozó csomópont

Azure Databricks feldolgozó csomópontok futtatják a Spark végrehajtóit és a fürtök megfelelő működéséhez szükséges egyéb szolgáltatásokat. Amikor elosztja a számítási feladatot a Sparkkal, az összes elosztott feldolgozás a munkavégző csomópontokon történik. Azure Databricks feldolgozó csomópontonként egy végrehajtót futtat; ezért a végrehajtó és afeldolgozó kifejezés felcserélhető a Azure Databricks kontextusában.

Tipp

Spark-feladat futtatásához legalább egy feldolgozó csomópontra van szükség. Ha egy fürt nem rendelkezik munkamunkásokkal, nem Spark-parancsokat futtathat az illesztőcsomóponton, de a Spark-parancsok sikertelenek lesznek.

GPU-példánytípusok

A nagy teljesítményt igényű, nagy számítási igényű, például mély tanuláshoz kapcsolódó feladatokhoz a Azure Databricks támogatja a grafikus feldolgozási egységekkel (GPU-kkal) gyorsított fürtökön. További információ: GPU-kompatibilis fürtök.

Spot-példányok

A költségmegtakarításhoz a Spot instances (Spot-példányok) jelölőnégyzet be való be jelölőnégyzetének beszúrásán keresztül választhatja ki a spot példányokat, más néven Azure-beli spot virtuális gépeket.

Configure spot

Az első példány mindig igény szerinti lesz (az illesztő csomópontja mindig igény szerinti), a további példányok pedig spot példányok lesznek. Ha a spot példányok elérhetetlenség miatt ki vannak szorulva, a rendszer igény szerinti példányokat helyez üzembe a kieső példányok lecserélése érdekében.

Fürtméret és automatikus skálázás

Amikor létrehoz egy Azure Databricks fürtöt, vagy adott számú munkaeszközt ad meg a fürt számára, vagy megszabadhatja a fürt számára a minimális és maximális számú munkaeszközt.

Ha rögzített méretű fürtöt ad meg, a Azure Databricks biztosítja, hogy a fürtön a megadott számú munkamunkás adatokat adja meg. Amikor tartományt ad meg a dolgozók számára, a Databricks kiválasztja a feladat futtatásához szükséges megfelelő számú dolgozókat. Ezt automatikus skálázásnak nevezzük.

Az automatikus skálázással a Azure Databricks dinamikusan újraosztja a dolgozókat, hogy figyelembe veszi a feladat jellemzőit. Előfordulhat, hogy a folyamat egyes részei nagyobb számítási teljesítményt követelnek meg, mint mások, és a Databricks automatikusan további dolgozókat ad hozzá a feladat ezen fázisai során (és eltávolítja őket, amikor már nincs rájuk szükség).

Az automatikus skálázás megkönnyíti a fürt magas kihasználtságának elérését, mivel nem kell kiépítenie a fürtöt a számítási feladatoknak megfelelő megvalósításához. Ez különösen azokra a számítási feladatokra vonatkozik, amelyekre a követelmények idővel változnak (például egy nap során egy adatkészlet feltárása), de olyan egyszer rövidebb számítási feladatokra is vonatkozhatnak, amelyek kiépítési követelményei ismeretlenek. Az automatikus skálázás így két előnnyel jár:

  • A számítási feladatok gyorsabban futnak az állandó méretű, alul kiépített fürtökhöz képest.
  • Az automatikus méretezéssel a fürtök a statikusan méretezett fürtökhöz képest csökkenthetik az általános költségeket.

A fürt és a számítási feladat állandó méretétől függően az automatikus skálázás egyidejűleg biztosítja az egyik vagy mindkét előnyt. A fürt mérete a példányok megszüntetésekor kiválasztott minimálisan kiválasztott dolgozók száma alá is eshet. Ebben az esetben Azure Databricks újra a példányok újraépítésére, hogy fenntartsa a dolgozók minimális számát.

Megjegyzés

Az automatikus skálázás feladatokhoz nem spark-submit érhető el.

Automatikus skálázás típusai

Azure Databricks fürtcsomópont automatikus skálázásának két típusa van: standard és optimalizált. Az optimalizált automatikus skálázás előnyeiről az Optimalizált automatikus skálázás blogbejegyzésben olvashat.

Az automatizált (feladat) fürtök mindig optimalizált automatikus skálázást használnak. Az összes célú fürtön végrehajtott automatikus skálázás típusa a munkaterület konfigurációjától függ.

A standard automatikus skálázást a Standard tarifacsomagban lévő munkaterületeken található összes célú fürt használja. Az optimalizált automatikus skálázást az összes célú fürt használja a Azure Databricks Prémium tervben.

Az automatikus skálázás viselkedése

Az automatikus skálázás eltérő módon viselkedik attól függően, hogy optimalizálva van vagy standard, és hogy egy általános célú vagy feladatfürtre van alkalmazva.

Optimalizált automatikus skálázás

  • Legfeljebb 2 lépésben skáláz felfelé, minimálisról maximumra.
  • Akkor is leskálogtathat, ha a fürt nem tétlen a fájlállapot elosztása alapján.
  • Az aktuális csomópontok százalékos aránya alapján skáláz le.
  • A feladatfürtökön a leméretez, ha a fürt kihasználatlan az elmúlt 40 másodpercben.
  • Az összes célú fürtökön a leméretez, ha a fürt kihasználatlan az elmúlt 150 másodpercben.
  • A Spark konfigurációs tulajdonsága másodpercben adja meg, hogy a fürt milyen gyakran hoz spark.databricks.aggressiveWindowDownS leméretezést. Az érték növelésével a fürtök lassabban skáláznak le. A maximális érték 600.

Standard automatikus skálázás

  • 8 csomópont hozzáadásával kezdődik. Ezt követően a exponenciálisan skálázható fel, de számos lépéssel elérheti a maximumot. Az első lépést a Spark konfigurációs spark.databricks.autoscaling.standardFirstStepUp tulajdonságának beállításával szabhatja testre.
  • Csak akkor skáláz le, ha a fürt teljesen tétlen, és az elmúlt 10 percben kihasználatlan volt.
  • Exponenciálisan skáláz, 1 csomóponttal kezdve.

Automatikus skálázás engedélyezése és konfigurálása

A fürt Azure Databricks átméretezésének engedélyezéséhez engedélyeznie kell a fürt automatikus skálázását, és meg kell adnia a dolgozók minimális és maximális tartományát.

  1. Engedélyezze az automatikus skálázást.

    • All-Purpose létrehozása – A Fürt létrehozása lapon jelölje be az Automatikus skálázás engedélyezése jelölőnégyzetet az AutoPilot-beállítások mezőben:

      Enable autoscaling for interactive clusters

    • Feladatfürt – A Fürt konfigurálása lapon jelölje be az Automatikus skálázás engedélyezése jelölőnégyzetet az Autopilot-beállítások mezőben:

      Enable autoscaling for job clusters

  2. Konfigurálja a minimális és maximális munkamunkásokat.

    Configure min and max workers

    Ha a fürt fut, a fürt részletező oldalán megjelenik a lefoglalt dolgozók száma. Összehasonlíthatja a lefoglalt feldolgozók számát a feldolgozó konfigurációjával, és szükség szerint módosításokat is végezhet.

Fontos

Ha példánykészletet használ:

  • Győződjön meg arról, hogy a kért fürtméret kisebb vagy egyenlő, mint a készletben található tétlen példányok minimális száma. Ha a fürtméret ennél nagyobb, a fürt indítási ideje ugyanakkora lesz, mint a készletet nem használó fürtöké.
  • Győződjön meg arról, hogy a fürt maximális mérete kisebb vagy egyenlő a készlet maximális kapacitásában. Ha a fürtméret ennél nagyobb, a fürt létrehozása sikertelen lesz.

Példa automatikus skálázásra

Ha újrakonfigurál egy statikus fürtöt automatikus skálázású fürtként, a Azure Databricks azonnal átméretezi a fürtöt a minimális és maximális korláton belül, majd elindítja az automatikus skálázást. Az alábbi táblázat például azt mutatja be, hogy mi történik egy bizonyos kezdeti méretű fürtök esetén, ha újrakonfigurál egy fürtöt 5–10 csomópont közötti automatikus skálázásra.

Kezdeti méret Méret az újrakonfigurálás után
6 6
12 10
3 5

Helyi tárterület automatikus skálázása

Gyakran nehéz megbecsülni, hogy egy adott feladat mennyi lemezterületet foglal. Ha nem kell megbecsülni, hogy a létrehozáskor hány gigabájtnyi felügyelt lemezt kell a fürthöz csatolni, a Azure Databricks automatikusan engedélyezi a helyi tárterület automatikus skálázását az összes Azure Databricks fürtön.

A helyi tárterület automatikus méretezésével a Azure Databricks a fürt Spark-munkamunkásai számára rendelkezésre álló szabad lemezterület mennyiségét. Ha egy feldolgozó elkezd túl alacsonyan futni a lemezen, a Databricks automatikusan csatlakoztat egy új felügyelt lemezt a feldolgozóhoz, mielőtt elfogy a lemezterület. A lemezek legfeljebb 5 TB teljes lemezterületet csatlakoztatnak virtuális gépenként (beleértve a virtuális gép kezdeti helyi tárterületét).

A virtuális géphez csatolt felügyelt lemezek csak akkor vannak leválasztva, amikor a virtuális gép visszakerül az Azure-ba. Ez azt jelenti, hogy a felügyelt lemezek soha nem vannak leválasztva a virtuális gépről, amíg egy futó fürt részei. A felügyelt lemezek használatának horizontális leskál helyszíni Azure Databricks használatát javasolja a kihasznált példányokkal vagy automatikus leállítva konfigurált fürtökben.

Helyi lemeztitkosítás

Fontos

Ez a funkció a nyilvános előzetes verzióban érhető el.

A fürtök futtatásához használt egyes példánytípusok helyileg csatlakoztatott lemezekkel is lehetnek. Azure Databricks adatokat vagy aphemerális adatokat ezeken a helyileg csatlakoztatott lemezeken tárolhatja. Ha biztosítani szeretné, hogy az összes tárolt adat titkosítva legyen az összes tárolótípushoz, beleértve az ideiglenesen a fürt helyi lemezén tárolt elosztási adatokat is, engedélyezheti a helyi lemeztitkosítást.

Fontos

Előfordulhat, hogy a számítási feladatok lassabban futnak, mert a helyi kötetek titkosított adatokat olvasnak és írnak.

Ha a helyi lemeztitkosítás engedélyezve van, a Azure Databricks létrehoz egy helyi titkosítási kulcsot, amely minden fürtcsomóponton egyedi, és a helyi lemezeken tárolt összes adat titkosítására használható. A kulcs hatóköre minden fürtcsomóponton helyi, és magát a fürtcsomópontot is megsemmisíti. Élettartamuk során a kulcs titkosításhoz és visszafejtéshez a memóriában található, a lemezen pedig titkosítva van tárolva.

A helyi lemeztitkosítás engedélyezéséhez a Clusters API 2.0-t kell használnia. Fürt létrehozása vagy szerkesztése során állítsa be a következőt:

{
  "enable_local_disk_encryption": true
}

Az API-kmeghívásának példáiért lásd: Létrehozás és szerkesztés a Fürtök API-referenciában.

Példa a helyi lemeztitkosítást lehetővé tő fürt-létrehozási hívásra:

{
  "cluster_name": "my-cluster",
  "spark_version": "7.3.x-scala2.12",
  "node_type_id": "Standard_D3_v2",
  "enable_local_disk_encryption": true,
  "spark_conf": {
    "spark.speculation": true
  },
  "num_workers": 25
}

Spark-konfiguráció

A Spark-feladatok finomhangolhatja, ha egyéni Spark-konfigurációs tulajdonságokat ad meg egy fürtkonfigurációban.

  1. A fürtkonfiguráció lapon kattintson a Speciális beállítások kapcsolóra.

  2. Kattintson a Spark fülre.

    Spark configuration

    A Spark-konfigurációbanadja meg a konfigurációs tulajdonságokat soronként egy kulcs-érték párként.

Amikor fürtöt konfigurál a Clusters API 2.0használatával, állítsa be a Spark tulajdonságait a Fürtkérés létrehozása vagy a Fürt szerkesztése kérelem mezőjében.

Az összes fürt Spark-tulajdonságainak beállításhoz hozzon létre egy globális iniktív szkriptet:

dbutils.fs.put("dbfs:/databricks/init/set_spark_params.sh","""
  |#!/bin/bash
  |
  |cat << 'EOF' > /databricks/driver/conf/00-custom-spark-driver-defaults.conf
  |[driver] {
  |  "spark.sql.sources.partitionOverwriteMode" = "DYNAMIC"
  |}
  |EOF
  """.stripMargin, true)

Környezeti változók

Olyan környezeti változókat állíthat be, amelyek a fürtön futó szkriptek alapján elérést használhatja.

  1. A fürtkonfiguráció lapon kattintson a Speciális beállítások kapcsolóra.

  2. Kattintson a Spark fülre.

  3. Állítsa be a környezeti változókat a Környezeti változók mezőben.

    Environment Variables field

A környezeti változókat a Fürtkérés létrehozása vagy a Fürtkérések szerkesztése API-végpontok mezője spark_env_vars alapján is spark_env_vars beállíthatja.

Megjegyzés

Az ebben a mezőben beállított környezeti változók nem érhetők el a Fürtcsomópont inicializálási szkriptjeiben. Az iniktív szkriptek csak az Init szkriptek előre meghatározott végrehajtási sorrendjének egy korlátozott készletét támogatják.

Fürtcímkék

A fürtcímkék lehetővé teszik a szervezet különböző csoportjai által használt felhőerőforrások költségeinek egyszerű monitor állapotát. A fürt létrehozásakor kulcs-érték párokként megadhatja a címkéket, és a Azure Databricks ezeket a címkéket olyan felhőalapú erőforrásokra alkalmazza, mint a virtuális gépek és a lemezkötetek, valamint a DBUhasználati jelentései.

A készletekből indított fürtök esetén az egyéni fürtcímkék csak a DBU-használati jelentésekre vonatkoznak, és nem propagálnak a felhőerőforrásokba. A készlet- és fürtcímke-típusok együttes használatával kapcsolatos részletes információkért lásd: Használat figyelése fürt-, készlet- és munkaterületcímkék használatával.

Az egyszerűség kedvéért a Azure Databricks négy alapértelmezett címkét alkalmaz mindegyik fürtre: Vendor , Creator , és ClusterNameClusterId .

Emellett a feladatfürtökön a Azure Databricks a és a RunNameJobId címkét. A Databricks által használt SQL Azure Databricks az alapértelmezett címkét is SqlEndpointId alkalmazza.

Figyelmeztetés

Ne rendeljen hozzá kulccsal egy egyéni címkét Name a fürthöz. Minden fürt rendelkezik egy Name címkével, amelynek értékét a Azure Databricks. Ha módosítja a kulcshoz társított értéket, a fürtöt a továbbiakban nem tudja nyomon Name követni a Azure Databricks. Ennek következtében előfordulhat, hogy a fürt nem lesz leállva a tétlenné válás után, és továbbra is használati költségekkel jár.

Fürt létrehozásakor egyéni címkéket adhat hozzá. Fürtcímkék konfigurálása:

  1. A fürtkonfiguráció lapon kattintson a Speciális beállítások kapcsolóra.

  2. A lap alján kattintson a Címkék fülre.

    Tags tab

  3. Adjon hozzá kulcs-érték párokat minden egyéni címkéhez. Legfeljebb 43 egyéni címkét adhat hozzá.

Fürtök SSH-hozzáférése

Biztonsági okokból a Azure Databricks az SSH-port alapértelmezés szerint be van zárva. Ha engedélyezni szeretné az SSH-hozzáférést a Spark-fürtökhöz, lépjen kapcsolatba a Azure Databricks ügyfélszolgálattal.

Megjegyzés

Az SSH csak akkor engedélyezhető, ha a munkaterület a saját Azure-beli virtuális hálózatában van telepítve.

Fürtnapló-kézbesítés

Fürt létrehozásakor megadhat egy helyet a Spark-illesztő csomópontjának, feldolgozó csomópontjainak és eseményeinek naplói kézbesítéséhez. A naplókat a rendszer öt percenként kézbesíti a kiválasztott célhelyre. Amikor egy fürt leáll, a Azure Databricks biztosítja, hogy a fürt megszüntetéséig az összes létrehozott naplót kézbesíti.

A naplók célhelye a fürtazonosítótól függ. Ha a megadott cél a dbfs:/cluster-log-delivery , a fürtnaplói a következő helyre vannak 0630-191345-leap375dbfs:/cluster-log-delivery/0630-191345-leap375 kézbesítve: .

A naplók kézbesítési helyének konfigurálása:

  1. A fürtkonfiguráció lapon kattintson a Speciális beállítások kapcsolóra.

  2. Kattintson a Naplózás fülre.

    Cluster log delivery

  3. Válassza ki a cél típusát.

  4. Adja meg a fürt naplóútvonalát.

Megjegyzés

Ez a funkció a REST API. Lásd: Fürtök API 2.0 ésFürtnaplók kézbesítési példái.

Init szkriptek

A fürtcsomópont inicializálása – vagy inicializálása – szkript egy héjszk szkript, amely minden fürtcsomópont indításkor fut a Spark-illesztő vagy feldolgozó JVM elindulása előtt. Az init szkriptek használatával csomagokat és kódtárakat telepíthet, amelyek nem szerepelnek a Databricks-runtime-ban, módosíthatja a JVM rendszer osztályát, beállíthatja a JVM által használt rendszertulajdonságokat és környezeti változókat, vagy módosíthatja a Spark konfigurációs paramétereit, egyéb konfigurációs feladatok mellett.

Init szkripteket úgy csatolhat egy fürthöz, hogy kibontja a Speciális beállítások szakaszt, majd az Init Scripts (Init-szkriptek) lapra kattint.

Részletes útmutatásért lásd: Fürtcsomópont inicializálási szkriptek.