Konfigurace clusterů

Tento článek vysvětluje možnosti konfigurace, které jsou k dispozici při vytváření a úpravách Azure Databricks clusterů. Zaměřuje se na vytváření a úpravy clusterů pomocí uživatelského rozhraní. Další metody najdete v článku Rozhraní příkazového řádku pro clustery a Rozhraní API pro clustery.

Pokud se chcete rozhodnout, jaká kombinace možností konfigurace nejlépe vyhovuje vašim potřebám, podívejte se na osvědčené postupy konfigurace clusteru.

Vytvoření clusteru

Zásady clusteru

Zásady clusteru omezí možnost konfigurovat clustery na základě sady pravidel. Pravidla zásad omezují atributy nebo hodnoty atributů, které jsou k dispozici pro vytvoření clusteru. Zásady clusteru mají seznamy ACL, které omezují jejich použití na konkrétní uživatele a skupiny a omezují tak zásady, které můžete při vytváření clusteru vybrat.

Pokud chcete nakonfigurovat zásady clusteru, vyberte zásadu clusteru v rozevíracím seznamu Zásady.

Výběr zásad clusteru

Poznámka

Pokud v pracovním prostoru nebyly vytvořeny žádné zásady, rozevírací seznam Zásady se nezobrazí.

Pokud máte:

  • Oprávnění k vytvořeníclusteru : Můžete vybrat zásadu Neomezené a vytvořit plně konfigurovatelné clustery. Zásady Bez omezení neomezují žádné atributy clusteru ani hodnoty atributů.
  • Oprávnění k vytváření clusteru i přístup k zásadám clusteru můžete vybrat zásady Unrestricted a zásady, ke které máte přístup.
  • Přístup jenom k zásadám clusteru– můžete vybrat zásady, ke které máte přístup.

Režim clusteru

Azure Databricks podporuje tři režimy clusteru: Standard, Vysoká souběžnost a Jeden uzel. Výchozí režim clusteru je Standard.

Poznámka

Konfigurace clusteru zahrnuje nastavení automatického ukončení, jehož výchozí hodnota závisí na režimu clusteru:

  • Clustery se standardním a jedním uzlem se konfigurují tak, aby se automaticky ukončily po 120 minutách.
  • Vysoce souběžné clustery jsou nakonfigurovány tak, aby se neukončily automaticky.

Důležité

Po vytvoření clusteru nemůžete režim clusteru změnit. Pokud chcete jiný režim clusteru, musíte vytvořit nový cluster.

Standardní clustery

Pro jednoho uživatele se doporučuje používat standardní clustery. Standardní clustery můžou spouštět úlohy vyvinuté v libovolném jazyce: Python, R, Scala a SQL.

Clustery s vysokou úrovní souběžnosti

Vysoký cluster souběžnosti je spravovaný cloudový prostředek. Klíčové výhody vysokého počtu clusterů je, že poskytují Apache Spark nativní jemně odstupňované sdílení pro maximální využití prostředků a minimální latenci dotazů.

Vysoké souběžnosti clusterů fungují pouze pro SQL, Python a R. Výkon a zabezpečení vysoce souběžných clusterů je zajištěno spouštěním kódu uživatele v samostatných procesech, což v Scala není možné.

Kromě toho pouze vysoce souběžné clustery podporují řízení přístupu k tabulce.

Pokud chcete vytvořit vysoký cluster souběžnosti, vyberte v rozevíracím seznamu režim clusteru vysokou souběžnost.

Režim clusteru s vysokou mírou souběžnosti

Příklad vytvoření clusteru s vysokou úrovní Concurrency pomocí rozhraní API clusterů naleznete v tématu High Concurrency cluster example.

Clustery s jedním uzlem

Cluster s jedním uzlem nemá žádné pracovní procesy a na uzlu ovladače spouští úlohy Spark. Na rozdíl od musí clustery se standardním režimem kromě uzlu ovladače provádět úlohy Sparku aspoň jeden uzel Spark Worker.

Pokud chcete vytvořit cluster s jedním uzlem, vyberte v rozevíracím seznamu režim clusteru jeden uzel.

Režim clusteru s jedním uzlem

Další informace o práci s clustery s jedním uzlem najdete v tématu Clustery s jedním uzlem.

Fond

Pokud chcete zkrátit čas spuštění clusteru, můžete cluster připojit k předdefinovanému fondu nečinných instancí. Při připojení k fondu cluster přidělí svůj ovladač a pracovní uzly z fondu. Pokud fond nemá dostatek nečinných prostředků pro zpracování požadavků clusteru, fond se rozšíří přidělením nových instancí od poskytovatele instancí. Po ukončení připojeného clusteru se použité instance vrátí do fondu a mohou být znovu použity jiným clusterem.

Další informace o práci s fondy v nástroji najdete v Azure Databricks.

Modul runtime Databricks

Moduly runtime Databricks jsou sada základních komponent, které běží na vašich clusterech. Všechny moduly runtime Databricks zahrnují Apache Spark a přidání komponent a aktualizací, které zlepšují použitelnost, výkon a zabezpečení.

Azure Databricks nabízí několik typů modulu runtime a několik verzí těchto typů modulu runtime v rozevíracím seznamu verze Databricks Runtime při vytváření nebo úpravách clusteru.

Podrobnosti najdete v tématu Moduly runtime Databricks.

Kontejner Dockeru

U některých Databricks Runtime verzí můžete při vytváření clusteru zadat image Dockeru. Mezi příklady případů použití patří přizpůsobení knihovny, zlaté kontejnerové prostředí, které se nemění, a integrace CI/CD Dockeru.

Image Dockeru můžete použít také k vytvoření vlastních prostředí hlubokého učení v clusterech se zařízeními GPU.

Pokyny najdete v tématu Přizpůsobení kontejnerů pomocí služeb Databricks Container Services a Databricks Container Services na clusterech GPU.

Python version (Verze Pythonu)

Důležité

Python 2 dosáhl konce životnosti 1. ledna 2020. Python 2 se ve Databricks Runtime 6.0 a vyšších nepodporuje. Databricks Runtime 5.5 a nižší dál podporují Python 2.

Clustery Pythonu s Databricks Runtime 6.0 a vyšším

Databricks Runtime verze 6.0 (nepodporované) a vyšší podporuje pouze Python 3. Významné změny týkající se prostředí Pythonu, které zavádí Databricks Runtime 6,0, najdete v tématu prostředí Pythonu v poznámkách k verzi.

Clustery Pythonu se spuštěným Databricks Runtime 5,5 LTS

Pro Databricks Runtime 5,5 LTS, úlohy Sparku, buňky s poznámkovým blokem Pythonu a instalace knihovny podporují i Python 2 a 3.

Výchozí verze Pythonu pro clustery vytvořené pomocí uživatelského rozhraní je Python 3. V Databricks Runtime 5,5 LTS výchozí verze pro clustery vytvořené pomocí REST API je Python 2.

Zadat verzi Pythonu

Pokud chcete při vytváření clusteru pomocí uživatelského rozhraní zadat verzi Pythonu, vyberte ji v rozevíracím seznamu verze Pythonu .

Verze Pythonu clusteru

Pokud chcete zadat verzi Pythonu při vytváření clusteru pomocí rozhraní API, nastavte proměnnou prostředí PYSPARK_PYTHON na /databricks/python/bin/python nebo /databricks/python3/bin/python3 . Příklad najdete v příkladu REST API nahrajte do DBFS velký soubor.

Pokud chcete ověřit, že se PYSPARK_PYTHON Konfigurace projevila, spusťte v poznámkovém bloku (nebo %python buňce) Pythonu:

import sys
print(sys.version)

Pokud jste určili /databricks/python3/bin/python3 , měl by se vytisknout něco jako:

3.5.2 (default, Sep 10 2016, 08:21:44)
[GCC 5.4.0 20160609]

Důležité

U Databricks Runtime 5,5 LTS se při spuštění %sh python --version v poznámkovém bloku python odkazuje na verzi Pythonu systému Ubuntu, což je Python 2. Použijte /databricks/python/bin/python k odkazování na verzi Pythonu, kterou používají notebooky datacihly a Spark: Tato cesta je automaticky nakonfigurovaná tak, aby odkazovala na správný spustitelný soubor Pythonu.

Nejčastější dotazy

Můžu ve stejném clusteru používat notebooky Python 2 a Python 3?

No. Verze Pythonu je nastavení pro jednotlivé clustery a nedá se konfigurovat na základě poznámkového bloku.

Jaké knihovny jsou nainstalovány v clusterech Pythonu?

Podrobnosti o konkrétních nainstalovaných knihovnách najdete v poznámkách k verzi modulu runtime datacihly.

Budou moje stávající knihovny PyPI fungovat s Pythonem 3?

Závisí na tom, zda verze knihovny podporuje verzi Databricks Runtime verze Python 3.

Databricks Runtime 5.5 LTS používá Python 3.5. Databricks Runtime 6.0 a vyšší a Databricks Runtime se conda používají Python 3.7. Je možné, že konkrétní stará verze knihovny Pythonu není dopředná kompatibilní s Pythonem 3.7. V takovém případě budete muset použít novější verzi knihovny.

Budou moje stávající .egg knihovny fungovat s Pythonem 3?

Záleží na tom, jestli je vaše stávající knihovna vaček křížová kompatibilní s Pythonem 2 i 3. Pokud knihovna nepodporuje Python 3, dojde k selhání přílohy knihovny nebo k chybám za běhu.

Komplexní průvodce přenosem kódu do Pythonu 3 a psaním kódu kompatibilního s Pythonem 2 a 3 najdete v tématu Podpora Pythonu 3.

Můžu stále instalovat knihovny Pythonu pomocí initimativních skriptů?

Běžným případem použití inicializačních skriptů uzlů clusteru je instalace balíčků.

Pokud Databricks Runtime 5.5 LTS, použijte k tomu, abyste zajistili, že se balíčky Pythonu nainstalují do virtuálního prostředí Databricks Python, a ne do /databricks/python/bin/pip systémového prostředí Pythonu.

Například Databricks Runtime 6.0 a vyšší a Databricks Runtime se conda, příkaz odkazuje na ve správném pip pip virtuálním prostředí Pythonu. Pokud ale k vytvoření virtuálního prostředí Pythonu používáte initimativní skript, vždy použijte absolutní cestu pro přístup k a python pip .

Typ uzlu clusteru

Cluster se skládá z jednoho uzlu ovladače a pracovních uzlů.

Pro ovladač a pracovní uzly můžete vybrat samostatné typy instancí poskytovatele cloudu, i když uzel ovladače ve výchozím nastavení používá stejný typ instance jako pracovní uzel. Různé rodiny typů instancí jsou vhodné pro různé případy použití, jako jsou úlohy náročné na paměť nebo úlohy náročné na výpočetní výkon.

Poznámka

Pokud vaše požadavky na zabezpečení zahrnují izolaci výpočetníchprostředků, Standard_F72s_V2 jako typ pracovního procesu vyberte instanci pracovního procesu. Tyto typy instancí představují izolované virtuální počítače, které využívají celého fyzického hostitele, a poskytují potřebnou úroveň izolace, která je nutná k podpoře, například oddělení služeb USA s ochranou vlivu obrany 5 (IL5).

Uzel ovladače

Ovladač udržuje informace o stavu všech poznámkových bloků připojených ke clusteru. Uzel ovladače je také zodpovědný za udržování SparkContext a interpretace všech příkazů, které spouštíte z poznámkového bloku nebo knihovny v clusteru. Uzel ovladače také spouští hlavní Apache Spark, který koordinuje prováděcí moduly Spark.

Výchozí hodnota typu uzlu ovladače je stejná jako typ uzlu pracovního procesu. Pokud plánujete collect() spoustu dat od pracovníků Spark a analyzujete je v poznámkovém bloku, můžete zvolit větší typ uzlu ovladače s větší pamětí.

Tip

Vzhledem k tomu, že uzel ovladače udržuje všechny informace o stavu připojených poznámkových bloků, nezapomeňte z ovladače odpojit nepoužívané poznámkové bloky.

Pracovní uzel

Azure Databricks pracovníci spouštějí prováděcí moduly Spark a další služby vyžadované pro správné fungování clusterů. Když distribuujete své zatížení pomocí Sparku, dojde k veškerému distribuovanému zpracování na pracovních počítačích. Azure Databricks spustí jeden prováděcí modul na jeden pracovní uzel. Proto jsou výrazy vykonavatel a Worker v kontextu architektury Azure Databricks používány v zaměnitelné.

Tip

Ke spuštění úlohy Sparku potřebujete alespoň jeden pracovní proces. Pokud cluster nemá žádné pracovní procesy, můžete na ovladači spustit jiné příkazy než příkazy Sparku, ale příkazy Sparku selžou.

Typy instancí GPU

U výpočetně náročných úloh, které vyžadují vysoký výkon, jako jsou ty, které jsou spojené s hloubkovým učením, Azure Databricks podporuje clustery s akcelerovanými grafickými procesory (GPU). Tato podpora je ve verzi beta. Další informace najdete v tématu clustery s podporou GPU.

Spotové instance

Důležité

Tato funkce je ve verzi Public Preview.

Pokud chcete ušetřit náklady, můžete zvolit použití spotových instancí zaškrtnutím políčka Spotové instance.

Konfigurace spotu

První instance bude vždy na vyžádání (ovladač je vždy na vyžádání) a další instance budou spotové. Pokud jsou spotové instance vyřazeny z důvodu nedostupnosti, nasadí se instance na vyžádání, aby nahradily vyřazené instance.

Velikost clusteru a automatické škálování

Když vytvoříte cluster Azure Databricks, můžete pro cluster zadat pevný počet pracovních prostředků nebo pro cluster poskytnout minimální a maximální počet pracovních prostředků.

Když poskytnete cluster s pevnou velikostí, Azure Databricks zajistí, že váš cluster bude mít zadaný počet pracovních prostředků. Když poskytnete rozsah pro počet pracovních pracovníků, databricks zvolí odpovídající počet pracovních pracovníků požadovaných ke spuštění vaší úlohy. To se označuje jako automatické škálování.

Díky automatickému škálování Azure Databricks dynamicky přerozděluje pracovní pracovníky, aby zohlednil charakteristiky vaší úlohy. Některé části vašeho kanálu mohou být výpočetně náročnější než jiné a Databricks během těchto fází úlohy automaticky přidává další pracovní pracovníky (a odebírá je, když už je nepotřebujete).

Automatické škálování usnadňuje dosažení vysokého využití clusteru, protože nemusíte zřřovat cluster tak, aby odpovídal zatížení. To platí zejména pro úlohy, jejichž požadavky se v průběhu času mění (například zkoumání datové sady během dne), ale může se vztahovat i na jednokrát kratší úlohu, jejíž požadavky na zřizování nejsou známé. Automatické škálování tak nabízí dvě výhody:

  • Úlohy mohou běžet rychleji v porovnání s clusterem s konstantní velikostí pod zřízenou velikostí.
  • Automatické škálování clusterů může snížit celkové náklady v porovnání se staticky velkých clusterů.

V závislosti na konstantní velikosti clusteru a zatížení vám automatické škálování poskytne jednu nebo obě z těchto výhod současně. Velikost clusteru může po ukončení instancí poskytovatelem cloudu jít pod minimální počet pracovních procesů vybraných. V tomto případě se Azure Databricks nepřetržitě pokusí znovu zřídit instance, aby bylo možné zachovat minimální počet pracovních procesů.

Poznámka

Automatické škálování není pro úlohy k dispozici spark-submit .

Typy automatického škálování

Azure Databricks nabízí dva typy automatického škálování uzlu clusteru: Standard a optimalizováno. Diskuzi o výhodách optimalizovaného automatického škálování najdete v blogovém příspěvku o optimalizovanémautomatickém škálování.

Automatizované (úlohy) clustery vždy používají optimalizované automatické škálování. Typ automatického škálování provedený u všech clusterů účelu závisí na konfiguraci pracovního prostoru.

Standardní automatické škálování se používají u všech clusterů v pracovních prostorech v cenové úrovni Standard. Optimalizované automatické škálování se používají u všech clusterů pro všechny účely v plánu Azure Databricks Premium.

Jak se chová automatické škálování

Automatické škálování se chová odlišně v závislosti na tom, jestli je optimalizované nebo standardní a jestli se používá pro všechny účely nebo clustery úloh.

Optimalizované automatické škálování

  • Škáluje se v 2 krocích až z minimálního počtu na maximum.
  • Může horizontální navýšení kapacity i v případě, že je cluster nečinný, když se podíváte do stavu souboru náhodně
  • Škáluje dolů na základě procenta aktuálních uzlů.
  • V případě clusterů úloh Škálujte, jestli je cluster během posledních 40 sekund nevyužitý.
  • V případě clusterů pro všechny účely Škálujte, jestli je cluster během posledních 150 sekund nevyužitý.
  • spark.databricks.aggressiveWindowDownSVlastnost konfigurace Spark určuje dobu v sekundách, po kterou cluster provádí rozhodování o škálování. Zvýšení hodnoty způsobí pomalejší škálování clusteru. Maximální hodnota je 600.

Standardní automatické škálování

  • Začíná přidáváním osmi uzlů. Následně se škáluje exponenciálně, ale může provést mnoho kroků, abyste dosáhli maximálního počtu. První krok můžete přizpůsobit nastavením spark.databricks.autoscaling.standardFirstStepUp Vlastnosti konfigurace Sparku.
  • Škálování se zmenšuje pouze v případě, že je cluster zcela nečinný a během posledních 10 minut byl nevyužitý.
  • Exponenciálně se škáluje dolů, počínaje 1 uzlem.

Povolení a konfigurace automatického škálování

Pokud chcete Azure Databricks automaticky měnit velikost clusteru, povolíte automatické škálování clusteru a poskytnete minimální a maximální rozsah pracovních prostředků.

  1. Povolte automatické škálování.

    • All-Purpose clusteru – na stránce Vytvořit cluster zaškrtněte políčko Povolit automatické škálování v poli Možnosti Autopilotu:

      Povolení automatického škálování pro interaktivní clustery

    • Cluster úloh – na stránce Konfigurovat cluster zaškrtněte políčko Povolit automatické škálování v poli Možnosti Autopilotu:

      Povolení automatického škálování pro clustery úloh

  2. Nakonfigurujte minimální a maximální počet pracovních sil.

    Konfigurace minimálních a maximálních pracovních sil

    Když je cluster spuštěný, na stránce s podrobnostmi o clusteru se zobrazí počet přidělených pracovních prostředků. Můžete porovnat počet přidělených pracovních procesů s konfigurací pracovního procesu a podle potřeby provést úpravy.

Důležité

Pokud používáte fond instancí:

  • Ujistěte se, že požadovaná velikost clusteru je menší nebo rovna minimálnímu počtu nečinných instancí ve fondu. Pokud je větší, bude doba spuštění clusteru ekvivalentní clusteru, který fond nevyu používá.
  • Ujistěte se, že maximální velikost clusteru je menší nebo rovna maximální kapacitě fondu. Pokud je větší, vytváření clusteru selže.

Příklad automatického škálování

Pokud změníte konfiguraci statického clusteru na cluster s automatickým škálováním, Azure Databricks okamžitě změní velikost clusteru v rámci minimální a maximální hranice a pak zahájí automatické škálování. Následující tabulka například ukazuje, co se stane s clustery s určitou počáteční velikostí, když znovu nakonfigurujete cluster na automatické škálování mezi 5 a 10 uzly.

Počáteční velikost Velikost po změně konfigurace
6 6
12 10
3 5

Automatické škálování místního úložiště

Může být často obtížné odhadnout, kolik místa na disku bude konkrétní úloha trvat. Pokud si chcete ušetřit, kolik GB spravovaného disku se má během vytváření připojit ke clusteru, Azure Databricks automaticky povolí automatické škálování místního úložiště ve všech clusterech Azure Databricks.

Díky automatickému škálování místního úložiště Azure Databricks monitoruje množství volného místa na disku, které je dostupné pro pracovní procesy Sparku v clusteru. Pokud pracovník na disku začne používat příliš nízký počet, datacihly automaticky připojí k pracovnímu procesu nový spravovaný disk, než dojde k vyzkoušení místa na disku. Disky jsou připojeny až do limitu 5 TB z celkového místa na disku na virtuální počítač (včetně počátečního místního úložiště virtuálního počítače).

Spravované disky připojené k virtuálnímu počítači se odpojí jenom v případě, že se virtuální počítač vrátí do Azure. To znamená, že se spravované disky nikdy neodpojily od virtuálního počítače, pokud je součástí běžícího clusteru. Pokud chcete škálovat využívání spravovaného disku, Azure Databricks doporučuje použít tuto funkci v clusteru nakonfigurovaném pomocí typů instancí GPU nebo automatického ukončení.

Šifrování místního disku

Důležité

Tato funkce je ve verzi Public Preview.

Některé typy instancí, které používáte ke spouštění clusterů, můžou mít místně připojené disky. Azure Databricks může na těchto místně připojených discích ukládat náhodně uložená data nebo data v dočasném prostředí. Aby se zajistilo, že všechna uložená data jsou zašifrovaná pro všechny typy úložišť, včetně náhodného ukládání dat, která jsou dočasně uložená na místních discích clusteru, můžete povolit šifrování na místním disku.

Důležité

Vaše úlohy můžou být pomaleji kvůli dopadu na výkon čtení a zápisu šifrovaných dat do a z místních svazků.

Pokud je povolené šifrování na místním disku, Azure Databricks vygeneruje místně šifrovací klíč, který je jedinečný pro každý uzel clusteru a používá se k šifrování všech dat uložených na místních discích. Rozsah klíče je místní pro každý uzel clusteru a je zničen spolu s samotným uzlem clusteru. Během své životnosti se klíč nachází v paměti pro šifrování a dešifrování a je uložen zašifrovaný na disku.

Pokud chcete povolit šifrování místních disků, musíte použít rozhraní API pro clustery. Během vytváření nebo úprav clusteru nastavte:

{
  "enable_local_disk_encryption": true
}

Příklady volání těchto rozhraní API najdete v tématu Vytváření a úpravy v referenčních informace k rozhraní API pro clustery.

Tady je příklad volání vytvoření clusteru, které umožňuje šifrování místních disků:

{
  "cluster_name": "my-cluster",
  "spark_version": "7.3.x-scala2.12",
  "node_type_id": "Standard_D3_v2",
  "enable_local_disk_encryption": true,
  "spark_conf": {
    "spark.speculation": true
  },
  "num_workers": 25
}

Konfigurace Sparku

Pokud chcete vyladit úlohy Sparku, můžete v konfiguraci clusteru zadat vlastní vlastnosti konfigurace Sparku.

  1. Na stránce konfigurace clusteru klikněte na přepínač Upřesnit možnosti.

  2. Klikněte na kartu Spark.

    Konfigurace Sparku

    V části Konfigurace Sparku zadejte vlastnosti konfigurace jako jeden pár klíč-hodnota na řádek.

Při konfiguraci clusteru pomocí rozhraní API pro clusterynastavte vlastnosti Sparku v poli v části Vytvoření spark_conf požadavku clusteru nebo Upravit žádost o cluster.

Pokud chcete nastavit vlastnosti Sparku pro všechny clustery, vytvořte globální initimativní skript:

dbutils.fs.put("dbfs:/databricks/init/set_spark_params.sh","""
  |#!/bin/bash
  |
  |cat << 'EOF' > /databricks/driver/conf/00-custom-spark-driver-defaults.conf
  |[driver] {
  |  "spark.sql.sources.partitionOverwriteMode" = "DYNAMIC"
  |}
  |EOF
  """.stripMargin, true)

Proměnné prostředí

Můžete nastavit proměnné prostředí, ke které máte přístup ze skriptů spuštěných v clusteru.

  1. Na stránce konfigurace clusteru klikněte na přepínač Upřesnit možnosti.

  2. Klikněte na kartu Spark.

  3. Nastavte proměnné prostředí v poli Proměnné prostředí.

    Pole Proměnné prostředí

Proměnné prostředí můžete také nastavit pomocí pole v části Vytvoření požadavku clusteru nebo Upravit spark_env_vars koncové body rozhraní API clusterů žádostí o clustery.

Poznámka

Proměnné prostředí, které jste nastavili v tomto poli, nejsou dostupné v inicializačních skriptech uzlů clusteru. Initimové skripty podporují pouze omezenou sadu předdefinovaných pořadí provádění initimátorových skriptů.

Značky clusteru

Značky clusteru umožňují snadno sledovat náklady na cloudové prostředky, které používají různé skupiny ve vaší organizaci. Značky můžete zadat jako páry klíč-hodnota při vytváření clusteru a Azure Databricks tyto značky použít pro cloudové prostředky, jako jsou virtuální počítače a diskový svazek, a také sestavy o využití DBU.

Pro clustery spouštěné z fondů se vlastní značky clusteru aplikují jenom na sestavy využití DBU a nešíří se do cloudových prostředků. Podrobné informace o tom, jak typy značek fondů a clusterů vzájemně spolupracují, najdete v tématu monitorování využití pomocí značek cluster, pool a Workspace.

Pro usnadnění práce používá Azure Databricks pro každý cluster čtyři výchozí značky: Vendor , Creator , ClusterName a ClusterId .

Kromě toho Azure Databricks v clusterech úloh použít dvě výchozí značky: RunName a JobId . U prostředků používaných službou SQL Analytics Azure Databricks používá také výchozí značku SqlEndpointId .

Vlastní značky můžete přidat při vytváření clusteru. Konfigurace značek clusteru:

  1. Na stránce konfigurace clusteru klikněte na přepínač Rozšířené možnosti .

  2. V dolní části stránky klikněte na kartu značky .

    Karta značky

  3. Přidejte pár klíč-hodnota pro každou vlastní značku. Můžete přidat až 43 vlastních značek.

Přístup ke clusterům přes SSH

Z bezpečnostních důvodů je v Azure Databricks port SSH ve výchozím nastavení uzavřený. Pokud chcete povolit přístup SSH k vašim clusterům Spark, obraťte se na podporu Azure Databricks.

Poznámka

SSH se dá povolit jenom v případě, že je váš pracovní prostor nasazený ve vaší vlastní službě Azure Virtual Network.

Doručení protokolu clusteru

Při vytváření clusteru můžete určit umístění, do kterého se mají doručovat ovladače Spark, pracovní proces a protokoly událostí. Protokoly se dodávají do vybraného cíle každých pět minut. Při ukončení clusteru zaručuje Azure Databricks protokoly vygenerované až do ukončení clusteru.

Cíl protokolů závisí na ID clusteru. Pokud je zadaný cíl , protokoly clusteru pro se dbfs:/cluster-log-delivery 0630-191345-leap375 doručí do dbfs:/cluster-log-delivery/0630-191345-leap375 .

Konfigurace umístění pro doručení protokolu:

  1. Na stránce konfigurace clusteru klikněte na přepínač Upřesnit možnosti.

  2. V dolní části stránky klikněte na kartu Protokolování.

    Doručení protokolu clusteru

  3. Vyberte typ cíle.

  4. Zadejte cestu k protokolu clusteru.

Poznámka

Tato funkce je dostupná také v REST API. Viz Příklady doručování protokolů clusteru a rozhraní API clusterů.

Inicializační skripty

Inicializace uzlu clusteru (nebo inicializační skript) je skript prostředí, který se spustí při spuštění pro každý uzel clusteru před spuštěním ovladače Spark nebo pracovního prostředí JVM. K instalaci balíčků a knihoven, které nejsou zahrnuté v modulu runtime Databricks, úpravám cesty ke systémovým třídám JVM, k nastavení systémových vlastností a proměnných prostředí používaných prostředím JVM nebo ke změně konfiguračních parametrů Sparku můžete použít i jiné úlohy konfigurace.

Initimátorové skripty můžete ke clusteru připojit tak, že rozbalíte část Upřesnit možnosti a kliknete na kartu Initimní skripty.

Podrobné pokyny najdete v tématu Skripty inicializace uzlu clusteru.