Clusters configureren
In dit artikel worden de configuratieopties beschreven die beschikbaar zijn wanneer u clusters maakt Azure Databricks bewerken. Het is gericht op het maken en bewerken van clusters met behulp van de gebruikersinterface. Zie Clusters CLI en Clusters API 2.0 voor andere methoden.
Zie best practices voor clusterconfiguratie voor hulp bij het bepalen welke combinatie van configuratieopties het beste bij uw behoeften past.

Een Spark-configuratie-eigenschap ophalen uit een geheim
Databricks raadt aan gevoelige informatie, zoals wachtwoorden, in een geheim op te slaan in plaats van in platte tekst. Als u wilt verwijzen naar een geheim in de Spark-configuratie, gebruikt u de volgende syntaxis:
spark.<secret-prop-name> <path-value>
Als u bijvoorbeeld een Spark-configuratie-eigenschap met de naam wilt password instellen op de waarde van het geheim dat is opgeslagen in secrets/apps/acme-app/password :
spark.password {{secrets/apps/acme-app/password}}
Zie Geheime paden in een Spark-configuratie-eigenschap of omgevingsvariabele voor meer informatie.
Clusterbeleid
Een clusterbeleid beperkt de mogelijkheid om clusters te configureren op basis van een set regels. De beleidsregels beperken de kenmerken of kenmerkwaarden die beschikbaar zijn voor het maken van clusters. Clusterbeleidsregels hebben ACL's die het gebruik beperken tot specifieke gebruikers en groepen en dus beperken welke beleidsregels u kunt selecteren wanneer u een cluster maakt.
Als u een clusterbeleid wilt configureren, selecteert u het clusterbeleid in de vervolgkeuzegroep Beleid.

Notitie
Als er geen beleidsregels zijn gemaakt in de werkruimte, wordt de vervolgkeuzeruimte Beleid niet weergegeven.
Als u:
- Machtiging voor het maken vanclusters. U kunt het beleid Onbeperkt selecteren en volledig configureerbare clusters maken. Het onbeperkte beleid beperkt geen clusterkenmerken of kenmerkwaarden.
- Beide clusters maken machtigingen en toegang tot clusterbeleid. U kunt het onbeperkte beleid en het beleid selecteren waar u toegang toe hebt.
- Alleen toegang tot clusterbeleid. U kunt het beleid selecteren waar u toegang toe hebt.
Clustermodus
Azure Databricks ondersteunt drie clustermodi: Standard, Hoge gelijktijdigheid en Eén knooppunt. De standaardclustermodus is Standard.
Notitie
De clusterconfiguratie bevat een instelling voor automatisch beëindigen waarvan de standaardwaarde afhankelijk is van de clustermodus:
- Standaardclusters en clusters met één knooppunt worden standaard automatisch na 120 minuten beëindigd.
- Clusters met hoge gelijktijdigheid worden niet standaard automatisch beëindigd.
Belangrijk
U kunt de clustermodus niet wijzigen nadat een cluster is gemaakt. Als u een andere clustermodus wilt, moet u een nieuw cluster maken.
Standaardclusters
Een Standard-cluster wordt aanbevolen voor één gebruiker. Standaardclusters kunnen workloads uitvoeren die in elke taal zijn ontwikkeld: Python, SQL, R en Scala.
Clusters met hoge gelijktijdigheid
Een cluster met hoge gelijktijdigheid is een beheerde cloudresource. De belangrijkste voordelen van clusters met hoge gelijktijdigheid zijn dat ze een fijnmadelend delen bieden voor maximaal resourcegebruik en minimale querylatentie.
Clusters met hoge gelijktijdigheid kunnen workloads uitvoeren die zijn ontwikkeld in SQL, Python en R. De prestaties en beveiliging van clusters met hoge gelijktijdigheid worden geleverd door gebruikerscode uit te voeren in afzonderlijke processen, wat niet mogelijk is in Scala.
Bovendien ondersteunen alleen clusters met hoge gelijktijdigheid toegangsbeheer voor tabel.
Als u een cluster met hoge gelijktijdigheid wilt maken, stelt u Clustermodus in op Hoge gelijktijdigheid.

Zie Voorbeeld van cluster met hoge gelijktijdigheid voor een voorbeeld van het maken van een cluster met hoge gelijktijdigheidmet behulp van de Clusters-API.
Clusters met één knooppunt
Een cluster met één knooppunt heeft geen werkknooppunt en voert Spark-taken uit op het stuurprogrammaknooppunt.
Een Standard-cluster vereist daarentegen ten minste één Spark-werkknooppunt naast het stuurprogrammaknooppunt om Spark-taken uit te voeren.
Als u een cluster met één knooppunt wilt maken, stelt u Clustermodus in op Eén knooppunt.

Zie Clusters met één knooppunt voor meer informatie over het werken met clusters met één knooppunt.
Zwembaden
Als u de begintijd van het cluster wilt verminderen, kunt u een cluster koppelen aan een vooraf gedefinieerde pool van niet-actieve exemplaren voor de stuurprogramma- en werkknooppunten. Het cluster wordt gemaakt met behulp van exemplaren in de pools. Als een pool onvoldoende niet-actieve resources heeft om de aangevraagde stuurprogramma- of werkknooppunten te maken, wordt de pool uitgebreid door nieuwe exemplaren van de instantieprovider toe tewijsen. Wanneer een gekoppeld cluster wordt beëindigd, worden de gebruikte exemplaren geretourneerd naar de pools en kunnen ze opnieuw worden gebruikt door een ander cluster.
Als u een pool voor werkknooppunten selecteert, maar niet voor het stuurprogrammaknooppunt, neemt het stuurprogrammaknooppunt de pool over van de configuratie van het werkknooppunt.
Belangrijk
Als u probeert een pool te selecteren voor het stuurprogrammaknooppunt, maar niet voor werkknooppunten, treedt er een fout op en wordt uw cluster niet gemaakt. Deze vereiste voorkomt dat het stuurprogrammaknooppunt moet wachten tot werkknooppunten zijn gemaakt, of vice versa.
Zie Pools voor meer informatie over het werken met pools in Azure Databricks.
Databricks Runtime
Databricks-runtimes zijn de set kernonderdelen die worden uitgevoerd op uw clusters. Alle Databricks-runtimes bevatten Apache Spark en onderdelen en updates toe te voegen die de bruikbaarheid, prestaties en beveiliging verbeteren. Zie Databricks-runtimes voor meer informatie.
Azure Databricks biedt verschillende typen runtimes en verschillende versies van deze runtimetypen in de Databricks Runtime-versie wanneer u een cluster maakt of bewerkt.

Fotonafbeeldingen
Belangrijk
Deze functie is beschikbaar als openbare preview.
Notitie
Beschikbaar in Databricks Runtime 8.3 en hoger.
Een fotonafbeelding selecteren:
Alleen runtimes weergeven die afbeeldingstypen van foto's bevatten. Schakel het selectievakje Photon in:

Selecteer een Photon-runtime.
Selecteer eventueel een exemplaartype in de vervolgkeuzekeuze vervolgkeuzekeuze voor Type werker en stuurprogramma.
Databricks raadt de volgende instantietypen aan voor optimale prijs en prestaties:
- Standard_E4ds_v4
- Standard_E8ds_v4
- Standard_E16ds_v4
U kunt de photon-activiteit bekijken in de Spark-gebruikersinterface. In de volgende schermopname ziet u de querydetails DAG. Er zijn twee indicaties van photon in de DAG. Eerst beginnen photon-operators met 'Photon', bijvoorbeeld PhotonGroupingAgg . Ten tweede zijn in de DAG fotonoperators en -fasen gekleurd, terwijl de niet-foton-operatoren blauw zijn.

Docker-afbeeldingen
Voor sommige Databricks Runtime kunt u een Docker-afbeelding opgeven wanneer u een cluster maakt. Voorbeeld van gebruiksvoorbeelden zijn bibliotheekaanpassing, een golden containeromgeving die niet verandert en Docker CI/CD-integratie.
U kunt docker-afbeeldingen ook gebruiken om aangepaste Deep Learning-omgevingen te maken op clusters met GPU-apparaten.
Zie Containers aanpassen met Databricks Container Services en Databricks Container Services in GPU-clustersvoor instructies.
Python-versie
Belangrijk
Python 2 heeft op 1 januari 2020 het einde van de levensduur bereikt. Python 2 wordt niet ondersteund in Databricks Runtime 6.0 en hoger. Databricks Runtime 5.5 en lager blijven ondersteuning bieden voor Python 2.
Python-clusters met Databricks Runtime 6.0 en hoger
Databricks Runtime 6.0 (niet ondersteund) en hoger ondersteunt alleen Python 3. Zie Python-omgeving in de opmerkingen bij de release voor belangrijke wijzigingen met betrekking tot de Python-omgeving Databricks Runtime 6.0.
Python-clusters met Databricks Runtime 5.5 LTS
Voor Databricks Runtime 5.5 LTS ondersteunen Spark-taken, Python-notebookcellen en bibliotheekinstallatie alle Python 2 en 3.
De standaard python-versie voor clusters die zijn gemaakt met behulp van de gebruikersinterface is Python 3. In Databricks Runtime 5.5 LTS is Python 2 de standaardversie voor clusters die zijn gemaakt met behulp van de REST API.
Python-versie opgeven
Als u de Python-versie wilt opgeven wanneer u een cluster maakt met behulp van de gebruikersinterface, selecteert u deze in de vervolgkeuzeop de python-versie.

Als u de Python-versie wilt opgeven wanneer u een cluster maakt met behulp van de API, stelt u de omgevingsvariabele PYSPARK_PYTHON in op /databricks/python/bin/python of /databricks/python3/bin/python3 . Zie voor een voorbeeld het voorbeeld REST API een Upload bestand in DBFSte maken.
Voer het volgende uit PYSPARK_PYTHON in een Python-notebook (of -cel) om te controleren of de configuratie van kracht %python is:
import sys
print(sys.version)
Als u hebt /databricks/python3/bin/python3 opgegeven, wordt er iets als het volgende afgedrukt:
3.5.2 (default, Sep 10 2016, 08:21:44)
[GCC 5.4.0 20160609]
Belangrijk
Voor Databricks Runtime 5.5 LTS verwijst wanneer u in een notebook wordt uitgevoerd naar de Python-versie van het %sh python --versionpython Ubuntu-systeem, Python 2. Gebruik om te verwijzen naar de versie van Python die wordt gebruikt door Databricks-notebooks en Spark: dit pad wordt automatisch geconfigureerd om te verwijzen naar het juiste /databricks/python/bin/python uitvoerbare Python-bestand.
Veelgestelde vragen
Kan ik zowel Python 2- als Python 3-notebooks in hetzelfde cluster gebruiken?
Nee. De Python-versie is een instelling voor het hele cluster en kan niet per notebook worden geconfigureerd.
Welke bibliotheken zijn geïnstalleerd in Python-clusters?
Zie release-opmerkingen bij Databricks Runtimevoor meer informatie over de specifieke bibliotheken die zijn geïnstalleerd.
Werken mijn bestaande PyPI-bibliotheken met Python 3?
Het hangt ervan af of de versie van de bibliotheek de Python 3-versie van een Databricks Runtime ondersteunt.
Databricks Runtime 5.5 LTS maakt gebruik van Python 3.5. Databricks Runtime 6.0 en hoger en Databricks Runtime Met Conda gebruikt u Python 3.7. Het is mogelijk dat een specifieke oude versie van een Python-bibliotheek niet doorgestuurd compatibel is met Python 3.7. In dit geval moet u een nieuwere versie van de bibliotheek gebruiken.
Werken mijn bestaande .egg bibliotheken met Python 3?
Het hangt ervan af of uw bestaande bibliotheek compatibel is met zowel Python 2 als 3. Als de bibliotheek geen ondersteuning biedt voor Python 3, mislukt de bibliotheekbijlage of treden er runtimefouten op.
Zie Ondersteuning van Python 3 voor een uitgebreide handleiding voor het overschrijven van code naar Python 3 en het schrijven van code die compatibel is met zowel Python 2 als 3.
Kan ik nog steeds Python-bibliotheken installeren met behulp van init-scripts?
Een veelvoorkomende use-case voor initialisatiescripts voor clusterknooppunt is het installeren van pakketten.
Gebruik Databricks Runtime 5.5 LTS om ervoor te zorgen dat Python-pakketten worden geïnstalleerd in de virtuele Databricks Python-omgeving in plaats van in de /databricks/python/bin/pip Python-systeemomgeving.
Voor Databricks Runtime 6.0 en hoger en Databricks Runtime met Conda verwijst de opdracht naar de in de juiste pippip virtuele Python-omgeving. Als u echter een init-script gebruikt om de virtuele Python-omgeving te maken, gebruikt u altijd het absolute pad voor toegang tot python en pip .
Clusterknooppunttype
Een cluster bestaat uit één stuurprogrammaknooppunt en nul of meer werkknooppunten.
U kunt afzonderlijke typen cloudprovider-exemplaren kiezen voor het stuurprogramma en de werkknooppunten, hoewel het stuurprogrammaknooppunt standaard hetzelfde exemplaartype gebruikt als het werkknooppunt. Verschillende typen instanties passen in verschillende gebruiksgevallen, zoals geheugenintensieve of rekenintensieve workloads.
Notitie
Als uw beveiligingsvereisten rekenisolatie bevatten,selecteert u Standard_F72s_V2 als uw werktype. Deze instantietypen vertegenwoordigen geïsoleerde virtuele machines die de volledige fysieke host gebruiken en bieden het benodigde isolatieniveau dat is vereist voor de ondersteuning van bijvoorbeeld IL5-workloads (Us Department of Defense Impact Level 5).
Knooppunt stuurprogramma
Het stuurprogrammaknooppunt houdt de statusinformatie bij van alle notebooks die aan het cluster zijn gekoppeld. Het stuurprogrammaknooppunt onderhoudt ook de SparkContext en interpreteert alle opdrachten die u vanuit een notebook of een bibliotheek in het cluster hebt uitgevoerd, en voert de Apache Spark-master uit die coördineert met de Spark-uitvoerders.
De standaardwaarde van het type stuurprogramma-knooppunt is hetzelfde als het type werk knooppunt. U kunt een groter type stuurprogramma-knooppunt met meer geheugen kiezen als u van plan bent om veel gegevens van Spark-werksters te verzamelen en deze collect() te analyseren in het notebook.
Tip
Omdat het stuurprogramma-knooppunt alle statusinformatie van de gekoppelde notebooks bijhoudt, moet u ongebruikte notebooks loskoppelen van het stuurprogramma-knooppunt.
Werk knooppunt
Azure Databricks werkknooppunten worden de Spark-uitvoerders en andere services uitgevoerd die vereist zijn voor een goede werking van de clusters. Wanneer u uw workload distribueert met Spark, vindt alle gedistribueerde verwerking plaats op werkknooppunten. Azure Databricks voert één uitvoerder per werkpunt uit; daarom worden de termen executoren worker door elkaar gebruikt in de context van de Azure Databricks architectuur.
Tip
Als u een Spark-taak wilt uitvoeren, hebt u ten minste één werkpunt nodig. Als een cluster nul werkknooppunt heeft, kunt u niet-Spark-opdrachten uitvoeren op het stuurprogrammaknooppunt, maar Spark-opdrachten mislukken.
Typen GPU-exemplaren
Voor rekenkundige taken die hoge prestaties vragen, zoals de taken die zijn gekoppeld aan deep learning, ondersteunt Azure Databricks clusters die zijn versneld met GPU's (Graphics Processing Units). Deze ondersteuning is beschikbaar in bètaversie. Zie clusters met GPU voor meer informatie.
Spot-exemplaren
Als u kosten wilt besparen, kunt u ervoor kiezen om spot-exemplaren te gebruiken, ook wel spot-VM's van Azure genoemd, door het selectievakje Spot-exemplaren in te checken.

De eerste instantie is altijd on-demand (het stuurprogramma-knooppunt is altijd on-demand) en volgende exemplaren zijn spot-exemplaren. Als spot-exemplaren worden verwijderd vanwege niet-beschikbaarheid, worden instanties op aanvraag geïmplementeerd om verwijderde exemplaren te vervangen.
Grootte en automatische schaalaanpassing cluster
Wanneer u een Azure Databricks cluster maakt, kunt u een vast aantal werksters voor het cluster bieden of een minimum- en maximumaantal werksters voor het cluster bieden.
Wanneer u een cluster met een vaste grootte op Azure Databricks zorgt u ervoor dat uw cluster het opgegeven aantal werksters heeft. Wanneer u een bereik op geeft voor het aantal werknemers, kiest Databricks het juiste aantal werksters dat nodig is om uw taak uit te voeren. Dit wordt automatisch schalen genoemd.
Met automatische schalen worden Azure Databricks dynamisch toegewezen aan werknemers om rekening te houden met de kenmerken van uw taak. Bepaalde onderdelen van uw pijplijn kunnen meer rekenkracht hebben dan andere, en Databricks voegt automatisch extra werkmedewerkers toe tijdens deze fasen van uw taak (en verwijdert ze wanneer ze niet meer nodig zijn).
Automatisch schalen maakt het eenvoudiger om een hoog clustergebruik te bereiken, omdat u het cluster niet hoeft in te stellen op een overeenkomende workload. Dit geldt met name voor workloads waarvan de vereisten in de loop van de tijd veranderen (zoals het verkennen van een gegevensset gedurende een dag), maar deze kan ook van toepassing zijn op een een time-kortere workload waarvan de inrichtingsvereisten onbekend zijn. Automatisch schalen biedt dus twee voordelen:
- Workloads kunnen sneller worden uitgevoerd in vergelijking met een cluster met een constante grootte dat te klein is ingericht.
- Clusters met automatisch schalen kunnen de totale kosten verlagen in vergelijking met een cluster met statische grootte.
Afhankelijk van de constante grootte van het cluster en de werkbelasting, biedt automatisch schalen u een of beide voordelen tegelijk. De clustergrootte kan lager zijn dan het minimum aantal werkpersoneel dat is geselecteerd wanneer de cloudprovider exemplaren beëindigt. In dit geval Azure Databricks continu opnieuw proberen om instanties opnieuw in terichten om het minimale aantal werknemers te behouden.
Notitie
Automatisch schalen is niet beschikbaar voor spark-submit taken.
Typen automatische schaalaanpassing.
Azure Databricks biedt twee typen automatisch schalen van clusterknooppunt: standaard en geoptimaliseerd. Zie het blogbericht over Geoptimaliseerd automatisch schalen voor een bespreking van de voordelen van geoptimaliseerde automatische schalen.
Geautomatiseerde (taak)clusters maken altijd gebruik van geoptimaliseerde automatische schalen. Het type automatische schalen dat wordt uitgevoerd op clusters voor alle doeleinden, is afhankelijk van de configuratie van de werkruimte.
Standaard automatisch schalen wordt gebruikt door clusters voor alle doeleinden in werkruimten in de prijscategorie Standard. Geoptimaliseerde automatische schalen wordt gebruikt door clusters voor alle doeleinden in de Azure Databricks Premium Plan.
De werking van automatisch schalen
Automatisch schalen werkt anders, afhankelijk van of deze is geoptimaliseerd of standaard en of deze wordt toegepast op een cluster voor alle doeleinden of op een taakcluster.
Geoptimaliseerd automatisch schalen
- Schaalt in twee stappen omhoog van min. naar max.
- Kan omlaag schalen, zelfs als het cluster niet inactief is door te kijken naar de status van het shuffle-bestand.
- Schaalt omlaag op basis van een percentage van de huidige knooppunten.
- Op taakclusters wordt omlaag geschaald als het cluster in de afgelopen 40 seconden te klein is.
- Op clusters voor alle doeleinden wordt omlaag geschaald als het cluster in de afgelopen 150 seconden te veel wordt gebruikt.
- De
spark.databricks.aggressiveWindowDownSspark-configuratie-eigenschap geeft in seconden aan hoe vaak een cluster beslissingen voor omlaag schalen neemt. Het verhogen van de waarde zorgt ervoor dat een cluster langzamer omlaag schaalt. De maximumwaarde is 600.
Standaard automatisch schalen
- Begint met het toevoegen van 8 knooppunten. Daarna kan exponentieel omhoog worden geschaald, maar er kunnen veel stappen worden ondernomen om het maximum te bereiken. U kunt de eerste stap aanpassen door de
spark.databricks.autoscaling.standardFirstStepUpspark-configuratie-eigenschap in te stellen. - Schaalt alleen omlaag wanneer het cluster volledig inactief is en het de afgelopen 10 minuten te veel is gebruikt.
- Schaalt exponentieel omlaag, beginnend met 1 knooppunt.
Automatisch schalen inschakelen en configureren
Als u Azure Databricks cluster automatisch wilt kunnen schalen, schakelt u automatisch schalen voor het cluster in en geeft u het minimum- en maximumbereik van werkpersoneel op.
Schakel automatisch schalen in.
All-Purpose cluster: schakel op de pagina Cluster maken het selectievakje Automatisch schalen inschakelen in het vak Autopilot-opties in:

Taakcluster: schakel op de pagina Cluster configureren het selectievakje Automatisch schalen inschakelen in het vak Autopilot-opties in:

Configureer de minimum- en maximum aantal werksters.

Wanneer het cluster wordt uitgevoerd, wordt op de detailpagina van het cluster het aantal toegewezen werksters weergegeven. U kunt het aantal toegewezen werknemers vergelijken met de werkconfiguratie en zo nodig aanpassingen aanbrengen.
Belangrijk
Als u een exemplaarpool gebruikt:
- Zorg ervoor dat de aangevraagde clustergrootte kleiner is dan of gelijk is aan het minimum aantal niet-actieve exemplaren in de pool. Als deze groter is, is de opstarttijd van het cluster gelijk aan een cluster dat geen pool gebruikt.
- Zorg ervoor dat de maximale clustergrootte kleiner is dan of gelijk is aan de maximale capaciteit van de pool. Als deze groter is, mislukt het maken van het cluster.
Voorbeeld van automatisch schalen
Als u een statisch cluster opnieuw configureert als een cluster voor automatisch schalen, wordt Azure Databricks het cluster onmiddellijk binnen de minimum- en maximumgrens aangepast en wordt automatisch schalen gestart. In de volgende tabel ziet u bijvoorbeeld wat er gebeurt met clusters met een bepaalde initiële grootte als u een cluster opnieuw configureert om automatisch te schalen tussen 5 en 10 knooppunten.
| Initiële grootte | Grootte na herconfiguratie |
|---|---|
| 6 | 6 |
| 12 | 10 |
| 3 | 5 |
Lokale opslag automatisch schalen
Het kan vaak lastig zijn om in te schatten hoeveel schijfruimte een bepaalde taak nodig heeft. Als u wilt besparen op het aantal gigabytes aan beheerde schijven dat u tijdens het maken aan uw cluster moet koppelen, schakelt Azure Databricks automatisch automatisch schalen van lokale opslag in op alle Azure Databricks-clusters.
Met automatisch schalen van lokale opslag bewaakt Azure Databricks de hoeveelheid vrije schijfruimte die beschikbaar is op de Spark-werksters van uw cluster. Als een werkmedewerker te laag op de schijf begint te werken, koppelt Databricks automatisch een nieuwe beheerde schijf aan de werkmedewerker voordat er geen schijfruimte meer is. Schijven worden gekoppeld tot een limiet van 5 TB aan totale schijfruimte per virtuele machine (inclusief de initiële lokale opslag van de virtuele machine).
De beheerde schijven die aan een virtuele machine zijn gekoppeld, worden alleen losgekoppeld wanneer de virtuele machine wordt geretourneerd naar Azure. Dat wil zeggen dat beheerde schijven nooit worden losgekoppeld van een virtuele machine zolang deze deel uitmaakt van een actief cluster. Als u het gebruik van beheerde schijven omlaag wilt schalen, Azure Databricks u deze functie gebruiken in een cluster dat is geconfigureerd met GPU-instantietypenof automatische beëindiging.
Lokale schijfversleuteling
Belangrijk
Deze functie is beschikbaar als openbare preview.
Sommige instantietypen die u gebruikt om clusters uit te voeren, hebben mogelijk lokaal gekoppelde schijven. Azure Databricks kunnen shuffle-gegevens of kortstondige gegevens opslaan op deze lokaal gekoppelde schijven. U kunt lokale schijfversleuteling inschakelen om ervoor te zorgen dat alle data-at-rest wordt versleuteld voor alle opslagtypen, inclusief willekeurige gegevens die tijdelijk zijn opgeslagen op de lokale schijven van uw cluster.
Belangrijk
Uw workloads kunnen langzamer worden uitgevoerd vanwege de invloed op de prestaties van het lezen en schrijven van versleutelde gegevens van en naar lokale volumes.
Wanneer lokale schijfversleuteling is ingeschakeld, genereert Azure Databricks lokaal een versleutelingssleutel die uniek is voor elk clusterknooppunt en wordt gebruikt voor het versleutelen van alle gegevens die zijn opgeslagen op lokale schijven. Het bereik van de sleutel is lokaal voor elk clusterknooppunt en wordt samen met het clusterknooppunt zelf vernietigd. Tijdens de levensduur bevindt de sleutel zich in het geheugen voor versleuteling en ontsleuteling en wordt deze versleuteld op de schijf opgeslagen.
Als u lokale schijfversleuteling wilt inschakelen, moet u de Clusters-API 2.0 gebruiken. Stel tijdens het maken of bewerken van het cluster het volgende in:
{
"enable_local_disk_encryption": true
}
Zie Maken en bewerken in de Clusters-API-verwijzing voor voorbeelden van het aanroepen van deze API's.
Hier is een voorbeeld van een aanroep voor het maken van een cluster waarmee lokale schijfversleuteling wordt gebruikt:
{
"cluster_name": "my-cluster",
"spark_version": "7.3.x-scala2.12",
"node_type_id": "Standard_D3_v2",
"enable_local_disk_encryption": true,
"spark_conf": {
"spark.speculation": true
},
"num_workers": 25
}
Spark-configuratie
Als u Spark-taken wilt afstemmen, kunt u aangepaste Spark-configuratie-eigenschappen in een clusterconfiguratie leveren.
Klik op de pagina clusterconfiguratie op de schakelknop Geavanceerde opties.
Klik op het tabblad Spark.

Voer in Spark-configuratiede configuratie-eigenschappen in als één sleutel-waardepaar per regel.
Wanneer u een cluster configureert met behulp van de Clusters-API 2.0,stelt u Spark-eigenschappen in het veld in clusteraanvraag maken of Clusteraanvraag bewerken in.
Als u Spark-eigenschappen voor alle clusters wilt instellen, maakt u een globaal init-script:
dbutils.fs.put("dbfs:/databricks/init/set_spark_params.sh","""
|#!/bin/bash
|
|cat << 'EOF' > /databricks/driver/conf/00-custom-spark-driver-defaults.conf
|[driver] {
| "spark.sql.sources.partitionOverwriteMode" = "DYNAMIC"
|}
|EOF
""".stripMargin, true)
Omgevingsvariabelen
U kunt omgevingsvariabelen instellen die u kunt openen vanuit scripts die worden uitgevoerd op een cluster.
Klik op de pagina clusterconfiguratie op de schakelknop Geavanceerde opties.
Klik op het tabblad Spark.
Stel de omgevingsvariabelen in het veld Omgevingsvariabelen in.

U kunt ook omgevingsvariabelen instellen met behulp van het veld in eindpunten clusteraanvraag maken of spark_env_varsClusteraanvraagclusters bewerken API-eindpunten. spark_env_vars
Notitie
De omgevingsvariabelen die u in dit veld instelt, zijn niet beschikbaar in initialisatiescripts voor clusterknooppunt. Init-scripts ondersteunen slechts een beperkte set vooraf gedefinieerde uitvoeringsorder voor Init-scripts.
Clustertags
Met clustertags kunt u eenvoudig de kosten bewaken van cloudbronnen die door verschillende groepen in uw organisatie worden gebruikt. U kunt tags opgeven als sleutel-waardeparen wanneer u een cluster maakt en Azure Databricks past deze tags toe op cloudbronnen zoals VM's en schijfvolumes, evenals DBU-gebruiksrapporten.
Voor clusters die vanuit pools worden gestart, worden de aangepaste clustertags alleen toegepast op DBU-gebruiksrapporten en worden ze niet doorgegeven aan cloudresources. Zie Gebruik bewaken met behulp van cluster-, pool-en werkruimtetags voor gedetailleerde informatie over de samenwerking tussen de typen pool- en clustertags.
Voor het gemak Azure Databricks standaardtags toegepast op elk cluster: VendorCreator , , en ClusterNameClusterId .
Bovendien worden op taakclusters Azure Databricks standaardtags toegepast: RunName en JobId . Op resources die worden gebruikt door Databricks SQL, Azure Databricks ook de standaardtag SqlEndpointId toegepast.
Waarschuwing
Wijs geen aangepaste tag met de sleutel toe Name aan een cluster. Elk cluster heeft een tag Name waarvan de waarde wordt ingesteld door Azure Databricks. Als u de waarde wijzigt die is gekoppeld aan de sleutel , kan het cluster niet meer worden bij te houden Name door Azure Databricks. Als gevolg hiervan wordt het cluster mogelijk niet beëindigd na inactief te zijn geworden en blijven er gebruikskosten in rekening worden brengen.
U kunt aangepaste tags toevoegen wanneer u een cluster maakt. Clustertags configureren:
Klik op de pagina clusterconfiguratie op de schakelknop Geavanceerde opties.
Klik onder aan de pagina op het tabblad Tags.

Voeg een sleutel-waardepaar toe voor elke aangepaste tag. U kunt maximaal 43 aangepaste tags toevoegen.
SSH-toegang tot clusters
Uit veiligheidsoverwegingen Azure Databricks de SSH-poort standaard gesloten. Als u SSH-toegang tot uw Spark-clusters wilt inschakelen, neem dan contact op Azure Databricks ondersteuning.
Notitie
SSH kan alleen worden ingeschakeld als uw werkruimte is geïmplementeerd in uw eigen virtuele Azure-netwerk.
Levering clusterlogboek
Wanneer u een cluster maakt, kunt u een locatie opgeven voor het leveren van de logboeken voor het Spark-stuurprogrammaknooppunt, werkknooppunten en gebeurtenissen. Logboeken worden elke vijf minuten bezorgd bij de door u gekozen bestemming. Wanneer een cluster wordt beëindigd, garandeert Azure Databricks dat alle logboeken worden leveren die zijn gegenereerd totdat het cluster is beëindigd.
De bestemming van de logboeken is afhankelijk van de cluster-id. Als de opgegeven bestemming dbfs:/cluster-log-delivery is, worden de clusterlogboeken 0630-191345-leap375 voor geleverd aan dbfs:/cluster-log-delivery/0630-191345-leap375 .
De leveringslocatie voor logboeken configureren:
Klik op de pagina clusterconfiguratie op de schakelknop Geavanceerde opties.
Klik op het tabblad Logboekregistratie.

Selecteer een doeltype.
Voer het pad naar het clusterlogboek in.
Notitie
Deze functie is ook beschikbaar in de REST API. Zie Voorbeelden van cluster-API 2.0 en Levering van clusterlogboek.
Init-scripts
Een initialisatie van een clusterknooppunt, of init, is een shellscript dat wordt uitgevoerd tijdens het opstarten voor elk clusterknooppunt voordat het Spark-stuurprogramma of de werkknooppunt-JVM wordt gestart. U kunt init-scripts gebruiken om pakketten en bibliotheken te installeren die niet zijn opgenomen in de Databricks-runtime, het klassepad van het JVM-systeem te wijzigen, systeemeigenschappen en omgevingsvariabelen in te stellen die worden gebruikt door de JVM, of spark-configuratieparameters te wijzigen, en andere configuratietaken.
U kunt init-scripts koppelen aan een cluster door de sectie Geavanceerde opties uit te breiden en op het tabblad Init-scripts te klikken.
Zie Initialisatiescripts voor clusterknooppunt voor gedetailleerde instructies.