Clusters-API 2.0

Met de Clusters-API kunt u clusters maken, starten, bewerken, opslijsten, beëindigen en verwijderen. De maximaal toegestane grootte van een aanvraag voor de Clusters-API is 10 MB.

Voor levenscyclusmethoden voor clusters is een cluster-id vereist, die wordt geretourneerd door Maken. Als u een lijst met clusters wilt verkrijgen, roept u Lijst aan.

Azure Databricks clusterknooppunt-instantietypen toe aan rekeneenheden die DDO's worden genoemd. Zie de pagina prijzen voor instantietypen voor een lijst met de ondersteunde exemplaartypen en de bijbehorende DDE's. Zie Specificaties en prijzen van Azure-instantietypevoor informatie over de instantieprovider.

Azure Databricks biedt altijd een kennisgeving over afschaffing van één jaar voordat de ondersteuning voor een instantietype wordt verwijderd.

Belangrijk

U moet u verifiëren voor toegang tot Databricks-REST API's.

Maken

Eindpunt HTTP-methode
2.0/clusters/create POST

Maak een nieuw Apache Spark cluster. Met deze methode worden nieuwe exemplaren van de cloudprovider verkregen indien nodig. Deze methode is asynchroon; de cluster_id geretourneerde kan worden gebruikt om de clustertoestand. Wanneer deze methode retourneert, heeft het cluster een PENDING status. Het cluster kan worden bruikbaar zodra het een status RUNNING krijgt. Zie ClusterState.

Notitie

Azure Databricks mogelijk niet sommige van de aangevraagde knooppunten verkrijgen vanwege de cloudprovider beperkingen of tijdelijke netwerkproblemen. Als het niet lukt om een voldoende aantal van de aangevraagde knooppunten te verkrijgen, wordt het maken van het cluster beëindigd met een informatief foutbericht.

Voorbeelden

curl --netrc -X POST \
https://adb-1234567890123456.7.azuredatabricks.net/api/2.0/clusters/create \
--data @create-cluster.json

create-cluster.json:

{
  "cluster_name": "my-cluster",
  "spark_version": "7.3.x-scala2.12",
  "node_type_id": "Standard_D3_v2",
  "spark_conf": {
    "spark.speculation": true
  },
  "num_workers": 25
}
{ "cluster_id": "1234-567890-undid123" }

Hier is een voorbeeld voor een cluster voor automatisch schalen. Dit cluster begint met twee knooppunten, het minimum.

curl --netrc -X POST \
https://adb-1234567890123456.7.azuredatabricks.net/api/2.0/clusters/create \
--data @create-cluster.json

create-cluster.json:

{
  "cluster_name": "autoscaling-cluster",
  "spark_version": "7.3.x-scala2.12",
  "node_type_id": "Standard_D3_v2",
  "autoscale" : {
    "min_workers": 2,
    "max_workers": 50
  }
}
{ "cluster_id": "1234-567890-hared123" }

In dit voorbeeld wordt een cluster met één knooppunt gemaakt. Een cluster met één knooppunt maken:

  • Stel spark_conf en in op de exacte waarden in het custom_tags voorbeeld.
  • Stel num_workers in op 0.
curl --netrc -X POST \
https://adb-1234567890123456.7.azuredatabricks.net/api/2.0/clusters/create \
--data @create-cluster.json

create-cluster.json:

{
  "cluster_name": "single-node-cluster",
  "spark_version": "7.6.x-scala2.12",
  "node_type_id": "Standard_DS3_v2",
  "num_workers": 0,
  "spark_conf": {
    "spark.databricks.cluster.profile": "singleNode",
    "spark.master": "local[*]"
  },
  "custom_tags": {
    "ResourceClass": "SingleNode"
  }
}
{ "cluster_id": "1234-567890-pouch123" }

Als u een taak wilt maken of een run wilt verzenden met een nieuw cluster met behulp van een beleid, stelt u in policy_id op de beleids-id:

curl --netrc -X POST \
https://adb-1234567890123456.7.azuredatabricks.net/api/2.0/clusters/create \
--data @create-cluster.json

create-cluster.json:


{
    "num_workers": null,
    "autoscale": {
        "min_workers": 2,
        "max_workers": 8
    },
    "cluster_name": "my-cluster",
    "spark_version": "7.3.x-scala2.12",
    "spark_conf": {},
    "node_type_id": "Standard_D3_v2",
    "custom_tags": {},
    "spark_env_vars": {
        "PYSPARK_PYTHON": "/databricks/python3/bin/python3"
    },
    "autotermination_minutes": 120,
    "init_scripts": [],
    "policy_id": "C65B864F02000008"
}

Als u een nieuw cluster wilt maken, definieert u de eigenschappen van het cluster in new_cluster :

curl --netrc -X POST \
https://adb-1234567890123456.7.azuredatabricks.net/api/2.0/job/create \
--data @create-job.json

create-job.json:

{
  "run_name": "my spark task",
  "new_cluster": {
    "spark_version": "7.3.x-scala2.12",
    "node_type_id": "Standard_D3_v2",
    "num_workers": 10,
    "policy_id": "ABCD000000000000"
  },
  "libraries": [
    {
      "jar": "dbfs:/my-jar.jar"
    },
    {
      "maven": {
        "coordinates": "org.jsoup:jsoup:1.7.2"
      }
    }
  ],
  "spark_jar_task": {
    "main_class_name": "com.databricks.ComputeModels"
  }
}

Aanvraagstructuur van de clusterdefinitie

Veldnaam Type Description
num_workers OF automatisch schalen INT32 OF INT32 Als num_workers, het aantal werkknooppunten dat dit cluster moet hebben. Een cluster heeft één Spark-stuurprogramma en num_workers voor een totaal van num_workers + 1 Spark-knooppunten.

Opmerking: Bij het lezen van de eigenschappen van een cluster geeft dit veld het gewenste aantal werkpersoneel weer in plaats van het werkelijke aantal werkwerkers. Als het formaat van een cluster bijvoorbeeld wordt aangepast van 5 tot 10 werksters, wordt dit veld onmiddellijk bijgewerkt met de doelgrootte van 10 werksters, terwijl de werksters die worden vermeld in geleidelijk toenemen van 5 naar 10 naarmate de nieuwe knooppunten worden executors ingericht.

Als de schaal automatisch wordt geschaald, zijn parameters nodig om clusters automatisch omhoog en omlaag te schalen op basis van de belasting.
cluster_name STRING Clusternaam aangevraagd door de gebruiker. Dit hoeft niet uniek te zijn. Als dit niet wordt opgegeven bij het maken, is de clusternaam een lege tekenreeks.
spark_version STRING De runtimeversie van het cluster. U kunt een lijst met beschikbare runtimeversies ophalen met behulp van de API-aanroep runtimeversies. Dit veld is vereist.
spark_conf SparkConfPair Een object met een set optionele, door de gebruiker opgegeven Spark-configuratiesleutel-waardeparen. U kunt ook een reeks extra JVM-opties doorgeven aan het stuurprogramma en de uitvoerders via
spark.driver.extraJavaOptions respectievelijk spark.executor.extraJavaOptions en .

Voorbeeld van Spark-confs:
{"spark.speculation": true, "spark.streaming.ui.retainedBatches": 5} of
{"spark.driver.extraJavaOptions": "-verbose:gc -XX:+PrintGCDetails"}
node_type_id STRING Dit veld codeert, via één waarde, de resources die beschikbaar zijn voor elk van de Spark-knooppunten in dit cluster. De Spark-knooppunten kunnen bijvoorbeeld worden ingericht en geoptimaliseerd voor geheugen- of rekenintensieve workloads Een lijst met beschikbare knooppunttypen kan worden opgehaald met behulp van de API-aanroep Knooppunttypen lijst. Dit veld is vereist.
driver_node_type_id STRING Het knooppunttype van het Spark-stuurprogramma. Dit veld is optioneel; Indien niet ingesteld, wordt het type stuurprogramma-knooppunt ingesteld als dezelfde waarde als node_type_id hierboven is gedefinieerd.
custom_tags ClusterTag Een object met een set tags voor clusterbronnen. Databricks tagt alle clusterbronnen (zoals VM's) met deze tags naast default_tags.

Opmerking:

Azure Databricks kunt u ten beste 43 aangepaste tags gebruiken.
cluster_log_conf ClusterLogConf De configuratie voor het leveren van Spark-logboeken aan een langetermijnopslagbestemming. Er kan slechts één doel worden opgegeven voor één cluster. Als de conf wordt opgegeven, worden de logboeken elke keer aan de bestemming geleverd
5 mins. Het doel van stuurprogrammalogboeken is <destination>/<cluster-ID>/driver , terwijl het doel van de uitvoerlogboeken <destination>/<cluster-ID>/executor is.
init_scripts Een matrix van InitScriptInfo De configuratie voor het opslaan van init-scripts. Er kan een groot aantal scripts worden opgegeven. De scripts worden opeenvolgend uitgevoerd in de opgegeven volgorde. Als cluster_log_conf is opgegeven, worden init-scriptlogboeken verzonden naar
<destination>/<cluster-ID>/init_scripts.
docker_image DockerImage Docker-afbeelding voor een aangepaste container.
spark_env_vars SparkEnvPair Een object met een set optionele, door de gebruiker opgegeven omgevingsvariabele sleutel-waardeparen. Sleutel-waardeparen van het formulier (X,Y) worden geëxporteerd zoals ze zijn (dat wil zeggen,
export X='Y') tijdens het starten van het stuurprogramma en de werksters.

Als u een extra set van wilt opgeven, raden we u aan SPARK_DAEMON_JAVA_OPTS deze toe te stellen aan , zoals wordt weergegeven in het volgende $SPARK_DAEMON_JAVA_OPTS voorbeeld. Dit zorgt ervoor dat ook alle standaard door Databricks beheerde omgevingsvariabelen worden opgenomen.

Voorbeeld van Spark-omgevingsvariabelen:
{"SPARK_WORKER_MEMORY": "28000m", "SPARK_LOCAL_DIRS": "/local_disk0"} of
{"SPARK_DAEMON_JAVA_OPTS": "$SPARK_DAEMON_JAVA_OPTS -Dspark.shuffle.service.enabled=true"}
autotermination_minutes INT32 Het cluster wordt automatisch beëindigd nadat het inactief is voor deze tijd in minuten. Als dit niet is ingesteld, wordt dit cluster niet automatisch beëindigd. Indien opgegeven, moet de drempelwaarde tussen 10 en 10.000 minuten liggen. U kunt deze waarde ook instellen op 0 om automatische beëindiging expliciet uit te schakelen.
driver_instance_pool_id STRING De id van de exemplaarpool die moet worden gebruikt voor stuurprogramma's. U moet ook instance_pool_id opgeven. Raadpleeg Api 2.0 voor exemplaarpools voor meer informatie.
instance_pool_id STRING De optionele id van de exemplaarpool die moet worden gebruikt voor clusterknooppunten. Als driver_instance_pool_id aanwezig is,
instance_pool_id wordt alleen gebruikt voor werkknooppunten. Anders wordt deze gebruikt voor zowel het stuurprogramma als de werkknooppunten. Raadpleeg Api 2.0 voor exemplaarpools voor meer informatie.
idempotency_token STRING Een optioneel token dat kan worden gebruikt om de idempotentie van aanvragen voor het maken van clusters te garanderen. Als er al een actief cluster met het opgegeven token bestaat, maakt de aanvraag geen nieuw cluster, maar wordt in plaats daarvan de id van het bestaande cluster retourneren. Het bestaan van een cluster met hetzelfde token wordt niet gecontroleerd op beëindigde clusters.

Als u het token idempotentie opgeeft, kunt u het bij een fout opnieuw proberen totdat de aanvraag is geslaagd. Azure Databricks garandeert dat precies één cluster wordt gestart met dat idempotentie-token.

Dit token moet uit minstens 64 tekens bestaan.
apply_policy_default_values BOOL Of standaardwaarden voor beleid moeten worden gebruikt voor ontbrekende clusterkenmerken.
enable_local_disk_encryption BOOL Of versleuteling van schijven die lokaal zijn gekoppeld aan het cluster is ingeschakeld.
azure_attributes AzureAttributes Kenmerken met betrekking tot clusters die worden uitgevoerd in Azure. Als dit niet wordt opgegeven bij het maken van het cluster, wordt een set standaardwaarden gebruikt.

Antwoordstructuur

Veldnaam Type Description
cluster_id STRING Canonieke id voor het cluster.

Bewerken

Eindpunt HTTP-methode
2.0/clusters/edit POST

Bewerk de configuratie van een cluster zo dat deze overeenkomen met de opgegeven kenmerken en grootte.

U kunt een cluster bewerken als het de status RUNNING of TERMINATED heeft. Als u een cluster bewerkt terwijl het een status RUNNING heeft, wordt het opnieuw gestart zodat de nieuwe kenmerken van kracht kunnen worden. Als u een cluster bewerkt terwijl het zich in een TERMINATED status, blijft deze TERMINATED . De volgende keer dat deze wordt gestart met behulp van de clusters/start API, worden de nieuwe kenmerken van kracht. Een poging om een cluster in een andere status te bewerken, zal worden geweigerd met een INVALID_STATE foutcode.

Clusters die zijn gemaakt door de Databricks-takenservice kunnen niet worden bewerkt.

Voorbeeld

curl --netrc -X POST \
https://adb-1234567890123456.7.azuredatabricks.net/api/2.0/clusters/edit \
--data @edit-cluster.json

edit-cluster.json:

{
  "cluster_id": "1202-211320-brick1",
  "num_workers": 10,
  "spark_version": "7.3.x-scala2.12",
  "node_type_id": "Standard_D3_v2"
}
{}

Aanvraagstructuur

Veldnaam Type Description
num_workers OF automatisch schalen INT32 OF INT32 Als num_workers, het aantal werkknooppunten dat dit cluster moet hebben. Een cluster heeft één Spark-stuurprogramma en num_workers-uitvoerders voor een totaal van num_workers + 1 Spark-knooppunten.

Opmerking: Bij het lezen van de eigenschappen van een cluster geeft dit veld het gewenste aantal werkpersoneel weer in plaats van het werkelijke aantal werkwerkers. Als het formaat van een cluster bijvoorbeeld wordt aangepast van 5 tot 10 werksters, wordt dit veld onmiddellijk bijgewerkt met de doelgrootte van 10 werksters, terwijl de werksters die worden vermeld in geleidelijk toenemen van 5 naar 10 naarmate de nieuwe knooppunten worden executors ingericht.

Als de schaal automatisch wordt geschaald, zijn parameters nodig om clusters automatisch omhoog en omlaag te schalen op basis van de belasting.
cluster_id STRING Canonieke id voor het cluster. Dit veld is vereist.
cluster_name STRING Clusternaam aangevraagd door de gebruiker. Dit hoeft niet uniek te zijn. Als dit niet wordt opgegeven bij het maken, is de clusternaam een lege tekenreeks.
spark_version STRING De runtimeversie van het cluster. U kunt een lijst met beschikbare runtimeversies ophalen met behulp van de API-aanroep runtimeversies. Dit veld is vereist.
spark_conf SparkConfPair Een object met een set optionele, door de gebruiker opgegeven Spark-configuratiesleutel-waardeparen. U kunt ook een reeks extra JVM-opties doorgeven aan het stuurprogramma en de uitvoerders via
spark.driver.extraJavaOptions respectievelijk spark.executor.extraJavaOptions en .

Voorbeeld van Spark-confs:
{"spark.speculation": true, "spark.streaming.ui.retainedBatches": 5} of
{"spark.driver.extraJavaOptions": "-verbose:gc -XX:+PrintGCDetails"}
node_type_id STRING Dit veld codeert, via één waarde, de resources die beschikbaar zijn voor elk van de Spark-knooppunten in dit cluster. De Spark-knooppunten kunnen bijvoorbeeld worden ingericht en geoptimaliseerd voor geheugen- of rekenintensieve workloads Een lijst met beschikbare knooppunttypen kan worden opgehaald met behulp van de API-aanroep Knooppunttypen lijst. Dit veld is vereist.
driver_node_type_id STRING Het knooppunttype van het Spark-stuurprogramma. Dit veld is optioneel; Indien niet ingesteld, wordt het type stuurprogramma-knooppunt ingesteld als dezelfde waarde als node_type_id hierboven is gedefinieerd.
cluster_log_conf ClusterLogConf De configuratie voor het leveren van Spark-logboeken aan een langetermijnopslagbestemming. Er kan slechts één doel worden opgegeven voor één cluster. Als de conf wordt opgegeven, worden de logboeken elke keer aan de bestemming geleverd
5 mins. Het doel van stuurprogrammalogboeken is <destination>/<cluster-ID>/driver , terwijl het doel van de uitvoerlogboeken <destination>/<cluster-ID>/executor is.
init_scripts Een matrix van InitScriptInfo De configuratie voor het opslaan van init-scripts. Elk aantal bestemmingen kan worden opgegeven. De scripts worden opeenvolgend uitgevoerd in de opgegeven volgorde. Als cluster_log_conf is opgegeven, worden init-scriptlogboeken verzonden naar
<destination>/<cluster-ID>/init_scripts.
docker_image DockerImage Docker-afbeelding voor een aangepaste container.
spark_env_vars SparkEnvPair Een object met een set optionele, door de gebruiker opgegeven omgevingsvariabele sleutel-waardeparen. Sleutel-waardeparen van het formulier (X,Y) worden geëxporteerd zoals ze zijn (dat wil zeggen,
export X='Y') tijdens het starten van het stuurprogramma en de werk werkers.

Als u een extra set van wilt opgeven, raden we u aan SPARK_DAEMON_JAVA_OPTS deze toe te stellen aan , zoals wordt weergegeven in het volgende $SPARK_DAEMON_JAVA_OPTS voorbeeld. Dit zorgt ervoor dat alle standaard door Databricks beheerde omgevingsvariabelen ook worden opgenomen.

Voorbeeld van Spark-omgevingsvariabelen:
{"SPARK_WORKER_MEMORY": "28000m", "SPARK_LOCAL_DIRS": "/local_disk0"} of
{"SPARK_DAEMON_JAVA_OPTS": "$SPARK_DAEMON_JAVA_OPTS -Dspark.shuffle.service.enabled=true"}
autotermination_minutes INT32 Het cluster wordt automatisch beëindigd nadat het inactief is voor deze tijd in minuten. Als dit niet is ingesteld, wordt dit cluster niet automatisch beëindigd. Indien opgegeven, moet de drempelwaarde tussen 10 en 10.000 minuten liggen. U kunt deze waarde ook instellen op 0 om automatische beëindiging expliciet uit te schakelen.
instance_pool_id STRING De optionele id van de exemplaargroep waar het cluster bij hoort. Raadpleeg Pools voor meer informatie.
apply_policy_default_values BOOL Of u standaardwaarden voor beleid wilt gebruiken voor ontbrekende clusterkenmerken.
enable_local_disk_encryption BOOL Of versleuteling van schijven die lokaal aan het cluster zijn gekoppeld, is ingeschakeld.
azure_attributes AzureAttributes Kenmerken met betrekking tot clusters die worden uitgevoerd in Azure. Als dit niet wordt opgegeven bij het maken van het cluster, wordt een set standaardwaarden gebruikt.

Start

Eindpunt HTTP-methode
2.0/clusters/start POST

Start een beëindigd cluster op de id. Dit is vergelijkbaar met createCluster , behalve:

  • De beëindigde cluster-id en kenmerken blijven behouden.
  • Het cluster begint met de laatst opgegeven clustergrootte. Als het beëindigde cluster een cluster voor automatisch schalen is, begint het cluster met het minimum aantal knooppunten.
  • Als het cluster de status RESTARTING heeft, wordt 400 er een fout geretourneerd.
  • U kunt een gestart cluster niet starten om een taak uit te voeren.

Voorbeeld

curl --netrc -X POST \
https://adb-1234567890123456.7.azuredatabricks.net/api/2.0/clusters/start \
--data '{ "cluster_id": "1234-567890-reef123" }'
{}

Aanvraagstructuur

Veldnaam Type Description
cluster_id STRING Het cluster dat moet worden gestart. Dit veld is vereist.

Opnieuw starten

Eindpunt HTTP-methode
2.0/clusters/restart POST

Start een cluster opnieuw op op de id. Het cluster moet de status RUNNING hebben.

Voorbeeld

curl --netrc -X POST \
https://adb-1234567890123456.7.azuredatabricks.net/api/2.0/clusters/restart \
--data '{ "cluster_id": "1234-567890-reef123" }'
{}

Aanvraagstructuur

Veldnaam Type Description
cluster_id STRING Het cluster dat moet worden gestart. Dit veld is vereist.

Formaat

Eindpunt HTTP-methode
2.0/clusters/resize POST

Een cluster het gewenste aantal werkpersoneel geven. Het cluster moet de status RUNNING hebben.

Voorbeeld

curl --netrc -X POST \
https://adb-1234567890123456.7.azuredatabricks.net/api/2.0/clusters/resize \
--data '{ "cluster_id": "1234-567890-reef123", "num_workers": 30 }'
{}

Aanvraagstructuur

Veldnaam Type Description
num_workers OF automatisch schalen INT32 OF INT32 Als num_workers, het aantal werkknooppunten dat dit cluster moet hebben. Een cluster heeft één Spark-stuurprogramma en num_workers voor een totaal van num_workers + 1 Spark-knooppunten.

Opmerking: Bij het lezen van de eigenschappen van een cluster geeft dit veld het gewenste aantal werkpersoneel weer in plaats van het werkelijke aantal werksters. Als het formaat van een cluster bijvoorbeeld wordt aangepast van 5 naar 10 werknemers, wordt dit veld onmiddellijk bijgewerkt met de doelgrootte van 10 werknemers, terwijl de werksters die worden vermeld in geleidelijk toenemen van 5 naar 10 naarmate de nieuwe knooppunten worden executors ingericht.

Als u automatisch schaalt, hebt u parameters nodig om clusters automatisch omhoog en omlaag te schalen op basis van de belasting.
cluster_id STRING Het cluster dat moet worden gedimd. Dit veld is vereist.

Verwijderen (beëindigen)

Eindpunt HTTP-methode
2.0/clusters/delete POST

Beëindig een cluster op de id. Het cluster wordt asynchroon verwijderd. Zodra de beëindiging is voltooid, heeft het cluster de TERMINATED status . Als het cluster al een TERMINATING status TERMINATED of heeft, gebeurt er niets.

Tenzij een cluster is vastgemaakt, wordt het 30 dagen nadat het cluster is beëindigd definitief verwijderd.

Voorbeeld

curl --netrc -X POST \
https://adb-1234567890123456.7.azuredatabricks.net/api/2.0/clusters/delete \
--data '{ "cluster_id": "1234-567890-frays123" }'
{}

Aanvraagstructuur

Veldnaam Type Description
cluster_id STRING Het cluster dat moet worden beëindigd. Dit veld is vereist.

Permanent verwijderen

Eindpunt HTTP-methode
2.0/clusters/permanent-delete POST

Een cluster permanent verwijderen. Als het cluster wordt uitgevoerd, wordt het beëindigd en de resources worden asynchroon verwijderd. Als het cluster is beëindigd, wordt het wordt onmiddellijk verwijderd.

U kunt geen actie uitvoeren,inclusief het ophalen van de machtigingen van het cluster, op een permanent verwijderd cluster. Een permanent verwijderd cluster wordt ook niet meer geretourneerd in de lijst met clusters.

Voorbeeld

curl --netrc -X POST \
https://adb-1234567890123456.7.azuredatabricks.net/api/2.0/clusters/permanent-delete \
--data '{ "cluster_id": "1234-567890-frays123" }'
{}

Aanvraagstructuur

Veldnaam Type Description
cluster_id STRING Het cluster dat permanent moet worden verwijderd. Dit veld is vereist.

Toevoegen

Eindpunt HTTP-methode
2.0/clusters/get GET

Haal de informatie voor een cluster op op de id. Clusters kunnen worden beschreven terwijl ze actief zijn of tot 30 dagen nadat ze zijn beëindigd.

Voorbeeld

curl --netrc -X GET \
https://adb-1234567890123456.7.azuredatabricks.net/api/2.0/clusters/get \
--data '{ "cluster_id": "1234-567890-reef123" }' \
| jq .
{
  "cluster_id": "1234-567890-reef123",
  "driver": {
    "node_id": "dced0ce388954c38abef081f54c18afd",
    "instance_id": "c69c0b119a2a499d8a2843c4d256136a",
    "start_timestamp": 1619718438896,
    "host_private_ip": "10.0.0.1",
    "private_ip": "10.0.0.2"
  },
  "spark_context_id": 5631707659504820000,
  "jdbc_port": 10000,
  "cluster_name": "my-cluster",
  "spark_version": "8.2.x-scala2.12",
  "node_type_id": "Standard_L4s",
  "driver_node_type_id": "Standard_L4s",
  "custom_tags": {
    "ResourceClass": "SingleNode"
  },
  "autotermination_minutes": 0,
  "enable_elastic_disk": true,
  "disk_spec": {},
  "cluster_source": "UI",
  "enable_local_disk_encryption": false,
  "azure_attributes": {
    "first_on_demand": 1,
    "availability": "ON_DEMAND_AZURE",
    "spot_bid_max_price": -1
  },
  "instance_source": {
    "node_type_id": "Standard_L4s"
  },
  "driver_instance_source": {
    "node_type_id": "Standard_L4s"
  },
  "state": "RUNNING",
  "state_message": "",
  "start_time": 1610745129764,
  "last_state_loss_time": 1619718513513,
  "num_workers": 0,
  "cluster_memory_mb": 32768,
  "cluster_cores": 4,
  "default_tags": {
    "Vendor": "Databricks",
    "Creator": "someone@example.com",
    "ClusterName": "my-cluster",
    "ClusterId": "1234-567890-reef123"
  },
  "creator_user_name": "someone@example.com",
  "pinned_by_user_name": "3401478490056118",
  "init_scripts_safe_mode": false
}

Aanvraagstructuur

Veldnaam Type Description
cluster_id STRING Het cluster waarover informatie moet worden opgehaald. Dit veld is vereist.

Antwoordstructuur

Veldnaam Type Description
num_workers OF automatisch schalen INT32 OF INT32 Als num_workers, het aantal werkknooppunten dat dit cluster moet hebben. Een cluster heeft één Spark-stuurprogramma en num_workers-uitvoerders voor een totaal van num_workers + 1 Spark-knooppunten.

Opmerking: Bij het lezen van de eigenschappen van een cluster geeft dit veld het gewenste aantal werkpersoneel weer in plaats van het werkelijke aantal werksters. Als het formaat van een cluster bijvoorbeeld wordt aangepast van 5 tot 10 werksters, wordt dit veld onmiddellijk bijgewerkt met de doelgrootte van 10 werksters, terwijl de werksters die worden vermeld in geleidelijk toenemen van 5 naar 10 naarmate de nieuwe knooppunten worden executors ingericht.

Als de schaal automatisch wordt geschaald, zijn parameters nodig om clusters automatisch omhoog en omlaag te schalen op basis van de belasting.
cluster_id STRING Canonieke id voor het cluster. Deze id blijft behouden tijdens het opnieuw opstarten van het cluster en het vergroten of haar vergroten/haar, terwijl elk nieuw cluster een wereldwijd unieke id heeft.
creator_user_name STRING Gebruikersnaam van maker. Het veld wordt niet opgenomen in het antwoord als de gebruiker al is verwijderd.
Stuurprogramma SparkNode Knooppunt waarop het Spark-stuurprogramma zich bevindt. Het stuurprogramma-knooppunt bevat de Spark-master en de Databricks-toepassing die de Spark-REPL's per notebook beheert.
Executeurs Een matrix van SparkNode Knooppunten waarop de Spark-uitvoerders zich bevinden.
spark_context_id INT64 Een canonieke SparkContext-id. Deze waarde verandert wel wanneer het Spark-stuurprogramma opnieuw wordt gestart. Het paar (cluster_id, spark_context_id) is een wereldwijd unieke id voor alle Spark-contexten.
jdbc_port INT32 Poort waarop de Spark JDBC-server luistert in het stuurprogramma-knooppunt. Er luistert geen service op deze poort in uitvoerknooppunten.
cluster_name STRING Clusternaam aangevraagd door de gebruiker. Dit hoeft niet uniek te zijn. Als dit niet wordt opgegeven bij het maken, is de clusternaam een lege tekenreeks.
spark_version STRING De runtimeversie van het cluster. U kunt een lijst met beschikbare runtimeversies ophalen met behulp van de API-aanroep runtimeversies.
spark_conf SparkConfPair Een object met een set optionele, door de gebruiker opgegeven Spark-configuratiesleutel-waardeparen. U kunt ook een reeks extra JVM-opties doorgeven aan het stuurprogramma en de uitvoerders via
spark.driver.extraJavaOptions respectievelijk spark.executor.extraJavaOptions en .

Voorbeeld van Spark-confs:
{"spark.speculation": true, "spark.streaming.ui.retainedBatches": 5} of
{"spark.driver.extraJavaOptions": "-verbose:gc -XX:+PrintGCDetails"}
node_type_id STRING Dit veld codeert, via één waarde, de resources die beschikbaar zijn voor elk van de Spark-knooppunten in dit cluster. De Spark-knooppunten kunnen bijvoorbeeld worden ingericht en geoptimaliseerd voor geheugen- of rekenintensieve workloads Een lijst met beschikbare knooppunttypen kan worden opgehaald met behulp van de API-aanroep Knooppunttypen lijst. Dit veld is vereist.
driver_node_type_id STRING Het knooppunttype van het Spark-stuurprogramma. Dit veld is optioneel; Indien niet ingesteld, wordt het type stuurprogramma-knooppunt ingesteld als dezelfde waarde als node_type_id hierboven is gedefinieerd.
custom_tags ClusterTag Een -object met een set tags voor clusterbronnen. Databricks tagt alle clusterbronnen met deze tags naast default_tags.

Opmerking:

* Tags worden niet ondersteund voor oudere knooppunttypen, zoals geoptimaliseerd voor rekenkracht en geoptimaliseerd voor geheugen
* Databricks staat ten meeste 45 aangepaste tags toe
cluster_log_conf ClusterLogConf De configuratie voor het leveren van Spark-logboeken aan een langetermijnopslagbestemming. Er kan slechts één doel worden opgegeven voor één cluster. Als de conf wordt opgegeven, worden de logboeken elke keer aan de bestemming geleverd
5 mins. Het doel van stuurprogrammalogboeken is <destination>/<cluster-ID>/driver , terwijl het doel van de uitvoerlogboeken <destination>/<cluster-ID>/executor is.
init_scripts Een matrix van InitScriptInfo De configuratie voor het opslaan van init-scripts. Elk aantal bestemmingen kan worden opgegeven. De scripts worden opeenvolgend uitgevoerd in de opgegeven volgorde. Als cluster_log_conf is opgegeven, worden init-scriptlogboeken verzonden naar
<destination>/<cluster-ID>/init_scripts.
docker_image DockerImage Docker-afbeelding voor een aangepaste container.
spark_env_vars SparkEnvPair Een object met een set optionele, door de gebruiker opgegeven omgevingsvariabele sleutel-waardeparen. Sleutel-waardeparen van het formulier (X,Y) worden geëxporteerd zoals ze zijn (dat wil zeggen,
export X='Y') tijdens het starten van het stuurprogramma en de werksters.

Als u een extra set van wilt opgeven, raden we u aan SPARK_DAEMON_JAVA_OPTS deze toe te stellen aan , zoals wordt weergegeven in het volgende $SPARK_DAEMON_JAVA_OPTS voorbeeld. Dit zorgt ervoor dat alle standaard door Databricks beheerde omgevingsvariabelen ook worden opgenomen.

Voorbeeld van Spark-omgevingsvariabelen:
{"SPARK_WORKER_MEMORY": "28000m", "SPARK_LOCAL_DIRS": "/local_disk0"} of
{"SPARK_DAEMON_JAVA_OPTS": "$SPARK_DAEMON_JAVA_OPTS -Dspark.shuffle.service.enabled=true"}
autotermination_minutes INT32 Het cluster wordt automatisch beëindigd nadat het inactief is voor deze tijd in minuten. Als dit niet is ingesteld, wordt dit cluster niet automatisch beëindigd. Indien opgegeven, moet de drempelwaarde tussen 10 en 10.000 minuten liggen. U kunt deze waarde ook instellen op 0 om automatische beëindiging expliciet uit te schakelen.
enable_elastic_disk BOOL Lokaal schalen Storage: wanneer dit cluster is ingeschakeld, krijgt dit cluster dynamisch extra schijfruimte wanneer de Spark-werk werkers te weinig schijfruimte hebben. Zie Lokale opslag automatisch schalen voor meer informatie.
instance_pool_id STRING De optionele id van de exemplaargroep waar het cluster bij hoort. Raadpleeg Pools voor meer informatie.
staat ClusterState Status van het cluster.
state_message STRING Een bericht dat is gekoppeld aan de meest recente statusovergang (bijvoorbeeld de reden waarom het cluster de status heeft TERMINATED ingevoerd).
start_tijd INT64 Tijd (in epoche milliseconden) waarop de aanvraag voor het maken van het cluster is ontvangen (toen het cluster de status heeft PENDING ingevoerd).
terminated_time INT64 De tijd (in epoche milliseconden) waarop het cluster is beëindigd, indien van toepassing.
last_state_loss_time INT64 Het tijdstip waarop het clusterst stuurprogramma voor het laatst de status heeft verloren (vanwege een herstart of een fout in het stuurprogramma).
last_activity_time INT64 De tijd (in epoche milliseconden) waarop het cluster voor het laatst actief was. Een cluster is actief als er ten minste één opdracht op het cluster is voltooid. Dit veld is beschikbaar nadat het cluster de status heeft RUNNING bereikt. Updates voor dit veld worden gedaan als best-effort pogingen. Bepaalde versies van Spark bieden geen ondersteuning voor rapportage van clusteractiviteit. Raadpleeg Automatische beëindiging voor meer informatie.
cluster_memory_mb INT64 Totale hoeveelheid clustergeheugen, in megabytes.
cluster_cores FLOAT Het aantal CPU-kernen dat beschikbaar is voor dit cluster. Dit kan fractioneel zijn omdat bepaalde knooppunttypen zijn geconfigureerd om kernen te delen tussen Spark-knooppunten op hetzelfde exemplaar.
default_tags ClusterTag Een object met een set tags die door de Azure Databricks ongeacht een custom_tags, waaronder:

* Leverancier: Databricks
* Creator:
* Clusternaam:
* ClusterId:
* Naam: Op taakclusters:

* RunName:
* JobId: Op resources die worden gebruikt door Databricks SQL:

* SqlEndpointId:
cluster_log_status LogSyncStatus Leveringsstatus van clusterlogboek.
termination_reason BeëindigingReason Informatie over waarom het cluster is beëindigd. Dit veld wordt alleen weergegeven wanneer het cluster de status TERMINATING of TERMINATED heeft.

Pin

Notitie

U moet een Azure Databricks zijn om deze API aan te roepen.

Eindpunt HTTP-methode
2.0/clusters/pin POST

Zorg ervoor dat een clusterconfiguratie voor alle doeleinden behouden blijft, zelfs nadat een cluster meer dan 30 dagen is beëindigd. Vastmaken zorgt ervoor dat het cluster altijd wordt geretourneerd door de Lijst-API. Het vastmaken van een cluster dat al is vastgemaakt, heeft geen effect.

Voorbeeld

curl --netrc -X POST \
https://adb-1234567890123456.7.azuredatabricks.net/api/2.0/clusters/pin \
--data '{ "cluster_id": "1234-567890-reef123" }'
{}

Aanvraagstructuur

Veldnaam Type Description
cluster_id STRING Het cluster dat moet worden vastgemaakt. Dit veld is vereist.

Losmaken

Notitie

U moet een Azure Databricks zijn om deze API aan te roepen.

Eindpunt HTTP-methode
2.0/clusters/unpin POST

Hiermee kan het cluster uiteindelijk worden verwijderd uit de lijst die wordt geretourneerd door de Lijst API. Het losmaken van een cluster dat niet is vastgemaakt, heeft geen effect.

Voorbeeld

curl --netrc -X POST \
https://adb-1234567890123456.7.azuredatabricks.net/api/2.0/clusters/unpin \
--data '{ "cluster_id": "1234-567890-reef123" }'
{}

Aanvraagstructuur

Veldnaam Type Description
cluster_id STRING Het cluster dat moet worden losgepind. Dit veld is vereist.

Lijst

Eindpunt HTTP-methode
2.0/clusters/list GET

Informatie retourneren over alle vastgemaakte clusters, actieve clusters, maximaal 150 van de meest voorkomende onlangs beëindigde clusters voor alle doeleinden in de afgelopen 30 dagen en maximaal 30 van de meest recente beëindigde taakclusters in de afgelopen 30 dagen. Als er bijvoorbeeld 1 vastgemaakt cluster is, 4 actief clusters, 45 beëindigde clusters voor alle doeleinden in de afgelopen 30 dagen en 50 beëindigde taakclusters In de afgelopen 30 dagen retourneert deze API het 1 vastgemaakte cluster, 4 actieve clusters, alle 45 beëindigde clusters voor alle doeleinden en de 30 meest recent beëindigde taakclusters.

Voorbeeld

curl --netrc -X GET \
https://adb-1234567890123456.7.azuredatabricks.net/api/2.0/clusters/list \
| jq .
{
  "clusters": [
    {
      "cluster_id": "1234-567890-reef123",
      "driver": {
        "node_id": "dced0ce388954c38abef081f54c18afd",
        "instance_id": "c69c0b119a2a499d8a2843c4d256136a",
        "start_timestamp": 1619718438896,
        "host_private_ip": "10.0.0.1",
        "private_ip": "10.0.0.2"
      },
      "spark_context_id": 5631707659504820000,
      "jdbc_port": 10000,
      "cluster_name": "my-cluster",
      "spark_version": "8.2.x-scala2.12",
      "node_type_id": "Standard_L4s",
      "driver_node_type_id": "Standard_L4s",
      "custom_tags": {
        "ResourceClass": "SingleNode"
      },
      "autotermination_minutes": 0,
      "enable_elastic_disk": true,
      "disk_spec": {},
      "cluster_source": "UI",
      "enable_local_disk_encryption": false,
      "azure_attributes": {
        "first_on_demand": 1,
        "availability": "ON_DEMAND_AZURE",
        "spot_bid_max_price": -1
      },
      "instance_source": {
        "node_type_id": "Standard_L4s"
      },
      "driver_instance_source": {
        "node_type_id": "Standard_L4s"
      },
      "state": "RUNNING",
      "state_message": "",
      "start_time": 1610745129764,
      "last_state_loss_time": 1619718513513,
      "num_workers": 0,
      "cluster_memory_mb": 32768,
      "cluster_cores": 4,
      "default_tags": {
        "Vendor": "Databricks",
        "Creator": "someone@example.com",
        "ClusterName": "my-cluster",
        "ClusterId": "1234-567890-reef123"
      },
      "creator_user_name": "someone@example.com",
      "pinned_by_user_name": "3401478490056118",
      "init_scripts_safe_mode": false
    },
    ...
  ]
}

Antwoordstructuur

Veldnaam Type Description
Clusters Een matrix van ClusterInfo Een lijst met clusters.

Lijst met knooppunttypen

Eindpunt HTTP-methode
2.0/clusters/list-node-types GET

Een lijst met ondersteunde Spark-knooppunttypen retourneren. Deze knooppunttypen kunnen worden gebruikt om een cluster te starten.

Voorbeeld

curl --netrc -X GET \
https://adb-1234567890123456.7.azuredatabricks.net/api/2.0/clusters/list-node-types \
| jq .
{
  "node_types": [
    {
      "node_type_id": "Standard_L80s_v2",
      "memory_mb": 655360,
      "num_cores": 80,
      "description": "Standard_L80s_v2",
      "instance_type_id": "Standard_L80s_v2",
      "is_deprecated": false,
      "category": "Storage Optimized",
      "support_ebs_volumes": true,
      "support_cluster_tags": true,
      "num_gpus": 0,
      "node_instance_type": {
        "instance_type_id": "Standard_L80s_v2",
        "local_disks": 1,
        "local_disk_size_gb": 800,
        "instance_family": "Standard LSv2 Family vCPUs",
        "local_nvme_disk_size_gb": 1788,
        "local_nvme_disks": 10,
        "swap_size": "10g"
      },
      "is_hidden": false,
      "support_port_forwarding": true,
      "display_order": 0,
      "is_io_cache_enabled": true,
      "node_info": {
        "available_core_quota": 350,
        "total_core_quota": 350
      }
    },
    ...
  ]
}

Antwoordstructuur

Veldnaam Type Description
node_types Een matrix van NodeType De lijst met beschikbare Spark-knooppunttypen.

Runtimeversies

Eindpunt HTTP-methode
2.0/clusters/spark-versions GET

Retourneert de lijst met beschikbare runtimeversies. Deze versies kunnen worden gebruikt om een cluster te starten.

Voorbeeld

curl --netrc -X GET \
https://adb-1234567890123456.7.azuredatabricks.net/api/2.0/clusters/spark-versions \
| jq .
{
  "versions": [
    {
      "key": "8.2.x-scala2.12",
      "name": "8.2 (includes Apache Spark 3.1.1, Scala 2.12)"
    },
    ...
  ]
}

Antwoordstructuur

Veldnaam Type Description
versies Een matrix van SparkVersion Alle beschikbare runtimeversies.

Gebeurtenissen

Eindpunt HTTP-methode
2.0/clusters/events POST

Een lijst met gebeurtenissen over de activiteit van een cluster ophalen. U kunt gebeurtenissen ophalen uit actieve clusters (actief, in behandeling of opnieuw configureren) en beëindigde clusters binnen 30 dagen na de laatste beëindiging. Deze API is ge pagineerd. Als er meer gebeurtenissen moeten worden gelezen, bevat het antwoord alle parameters die nodig zijn om de volgende pagina met gebeurtenissen aan te vragen.

Voorbeeld:

curl --netrc -X POST \
https://adb-1234567890123456.7.azuredatabricks.net/api/2.0/clusters/events \
--data @list-events.json \
| jq .

list-events.json:

{
  "cluster_id": "1234-567890-reef123",
  "start_time": 1617238800000,
  "end_time": 1619485200000,
  "order": "DESC",
  "offset": 5,
  "limit": 5,
  "event_type": "RUNNING"
}
{
  "events": [
    {
      "cluster_id": "1234-567890-reef123",
      "timestamp": 1619471498409,
      "type": "RUNNING",
      "details": {
        "current_num_workers": 2,
        "target_num_workers": 2
      }
    },
    ...
  ],
  "next_page": {
    "cluster_id": "1234-567890-reef123",
    "start_time": 1617238800000,
    "end_time": 1619485200000,
    "order": "DESC",
    "offset": 10,
    "limit": 5
  },
  "total_count": 25
}

Voorbeeldaanvraag voor het ophalen van de volgende pagina met gebeurtenissen:

curl --netrc -X POST \
https://adb-1234567890123456.7.azuredatabricks.net/api/2.0/clusters/events \
--data @list-events.json \
| jq .

list-events.json:

{
  "cluster_id": "1234-567890-reef123",
  "start_time": 1617238800000,
  "end_time": 1619485200000,
  "order": "DESC",
  "offset": 10,
  "limit": 5,
  "event_type": "RUNNING"
}
{
  "events": [
    {
      "cluster_id": "1234-567890-reef123",
      "timestamp": 1618330776302,
      "type": "RUNNING",
      "details": {
        "current_num_workers": 2,
        "target_num_workers": 2
      }
    },
    ...
  ],
  "next_page": {
    "cluster_id": "1234-567890-reef123",
    "start_time": 1617238800000,
    "end_time": 1619485200000,
    "order": "DESC",
    "offset": 15,
    "limit": 5
  },
  "total_count": 25
}

Aanvraagstructuur

Gebeurtenissen ophalen die betrekking hebben op een specifiek cluster.

Veldnaam Type Description
cluster_id STRING De id van het cluster om gebeurtenissen over op te halen. Dit veld is vereist.
start_tijd INT64 De begintijd in epoche milliseconden. Als deze leeg is, retourneert gebeurtenissen vanaf het begin van de tijd.
end_time INT64 De eindtijd in epoche milliseconden. Indien leeg, retourneert gebeurtenissen tot de huidige tijd.
order ListOrder De volgorde waarin gebeurtenissen worden weergegeven; of ASCDESC . De standaardwaarde is DESC .
event_types Een matrix van ClusterEventType Een optionele set gebeurtenistypen om op te filteren. Als deze leeg is, worden alle gebeurtenistypen geretourneerd.
offset INT64 De offset in de resultatenset. De standaardwaarde is 0 (geen offset). Wanneer een offset wordt opgegeven en de resultaten in aflopende volgorde worden aangevraagd, is end_time veld vereist.
limiet INT64 Het maximum aantal gebeurtenissen dat moet worden op te nemen in een pagina met gebeurtenissen. De standaardwaarde is 50 en de maximaal toegestane waarde is 500.

Antwoordstructuur

Veldnaam Type Description
events Een matrix van ClusterEvent Deze lijst met overeenkomende gebeurtenissen.
next_page Aanvraagstructuur De parameters die nodig zijn om de volgende pagina met gebeurtenissen op te halen. Weggelaten als er geen gebeurtenissen meer zijn om te lezen.
total_count INT64 Het totale aantal gebeurtenissen dat wordt gefilterd op start_time, end_time en event_types.

Gegevensstructuren

In deze sectie:

Automatisch schalen

Bereik dat het minimum- en maximumaantal clusterwerkwerkers definieren.

Veldnaam Type Description
min_workers INT32 Het minimale aantal werksters waarvoor het cluster omlaag kan worden geschaald wanneer het te weinig wordt gebruik. Het is ook het eerste aantal werksters dat het cluster heeft nadat het is gemaakt.
max_workers INT32 Het maximum aantal werksters waarvoor het cluster omhoog kan worden geschaald wanneer het overbelast is. max_workers moeten strikt groter zijn dan min_workers.

ClusterInfo

Metagegevens over een cluster.

Veldnaam Type Description
num_workers OF automatisch schalen INT32 OF INT32 Als num_workers, het aantal werkknooppunten dat dit cluster moet hebben. Een cluster heeft één Spark-stuurprogramma en num_workers voor een totaal van num_workers + 1 Spark-knooppunten.

Opmerking: Bij het lezen van de eigenschappen van een cluster geeft dit veld het gewenste aantal werkpersoneel weer in plaats van het werkelijke aantal werksters. Als het formaat van een cluster bijvoorbeeld wordt aangepast van 5 naar 10 werknemers, wordt dit veld onmiddellijk bijgewerkt met de doelgrootte van 10 werknemers, terwijl de werksters die worden vermeld in geleidelijk toenemen van 5 naar 10 naarmate de nieuwe knooppunten worden executors ingericht.

Als u automatisch schaalt, hebt u parameters nodig om clusters automatisch omhoog en omlaag te schalen op basis van de belasting.
cluster_id STRING Canonieke id voor het cluster. Deze id blijft behouden tijdens het opnieuw opstarten van het cluster en het vergroten/vergroten/weer vergroten//weer worden geschaald, terwijl elk nieuw cluster een wereldwijd unieke id heeft.
creator_user_name STRING Gebruikersnaam van maker. Het veld wordt niet opgenomen in het antwoord als de gebruiker al is verwijderd.
Stuurprogramma SparkNode Knooppunt waarop het Spark-stuurprogramma zich bevindt. Het stuurprogramma-knooppunt bevat de Spark-master en de Databricks-toepassing die de Spark-REPL's per notebook beheert.
Executeurs Een matrix van SparkNode Knooppunten waarop de Spark-uitvoerders zich bevinden.
spark_context_id INT64 Een canonieke SparkContext-id. Deze waarde verandert wel wanneer het Spark-stuurprogramma opnieuw wordt gestart. Het paar (cluster_id, spark_context_id) is een wereldwijd unieke id voor alle Spark-contexten.
jdbc_port INT32 Poort waarop de Spark JDBC-server luistert in het stuurprogramma-knooppunt. Er luistert geen service op deze poort in uitvoerknooppunten.
cluster_name STRING Clusternaam aangevraagd door de gebruiker. Dit hoeft niet uniek te zijn. Als dit niet wordt opgegeven bij het maken, is de clusternaam een lege tekenreeks.
spark_version STRING De runtimeversie van het cluster. U kunt een lijst met beschikbare runtimeversies ophalen met behulp van de API-aanroep runtimeversies.
spark_conf SparkConfPair Een -object met een set optionele, door de gebruiker opgegeven Spark-configuratiesleutel-waardeparen. U kunt ook een reeks extra JVM-opties doorgeven aan het stuurprogramma en de uitvoerders via
spark.driver.extraJavaOptions respectievelijk spark.executor.extraJavaOptions .

Voorbeeld van Spark-confs:
{"spark.speculation": true, "spark.streaming.ui.retainedBatches": 5} of
{"spark.driver.extraJavaOptions": "-verbose:gc -XX:+PrintGCDetails"}
node_type_id STRING Dit veld codeert, via één waarde, de resources die beschikbaar zijn voor elk van de Spark-knooppunten in dit cluster. De Spark-knooppunten kunnen bijvoorbeeld worden ingericht en geoptimaliseerd voor geheugen- of rekenintensieve workloads. Een lijst met beschikbare knooppunttypen kan worden opgehaald met behulp van de API-aanroep Knooppunttypen lijst.
driver_node_type_id STRING Het knooppunttype van het Spark-stuurprogramma. Dit veld is optioneel; Als dit niet is ingesteld, wordt het type stuurprogramma-knooppunt ingesteld als dezelfde waarde als node_type_id hierboven is gedefinieerd.
cluster_log_conf ClusterLogConf De configuratie voor het leveren van Spark-logboeken aan een langetermijnopslagbestemming. Er kan slechts één doel worden opgegeven voor één cluster. Als de conf is opgegeven, worden de logboeken elke keer aan het doel geleverd
5 mins. Het doel van stuurprogrammalogboeken is <destination>/<cluster-ID>/driver , terwijl het doel van de uitvoerlogboeken <destination>/<cluster-ID>/executor is.
init_scripts Een matrix van InitScriptInfo De configuratie voor het opslaan van init-scripts. Elk aantal bestemmingen kan worden opgegeven. De scripts worden opeenvolgend uitgevoerd in de opgegeven volgorde. Als cluster_log_conf is opgegeven, worden init-scriptlogboeken verzonden naar
<destination>/<cluster-ID>/init_scripts.
docker_image DockerImage Docker-afbeelding voor een aangepaste container.
spark_env_vars SparkEnvPair Een object met een set optionele, door de gebruiker opgegeven sleutel-waardeparen voor omgevingsvariabelen. Sleutel-waardeparen van het formulier (X,Y) worden als het goed is geëxporteerd (dat wil zeggen:
export X='Y') tijdens het starten van het stuurprogramma en de werk werkers.

Als u een extra set van wilt SPARK_DAEMON_JAVA_OPTS opgeven, raden we u aan deze toe te $SPARK_DAEMON_JAVA_OPTS stellen aan , zoals wordt weergegeven in het volgende voorbeeld. Dit zorgt ervoor dat alle standaard door Databricks beheerde omgevingsvariabelen ook worden opgenomen.

Voorbeeld van Spark-omgevingsvariabelen:
{"SPARK_WORKER_MEMORY": "28000m", "SPARK_LOCAL_DIRS": "/local_disk0"} of
{"SPARK_DAEMON_JAVA_OPTS": "$SPARK_DAEMON_JAVA_OPTS -Dspark.shuffle.service.enabled=true"}
autotermination_minutes INT32 Het cluster wordt automatisch beëindigd nadat het inactief is voor deze tijd in minuten. Als dit niet is ingesteld, wordt dit cluster niet automatisch beëindigd. Indien opgegeven, moet de drempelwaarde tussen 10 en 10.000 minuten liggen. U kunt deze waarde ook instellen op 0 om automatische beëindiging expliciet uit te schakelen.
enable_elastic_disk BOOL Lokaal schalen Storage: wanneer dit cluster is ingeschakeld, krijgt dit cluster dynamisch extra schijfruimte wanneer de Spark-werk werkers te weinig schijfruimte hebben. Zie Lokale opslag automatisch schalen voor meer informatie.
instance_pool_id STRING De optionele id van de exemplaargroep waar het cluster bij hoort. Raadpleeg Pools voor meer informatie.
staat ClusterState Status van het cluster.
state_message STRING Een bericht dat is gekoppeld aan de meest recente statusovergang (bijvoorbeeld de reden waarom het cluster een status heeft TERMINATED gekregen).
start_tijd INT64 Tijd (in epoche milliseconden) waarop de aanvraag voor het maken van het cluster is ontvangen (toen het cluster een status heeft PENDING gekregen).
terminated_time INT64 De tijd (in epoche milliseconden) waarop het cluster is beëindigd, indien van toepassing.
last_state_loss_time INT64 Het tijdstip waarop het clusterst stuurprogramma voor het laatst de status heeft verloren (vanwege een herstart of een fout in het stuurprogramma).
last_activity_time INT64 De tijd (in epoche milliseconden) waarop het cluster voor het laatst actief was. Een cluster is actief als er ten minste één opdracht is die niet is voltooid op het cluster. Dit veld is beschikbaar nadat het cluster een status RUNNING heeft bereikt. Updates voor dit veld worden gedaan als best-effort pogingen. Bepaalde versies van Spark bieden geen ondersteuning voor rapportage van clusteractiviteit. Raadpleeg Automatische beëindiging voor meer informatie.
cluster_memory_mb INT64 Totale hoeveelheid clustergeheugen, in megabytes.
cluster_cores FLOAT Het aantal CPU-kernen dat beschikbaar is voor dit cluster. Dit kan fractioneel zijn omdat bepaalde knooppunttypen zijn geconfigureerd om kernen te delen tussen Spark-knooppunten op hetzelfde exemplaar.
default_tags ClusterTag Een object dat een set tags bevat die door Azure Databricks worden toegevoegd, ongeacht custom_tags, waaronder:

* Leverancier: Databricks
* Creator:
* ClusterName:
* ClusterId:
* Naam: Op taakclusters:

* RunName:
* JobId: Op resources die worden gebruikt door Databricks SQL:

* SqlEndpointId:
cluster_log_status LogSyncStatus Leveringsstatus van clusterlogboek.
termination_reason TerminationReason Informatie over waarom het cluster is beëindigd. Dit veld wordt alleen weergegeven wanneer het cluster de status TERMINATING of TERMINATED heeft.

ClusterEvent

Informatie over clustergebeurtenissen.

Veldnaam Type Description
cluster_id STRING Canonieke id voor het cluster. Dit veld is vereist.
tijdstempel INT64 Het tijdstempel wanneer de gebeurtenis heeft plaatsgevonden, opgeslagen als het aantal milliseconden sinds het unix-epoche. Toegewezen door de tijdlijnservice.
type ClusterEventType Het gebeurtenistype. Dit veld is vereist.
Details EventDetails De gebeurtenisdetails. Dit veld is vereist.

ClusterEventType

Type clustergebeurtenis.

Gebeurtenistype Description
MAKEN Geeft aan dat het cluster wordt gemaakt.
DID_NOT_EXPAND_DISK Geeft aan dat een schijf weinig ruimte heeft, maar door schijven toe te voegen, wordt deze over de maximale capaciteit heen gezet.
EXPANDED_DISK Geeft aan dat een schijf weinig ruimte had en dat de schijven zijn uitgebreid.
FAILED_TO_EXPAND_DISK Geeft aan dat een schijf weinig ruimte had en dat de schijfruimte niet kon worden uitgebreid.
INIT_SCRIPTS_STARTING Geeft aan dat het init-script met clusterbereik is gestart.
INIT_SCRIPTS_FINISHED Geeft aan dat het init-script met clusterbereik is voltooid.
BEGINNEN Geeft aan dat het cluster wordt gestart.
OPNIEUW STARTEN Geeft aan dat het cluster wordt gestart.
BEËINDIGING Geeft aan dat het cluster wordt beëindigd.
BEWERKT Geeft aan dat het cluster is bewerkt.
MET Geeft aan dat het cluster is gemaakt. Bevat het aantal knooppunten in het cluster en een foutreden als sommige knooppunten niet kunnen worden verkregen.
RESIZING Geeft een wijziging aan in de doelgrootte van het cluster (upsize of downsize).
UPSIZE_COMPLETED Geeft aan dat knooppunten zijn toegevoegd aan het cluster. Bevat het aantal knooppunten in het cluster en een foutreden als sommige knooppunten niet kunnen worden verkregen.
NODES_LOST Geeft aan dat sommige knooppunten verloren zijn gegaan in het cluster.
DRIVER_HEALTHY Geeft aan dat het stuurprogramma in orde is en dat het cluster klaar is voor gebruik.
DRIVER_UNAVAILABLE Geeft aan dat het stuurprogramma niet beschikbaar is.
SPARK_EXCEPTION Geeft aan dat er een Spark-uitzondering is gemaakt vanuit het stuurprogramma.
DRIVER_NOT_RESPONDING Geeft aan dat het stuurprogramma is gemaakt, maar niet reageert, waarschijnlijk als gevolg van GC.
DBFS_DOWN Geeft aan dat het stuurprogramma is uit, maar DBFS is niet.
METASTORE_DOWN Geeft aan dat het stuurprogramma is uit, maar de metastore is niet beschikbaar.
NODE_BLACKLISTED Geeft aan dat een knooppunt niet is toegestaan door Spark.
VASTGEMAAKT Geeft aan dat het cluster is vastgemaakt.
LOSGEMAAKT Geeft aan dat het cluster is losgemaakt.

EventDetails

Details over een clustergebeurtenis.

Veldnaam Type Description
current_num_workers INT32 Het aantal knooppunten in het cluster.
target_num_workers INT32 Het beoogde aantal knooppunten in het cluster.
previous_attributes ClusterAttributes De clusterkenmerken voordat een cluster is bewerkt.
kenmerken ClusterAttributes * Voor gemaakte clusters, de kenmerken van het cluster.
* Voor bewerkte clusters, de nieuwe kenmerken van het cluster.
previous_cluster_size ClusterSize De grootte van het cluster vóór een bewerking of grootte wordt aangepast.
cluster_size ClusterSize De clustergrootte die is ingesteld tijdens het maken of bewerken van het cluster.
Oorzaak ResizeCause De oorzaak van een wijziging in de doelgrootte.
reason BeëindigingReason Een beëindigingsreden:

* Bij een TERMINATED gebeurtenis de reden voor de beëindiging.
* Geeft bij RESIZE_COMPLETE een gebeurtenis de reden aan dat sommige knooppunten niet zijn verkregen.
gebruiker STRING De gebruiker die de gebeurtenis heeft veroorzaakt. (Leeg als dit is gedaan door Azure Databricks.)

ClusterAttributes

Algemene set kenmerken die is ingesteld tijdens het maken van het cluster. Deze kenmerken kunnen niet gedurende de levensduur van een cluster worden gewijzigd.

Veldnaam Type Description
cluster_name STRING Clusternaam aangevraagd door de gebruiker. Dit hoeft niet uniek te zijn. Als dit niet wordt opgegeven bij het maken, is de clusternaam een lege tekenreeks.
spark_version STRING De runtimeversie van het cluster, bijvoorbeeld '5.0.x-scala2.11'. U kunt een lijst met beschikbare runtimeversies ophalen met behulp van de API-aanroep runtimeversies.
spark_conf SparkConfPair Een object met een set optionele, door de gebruiker opgegeven Spark-configuratiesleutel-waardeparen. U kunt ook een reeks extra JVM-opties doorgeven aan het stuurprogramma en de uitvoerders via
spark.driver.extraJavaOptions respectievelijk spark.executor.extraJavaOptions en .

Voorbeeld van Spark-confs:
{"spark.speculation": true, "spark.streaming.ui.retainedBatches": 5} of
{"spark.driver.extraJavaOptions": "-verbose:gc -XX:+PrintGCDetails"}
node_type_id STRING Dit veld codeert, via één waarde, de resources die beschikbaar zijn voor elk van de Spark-knooppunten in dit cluster. De Spark-knooppunten kunnen bijvoorbeeld worden ingericht en geoptimaliseerd voor geheugen- of rekenintensieve workloads Een lijst met beschikbare knooppunttypen kan worden opgehaald met behulp van de API-aanroep Knooppunttypen lijst.
driver_node_type_id STRING Het knooppunttype van het Spark-stuurprogramma. Dit veld is optioneel; Indien niet ingesteld, wordt het type stuurprogramma-knooppunt ingesteld als dezelfde waarde als node_type_id hierboven is gedefinieerd.
ssh_public_keys Een matrix van STRING Inhoud van de openbare SSH-sleutel die wordt toegevoegd aan elk Spark-knooppunt in dit cluster. De bijbehorende persoonlijke sleutels kunnen worden gebruikt om u aan te melden met de gebruikersnaam ubuntu op poort 2200 . Er kunnen maximaal 10 sleutels worden opgegeven.
custom_tags ClusterTag Een -object met een set tags voor clusterbronnen. Databricks tagt alle clusterbronnen met deze tags naast default_tags.

Opmerking:

* Tags worden niet ondersteund voor oudere knooppunttypen, zoals geoptimaliseerd voor rekenkracht en geoptimaliseerd voor geheugen
* Databricks staat ten meeste 45 aangepaste tags toe
cluster_log_conf ClusterLogConf De configuratie voor het leveren van Spark-logboeken aan een langetermijnopslagbestemming. Er kan slechts één doel worden opgegeven voor één cluster. Als de conf wordt opgegeven, worden de logboeken elke keer aan de bestemming geleverd
5 mins. Het doel van stuurprogrammalogboeken is <destination>/<cluster-ID>/driver , terwijl het doel van de uitvoerlogboeken <destination>/<cluster-ID>/executor is.
init_scripts Een matrix van InitScriptInfo De configuratie voor het opslaan van init-scripts. Er kan een aantal bestemmingen worden opgegeven. De scripts worden opeenvolgend uitgevoerd in de opgegeven volgorde. Als cluster_log_conf is opgegeven, worden init-scriptlogboeken verzonden naar
<destination>/<cluster-ID>/init_scripts.
docker_image DockerImage Docker-afbeelding voor een aangepaste container.
spark_env_vars SparkEnvPair Een object met een set optionele, door de gebruiker opgegeven sleutel-waardeparen voor omgevingsvariabelen. Sleutel-waardeparen van het formulier (X,Y) worden als het goed is geëxporteerd (dat wil zeggen,
export X='Y') tijdens het starten van het stuurprogramma en de werksters.

Als u een extra set van wilt opgeven, raden we u aan SPARK_DAEMON_JAVA_OPTS deze toe te stellen aan , zoals wordt weergegeven in het volgende $SPARK_DAEMON_JAVA_OPTS voorbeeld. Dit zorgt ervoor dat alle standaard door Databricks beheerde omgevingsvariabelen ook worden opgenomen.

Voorbeeld van Spark-omgevingsvariabelen:
{"SPARK_WORKER_MEMORY": "28000m", "SPARK_LOCAL_DIRS": "/local_disk0"} of
{"SPARK_DAEMON_JAVA_OPTS": "$SPARK_DAEMON_JAVA_OPTS -Dspark.shuffle.service.enabled=true"}
autotermination_minutes INT32 Het cluster wordt automatisch beëindigd nadat het inactief is voor deze tijd in minuten. Als dit niet is ingesteld, wordt dit cluster niet automatisch beëindigd. Indien opgegeven, moet de drempelwaarde tussen 10 en 10.000 minuten liggen. U kunt deze waarde ook instellen op 0 om automatische beëindiging expliciet uit te schakelen.
enable_elastic_disk BOOL Automatisch schalen van lokale Storage: wanneer dit cluster is ingeschakeld, krijgt dit cluster dynamisch extra schijfruimte wanneer de Spark-werksters te weinig schijfruimte hebben. Zie Lokale opslag automatisch schalen voor meer informatie.
instance_pool_id STRING De optionele id van de exemplaargroep waar het cluster bij hoort. Raadpleeg Pools voor meer informatie.
cluster_source ClusterSource Bepaalt of het cluster is gemaakt door een gebruiker via de gebruikersinterface, gemaakt door de Databricks Jobs-scheduler of via een API-aanvraag.
policy_id STRING Een clusterbeleids-id.
azure_attributes AzureAttributes Definieert kenmerken zoals het beschikbaarheidstype van het exemplaar, de plaatsing van knooppunt en de maximale biedprijs. Als dit niet is opgegeven tijdens het maken van het cluster, wordt een set standaardwaarden gebruikt.

ClusterSize

Specificatie van clustergrootte.

Veldnaam Type Description
num_workers OF automatisch schalen INT32 OF INT32 Als num_workers, het aantal werkknooppunten dat dit cluster moet hebben. Een cluster heeft één Spark-stuurprogramma en num_workers voor een totaal van num_workers + 1 Spark-knooppunten.

Bij het lezen van de eigenschappen van een cluster geeft dit veld het gewenste aantal werkpersoneel weer in plaats van het werkelijke aantal werksters. Als het formaat van een cluster bijvoorbeeld wordt aangepast van 5 naar 10 werksters, wordt dit veld bijgewerkt met de doelgrootte van 10 werksters, terwijl de werksters die worden vermeld in uitvoerders geleidelijk toenemen van 5 naar 10 naarmate de nieuwe knooppunten worden ingericht.

Als u automatisch schaalt, hebt u parameters nodig om clusters automatisch omhoog en omlaag te schalen op basis van de belasting.

ListOrder

Algemene opsomming voor het orden van query's op basis van een lijst.

Volgorde Description
DESC Aflopende volgorde.
ASC Oplopende volgorde.

ResizeCause

Reden waarom het cluster is gedimd.

Oorzaak Description
AUTOMATISCH SCHALEN Het wordt automatisch een nieuwe of meer tijdsbasis op basis van de belasting.
USER_REQUEST De gebruiker heeft een nieuwe grootte aangevraagd.
AUTORECOVERY De automatische controle heeft het cluster een nieuwe status geven nadat het een knooppunt is verloren.

ClusterLogConf

Pad naar clusterlogboek.

Veldnaam Type Description
dbfs DbfsStorageInfo DBFS-locatie van clusterlogboek. Het doel moet worden opgegeven. Bijvoorbeeld:
{ "dbfs" : { "destination" : "dbfs:/home/cluster_log" } }

InitScriptInfo

Pad naar een init-script. Zie Use an init script (Een init-script gebruiken) voor instructies over het gebruik van init-scripts metDatabricks Container Services.

Notitie

Het bestandsopslagtype is alleen beschikbaar voor clusters die zijn ingesteld met Databricks Container Services.

Veldnaam Type Description
dbfs OR-bestand DbfsStorageInfo

FileStorageInfo
DBFS-locatie van init-script. Het doel moet worden opgegeven. Bijvoorbeeld:
{ "dbfs" : { "destination" : "dbfs:/home/init_script" } }

Bestandslocatie van init-script. Het doel moet worden opgegeven. Bijvoorbeeld:
{ "file" : { "destination" : "file:/my/local/file.sh" } }

ClusterTag

Clustertagdefinitie.

Type Description
STRING De sleutel van de tag. De sleutel moet:

* Tussen 1 en 512 tekens lang zijn
* Geen van de tekens bevatten <>%*&+?\\/
* Begin niet met azure , microsoft of windows
STRING De waarde van de tag. De waardelengte moet kleiner zijn dan of gelijk zijn aan 256 UTF-8 tekens.

DbfsStorageInfo

DBFS-opslaggegevens.

Veldnaam Type Description
doel STRING DBFS-bestemming. Voorbeeld: dbfs:/my/path

FileStorageInfo

Bestandsopslaggegevens.

Notitie

Dit locatietype is alleen beschikbaar voor clusters die zijn ingesteld met Databricks Container Services.

Veldnaam Type Description
doel STRING Bestandsbestemming. Voorbeeld: file:/my/file.sh

DockerImage

Verbindingsgegevens voor Docker-afbeelding.

Veld Type Description
url tekenreeks URL voor de Docker-afbeelding.
basic_auth DockerBasicAuth Basisverificatiegegevens voor Docker-opslagplaats.

DockerBasicAuth

Basisverificatiegegevens voor Docker-opslagplaats.

Veld Description
gebruikersnaam Gebruikersnaam voor de Docker-opslagplaats.
wachtwoord Wachtwoord voor de Docker-opslagplaats.

LogSyncStatus

Leveringsstatus van logboek.

Veldnaam Type Description
last_attempted INT64 Het tijdstempel van de laatste poging. Als de laatste poging mislukt, last_exception de uitzondering in de laatste poging.
last_exception STRING De uitzondering die bij de laatste poging is geretourneerd, is null (weggelaten in het antwoord) als er geen uitzondering is in de laatste poging.

Nodetype

Beschrijving van een Spark-knooppunttype, inclusief zowel de dimensies van het knooppunt als het exemplaartype waarop het wordt gehost.

Veldnaam Type Description
node_type_id STRING Unieke id voor dit knooppunttype. Dit veld is vereist.
memory_mb INT32 Geheugen (in MB) beschikbaar voor dit knooppunttype. Dit veld is vereist.
num_cores FLOAT Het aantal CPU-kernen dat beschikbaar is voor dit knooppunttype. Dit kan fractioneel zijn als het aantal kernen op een machine-exemplaar niet deelbaar is door het aantal Spark-knooppunten op die machine. Dit veld is vereist.
beschrijving STRING Een tekenreeksbeschrijving die is gekoppeld aan dit knooppunttype. Dit veld is vereist.
instance_type_id STRING Een id voor het type hardware op dit knooppunt. Dit veld is vereist.
is_deprecated BOOL Of het knooppunttype is afgeschaft. Niet-afgeschafte knooppunttypen bieden betere prestaties.
node_info ClusterCloudProviderNodeInfo Knooppunttypegegevens die zijn gerapporteerd door de cloudprovider.

ClusterCloudProviderNodeInfo

Informatie over een exemplaar dat wordt geleverd door een cloudprovider.

Veldnaam Type Description
status ClusterCloudProviderNodeStatus Status zoals gerapporteerd door de cloudprovider.
available_core_quota INT32 Beschikbaar CPU-kernquotum.
total_core_quota INT32 Totaal CPU-kernquotum.

ClusterCloudProviderNodeStatus

Status van een exemplaar dat wordt geleverd door een cloudprovider.

Status Beschrijving
NotEnabledOnSubscription Knooppunttype niet beschikbaar voor abonnement.
NotAvailableInRegion Knooppunttype is niet beschikbaar in de regio.

ParameterPair

Parameter die aanvullende informatie biedt over waarom een cluster is beëindigd.

Type Description
TerminationParameter Type beëindigingsinformatie.
STRING De beëindigingsinformatie.

SparkConfPair

Sleutel-waardeparen voor Spark-configuratie.

Type Description
STRING Een naam van een configuratie-eigenschap.
STRING De waarde van de configuratie-eigenschap.

SparkEnvPair

Sleutel-waardeparen voor Spark-omgevingsvariabelen.

Belangrijk

Wanneer u omgevingsvariabelen opgeeft in een taakcluster, accepteren de velden in deze gegevensstructuur alleen Latijnse tekens (ASCII-tekenset). Als u niet-ASCII-tekens gebruikt, wordt er een foutbericht weergegeven. Voorbeelden van ongeldige, niet-ASCII-tekens zijn Chinees, Japanse kanjis en emoji's.

Type Description
STRING De naam van een omgevingsvariabele.
STRING De waarde van de omgevingsvariabele.

SparkNode

Configuratie van Spark-stuurprogramma of -uitvoerder.

Veldnaam Type Description
private_ip STRING Privé-IP-adres (meestal een 10.x.x.x-adres) van het Spark-knooppunt. Dit wijs af van het privé-IP-adres van het host-exemplaar.
public_dns STRING Openbaar DNS-adres van dit knooppunt. Dit adres kan worden gebruikt voor toegang tot de Spark JDBC-server op het stuurprogramma-knooppunt.
node_id STRING Wereldwijd unieke id voor dit knooppunt.
instance_id STRING Wereldwijd unieke id voor het host-exemplaar van de cloudprovider.
start_timestamp INT64 Het tijdstempel (in milliseconden) wanneer het Spark-knooppunt wordt gestart.
host_private_ip STRING Het privé-IP-adres van het host-exemplaar.

SparkVersion

Databricks Runtime versie van het cluster.

Veldnaam Type Description
sleutel STRING Databricks Runtime-versiesleutel, bijvoorbeeld . De waarde die moet worden opgegeven als de spark_version bij het maken van een nieuw cluster. De exacte runtimeversie kan in de loop van de tijd worden gewijzigd voor een versie met jokertekens (dat wil zeggen, is een versie met jokertekens) met kleine 7.3.x-scala2.12 foutfixes.
naam STRING Een beschrijvende naam voor de runtimeversie, bijvoorbeeld 'Databricks Runtime 7.3 LTS'.

TerminationReason

Reden waarom een cluster is beëindigd.

Veldnaam Type Description
code TerminationCode Statuscode die aangeeft waarom een cluster is beëindigd.
type TerminationType Reden die aangeeft waarom een cluster is beëindigd.
parameters ParameterPair Object met een set parameters die informatie bieden over waarom een cluster is beëindigd.

PoolClusterTerminationCode

Statuscode die aangeeft waarom het cluster is beëindigd vanwege een poolfout.

Code Description
INSTANCE_POOL_MAX_CAPACITY_FAILURE De maximale capaciteit van de pool is bereikt.
INSTANCE_POOL_NOT_FOUND_FAILURE De pool die door het cluster is opgegeven, is niet meer actief of bestaat niet.

ClusterSource

Service die het cluster heeft gemaakt.

Service Beschrijving
Gebruikersinterface Cluster gemaakt via de gebruikersinterface.
BAAN Cluster gemaakt door de Databricks-taakplanster.
API Cluster gemaakt via een API-aanroep.

ClusterState

Status van een cluster. De toegestane statusovergangen zijn als volgt:

  • PENDING ->RUNNING
  • PENDING ->TERMINATING
  • RUNNING ->RESIZING
  • RUNNING ->RESTARTING
  • RUNNING ->TERMINATING
  • RESTARTING ->RUNNING
  • RESTARTING ->TERMINATING
  • RESIZING ->RUNNING
  • RESIZING ->TERMINATING
  • TERMINATING ->TERMINATED
Staat Beschrijving
PENDING Geeft aan dat er een cluster wordt gemaakt.
RUNNING Geeft aan dat een cluster is gestart en klaar is voor gebruik.
RESTARTING Geeft aan dat een cluster opnieuw wordt opgestart.
RESIZING Geeft aan dat een cluster bezig is met het toevoegen of verwijderen van knooppunten.
TERMINATING Geeft aan dat een cluster wordt vernietigd.
TERMINATED Geeft aan dat een cluster is vernietigd.
ERROR Deze status wordt niet meer gebruikt. Deze is gebruikt om een cluster aan te geven dat niet kan worden gemaakt.
TERMINATING en TERMINATED worden in plaats daarvan gebruikt.
UNKNOWN Geeft aan dat een cluster een onbekende status heeft. Een cluster mag nooit deze status hebben.

TerminationCode

Statuscode die aangeeft waarom het cluster is beëindigd.

Code Description
USER_REQUEST Een gebruiker heeft het cluster rechtstreeks beëindigd. Parameters moeten een veld bevatten dat de specifieke gebruiker aangeeft username die het cluster heeft beëindigd.
JOB_FINISHED Het cluster is gestart door een taak en beëindigd toen de taak is voltooid.
INACTIVITEIT Het cluster is beëindigd omdat het niet actief was.
CLOUD_PROVIDER_SHUTDOWN Het exemplaar dat het Spark-stuurprogramma host, is beëindigd door de cloudprovider.
COMMUNICATION_LOST Azure Databricks verbinding met services op het stuurprogramma-exemplaar verloren. Dit kan bijvoorbeeld gebeuren wanneer er problemen optreden in de cloudnetwerkinfrastructuur of wanneer de instantie zelf niet in orde is.
CLOUD_PROVIDER_LAUNCH_FAILURE Azure Databricks er een fout met de cloudprovider bij het aanvragen van exemplaren om clusters te starten.
SPARK_STARTUP_FAILURE Het cluster kan niet worden initialiseren. Mogelijke redenen zijn het niet maken van de omgeving voor Spark of problemen met het starten van de Spark-hoofd- en werkprocessen.
INVALID_ARGUMENT Kan het cluster niet starten omdat de gebruiker een ongeldig argument heeft opgegeven. De gebruiker kan bijvoorbeeld een ongeldige runtimeversie voor het cluster opgeven.
UNEXPECTED_LAUNCH_FAILURE Tijdens het starten van dit cluster kon Azure Databricks kritieke installatiestappen niet voltooien, om het cluster te beëindigen.
INTERNAL_ERROR Azure Databricks er een onverwachte fout opgetreden die ervoor heeft zorgen dat het cluster dat wordt uitgevoerd, is beëindigd. Neem contact Azure Databricks ondersteuning voor meer informatie.
SPARK_ERROR Het Spark-stuurprogramma kan niet worden starten. Mogelijke redenen kunnen incompatibele bibliotheken en initialisatiescripts zijn die de Spark-container beschadigd hebben.
METASTORE_COMPONENT_UNHEALTHY Het cluster is niet starten omdat de externe metastore niet kan worden bereikt. Raadpleeg Problemen oplossen.
DBFS_COMPONENT_UNHEALTHY Het cluster is niet starten omdat Databricks File System (DBFS) niet kan worden bereikt.
AZURE_RESOURCE_PROVIDER_THROTTLING Azure Databricks limiet voor Azure Resource Provider-aanvragen bereikt. Met name de API-aanvraagsnelheid voor het specifieke resourcetype (compute, netwerk, enzovoort) kan de limiet niet overschrijden. Opnieuw proberen kan helpen om het probleem op te lossen. Zie voor meer https://docs.microsoft.com/azure/virtual-machines/troubleshooting/troubleshooting-throttling-errors informatie.
AZURE_RESOURCE_MANAGER_THROTTLING Azure Databricks de limiet voor Azure Resource Manager aanvraag bereikt, waardoor de Azure SDK geen lees- of schrijfaanvraag kan uitgeven aan de Azure Resource Manager. De aanvraaglimiet wordt elk uur toegepast op elk abonnement. Een nieuwe poging na een uur of het wijzigen naar een kleinere clustergrootte kan helpen om het probleem op te lossen. Zie voor meer https://docs.microsoft.com/azure/azure-resource-manager/resource-manager-request-limits informatie.
NETWORK_CONFIGURATION_FAILURE Het cluster is beëindigd vanwege een fout in de netwerkconfiguratie. Een werkruimte met VNet-injectie had bijvoorbeeld onjuiste DNS-instellingen die de toegang tot werkrolartefacten hebben geblokkeerd.
DRIVER_UNREACHABLE Azure Databricks heeft geen toegang tot het Spark-stuurprogramma omdat het niet bereikbaar was.
DRIVER_UNRESPONSIVE Azure Databricks heeft geen toegang tot het Spark-stuurprogramma omdat het niet reageerde.
INSTANCE_UNREACHABLE Azure Databricks heeft geen toegang tot exemplaren om het cluster te starten. Dit kan een tijdelijk netwerkprobleem zijn. Als het probleem zich blijft voordoen, duidt dit meestal op een onjuiste configuratie van een netwerkomgeving.
CONTAINER_LAUNCH_FAILURE Azure Databricks kan geen containers starten op werkknooppunten voor het cluster. Uw beheerder uw netwerkconfiguratie laten controleren.
INSTANCE_POOL_CLUSTER_FAILURE Clusterspecifieke fout met poolback-back-in. Zie Pools voor meer informatie.
REQUEST_REJECTED Azure Databricks kan de aanvraag op dit moment niet verwerken. Probeer het later opnieuw en neem contact Azure Databricks als het probleem zich blijft voordoen.
INIT_SCRIPT_FAILURE Azure Databricks kan geen init-script met clusterbereik laden en uitvoeren op een van de knooppunten van het cluster, of het init-script wordt beëindigd met een afsluitende code die niet nul is. Zie Init-scriptlogboeken.
TRIAL_EXPIRED Het Azure Databricks proefabonnement is verlopen.
BOOTSTRAP_TIMEOUT Het cluster kan niet worden starten vanwege problemen met de configuratie van het gebruikersnetwerk. Mogelijke redenen zijn onder andere onjuiste configuratie van firewallinstellingen, UDR-vermeldingen, DNS of routetabellen.

TerminationType

Reden waarom het cluster is beëindigd.

Type Description
SUCCES Beëindiging is geslaagd.
CLIENT_ERROR Kan niet opnieuw worden proberen. Client moet parameters herstellen voordat het cluster opnieuw wordt gemaakt.
SERVICE_FAULT Azure Databricks serviceprobleem oplossen. Client kan het opnieuw proberen.
CLOUD_FAILURE Probleem met de infrastructuur van de cloudprovider. De client kan het opnieuw proberen nadat het onderliggende probleem is opgelost.

TerminationParameter

Sleutel die aanvullende informatie biedt over waarom een cluster is beëindigd.

Sleutel Beschrijving
gebruikersnaam De gebruikersnaam van de gebruiker die het cluster heeft beëindigd.
databricks_error_message Aanvullende context waarin de reden voor clusterbeëindiging kan worden uitgelegd.
inactivity_duration_min Een niet-actief cluster is afgesloten nadat het gedurende deze periode inactief was.
instance_id De id van het exemplaar dat als host voor het Spark-stuurprogramma werd gebruikt.
azure_error_code De door Azure verstrekte foutcode die beschrijft waarom clusterknooppunten niet kunnen worden ingericht. Zie voor naslag: https://docs.microsoft.com/azure/virtual-machines/windows/error-messages .
azure_error_message Door mensen leesbare context van verschillende fouten in Azure. Dit veld is ongestructureerd en de exacte indeling kan worden gewijzigd.
instance_pool_id De id van de exemplaargroep die door het cluster wordt gebruikt.
instance_pool_error_code De foutcode voor clusterfouten die specifiek zijn voor een pool.

AzureAttributes

Kenmerken die zijn ingesteld tijdens het maken van het cluster met betrekking tot Azure.

Veldnaam Type Description
first_on_demand INT32 De eerste first_on_demand knooppunten van het cluster worden op instanties op aanvraag geplaatst. Deze waarde moet groter zijn dan 0, anders mislukt de validatie van het maken van clusters. Als deze waarde groter is dan of gelijk is aan de huidige clustergrootte, worden alle knooppunten op on-demand instanties geplaatst. Als deze waarde kleiner is dan de huidige clustergrootte, worden knooppunten geplaatst op instanties op aanvraag en wordt de rest op first_on_demand beschikbaarheids-exemplaren geplaatst. Deze waarde heeft geen invloed op de clustergrootte en kan niet worden gemuteerd gedurende de levensduur van een cluster.
availability AzureAvailability Beschikbaarheidstype dat wordt gebruikt voor alle volgende knooppunten die zijn first_on_demand verwijderd.
spot_bid_max_price DOUBLE De maximale biedprijs die wordt gebruikt voor Spot-instanties in Azure. U kunt dit instellen op groter dan of gelijk aan de huidige spotprijs. U kunt dit ook instellen op -1 (de standaardinstelling), waarmee wordt aangegeven dat het exemplaar niet kan worden onbewaarded op basis van de prijs. De prijs voor het exemplaar is de huidige prijs voor spot-instanties of de prijs voor een standaard-instantie. U kunt historische prijzen en uitzettingstarieven bekijken in de Azure Portal.

AzureAvailability

Het gedrag van het beschikbaarheidstype van azure-exemplaren.

Type Description
SPOT_AZURE Spot-exemplaren gebruiken.
ON_DEMAND_AZURE Gebruik instanties op aanvraag.
SPOT_WITH_FALLBACK_AZURE Gebruik bij voorkeur spot-exemplaren, maar terugvallen op instanties op aanvraag als spot-exemplaren niet kunnen worden verkregen (bijvoorbeeld als de spot-prijzen van Azure te hoog zijn of als het quotum te hoog is). Is niet van toepassing op de beschikbaarheid van de pool.