Kluster-API

Med kluster-API: et kan du skapa, starta, redigera, Visa, avsluta och ta bort kluster. Den högsta tillåtna storleken för en begäran till kluster-API: n är 10 MB.

Metoder för kluster livs cykeln kräver ett kluster-ID som returneras från create. Om du vill hämta en lista över kluster, anropa listan.

Azure Databricks mappar instans typer för klusternoder för att beräkna enheter som kallas DBU. På sidan med pris information för instans typ finns en lista över de instans typer som stöds och deras motsvarande DBU. Information om instans leverantörer finns i specifikationer och priser för Azure instance Type.

Azure Databricks har alltid ett års utfasnings meddelande innan det upphör ande stöd för en instans typ.

Viktigt

För att få åtkomst till Databricks REST API:er måste du autentisera.

Skapa

Slutpunkt HTTP-metod
2.0/clusters/create POST

Skapa ett nytt Apache Spark-kluster. Den här metoden hämtar nya instanser från moln leverantören om det behövs. Den här metoden är asynkron. returnerade cluster_id kan användas för att avsöka kluster tillstånd. När den här metoden returneras är klustret i ett PENDING tillstånd. Klustret kan användas när det går in i ett RUNNING tillstånd. Se ClusterState.

Anteckning

Azure Databricks kanske inte kan förvärva några av de begärda noderna, på grund av begränsningar i moln leverantören eller tillfälliga nätverks problem. Om det inte går att erhålla tillräckligt många av de begärda noderna, avslutas kluster skapandet med ett informativt fel meddelande.

En exempel förfrågan:

{
  "cluster_name": "my-cluster",
  "spark_version": "7.3.x-scala2.12",
  "node_type_id": "Standard_D3_v2",
  "spark_conf": {
    "spark.speculation": true
  },
  "num_workers": 25
}

Här är ett exempel på ett kluster för automatisk skalning. Klustret kommer att starta med 2 noder, minst.

{
  "cluster_name": "autoscaling-cluster",
  "spark_version": "7.3.x-scala2.12",
  "node_type_id": "Standard_D3_v2",
  "autoscale" : {
    "min_workers": 2,
    "max_workers": 50
  }
}

Här är ett exempel som inkluderar den princip som ska användas.

{
    "num_workers": null,
    "autoscale": {
        "min_workers": 2,
        "max_workers": 8
    },
    "cluster_name": "my-cluster",
    "spark_version": "7.3.x-scala2.12",
    "spark_conf": {},
    "node_type_id": "Standard_D3_v2",
    "custom_tags": {},
    "spark_env_vars": {
        "PYSPARK_PYTHON": "/databricks/python3/bin/python3"
    },
    "autotermination_minutes": 120,
    "init_scripts": [],
    "policy_id": "C65B864F02000008"
}

Skapa ett jobb med hjälp av en princip med API: et

Om du vill skapa ett jobb eller skicka en körning med ett nytt kluster med hjälp av en princip lägger du till policy_id attributet i förfrågningens new_cluster specifikation.

{
  "run_name": "my spark task",
  "new_cluster": {
    "spark_version": "7.3.x-scala2.12",
    "node_type_id": "Standard_D3_v2",
    "num_workers": 10,
    "policy_id": "ABCD000000000000"
  },
  "spark_jar_task": {
    "main_class_name": "com.databricks.ComputeModels"
  }
}

Begär struktur

Fältnamn Typ Beskrivning
num_workers eller autoskalning INT32 ELLER Autoskala Om num_workers, antalet arbetsnoder som det här klustret ska ha. Ett kluster har en spark-drivrutin och num_workers körningar för totalt num_workers + 1 Spark-noder.

Obs: När du läser egenskaperna för ett kluster visar det här fältet det önskade antalet arbetare i stället för det faktiska antalet arbetare. Om ett kluster till exempel ändras till mellan 5 och 10 arbetare kommer det här fältet omedelbart att uppdateras för att avspegla mål storleken på 10 arbetare, medan de anställda som anges i executors gradvis ökar från 5 till 10 eftersom de nya noderna är etablerade.

Om autoskalning krävs parametrar för att automatiskt skala upp och ned kluster baserat på belastning.
cluster_name STRING Kluster namn begärt av användaren. Detta behöver inte vara unikt. Om detta inte anges när klustret skapas är kluster namnet en tom sträng.
spark_version STRING Körnings versionen av klustret. Du kan hämta en lista över tillgängliga körnings versioner med API-anrop för körnings versioner . Det här fältet är obligatoriskt.
spark_conf SparkConfPair Ett objekt som innehåller en uppsättning valfria, användardefinierade konfigurations nyckel/värde-par för Spark-konfiguration. Du kan också skicka en sträng med extra JVM-alternativ till driv rutinen och körningarna via
spark.driver.extraJavaOptions``spark.executor.extraJavaOptionsrespektive.

I exempel Spark ger:
{"spark.speculation": true, "spark.streaming.ui.retainedBatches": 5} eller
{"spark.driver.extraJavaOptions": "-verbose:gc -XX:+PrintGCDetails"}
node_type_id STRING Det här fältet kodas med hjälp av ett enda värde och resurserna som är tillgängliga för var och en av Spark-noderna i det här klustret. Till exempel kan Spark-noderna tillhandahållas och optimeras för minnes-eller beräknings intensiva arbets belastningar som en lista över tillgängliga nodtyper kan hämtas med hjälp av list Node types API-anrop. Det här fältet är obligatoriskt.
driver_node_type_id STRING Nodtypen för Spark-drivrutinen. Det här fältet är valfritt. Om alternativet inte anges, anges driv Rutinens nodtyp som samma värde som node_type_id definieras ovan.
custom_tags ClusterTag Ett objekt som innehåller en uppsättning taggar för kluster resurser. Databricks Taggar alla kluster resurser (t. ex. virtuella datorer) med dessa taggar utöver default_tags.

Obs:

Azure Databricks tillåter högst 43 anpassade taggar.
cluster_log_conf ClusterLogConf Konfigurationen för att leverera Spark-loggar till ett långsiktigt lagrings mål. Det går bara att ange ett mål för ett kluster. Om conf anges skickas loggarna till målet var
5 mins. Destinationen för driv rutins loggar är <destination>/<cluster-ID>/driver , medan målet för utförar-loggarna är <destination>/<cluster-ID>/executor .
init_scripts En matris med InitScriptInfo Konfigurationen för att lagra init-skript. Du kan ange valfritt antal skript. Skripten körs sekventiellt i den angivna ordningen. Om cluster_log_conf har angetts skickas initierings skript loggar till
<destination>/<cluster-ID>/init_scripts.
docker_image DockerImage Docker-avbildning för en anpassad behållare.
spark_env_vars SparkEnvPair Ett objekt som innehåller en uppsättning valfria, användardefinierade miljövariabel nyckel/värde-par. Nyckel/värde-par i formuläret (X, Y) exporteras som det är (det vill säga
export X='Y') när du startar driv rutinen och arbets tagarna.

För att kunna ange ytterligare en uppsättning SPARK_DAEMON_JAVA_OPTS rekommenderar vi att du lägger till dem i $SPARK_DAEMON_JAVA_OPTS som visas i följande exempel. Detta säkerställer att alla standarddatabricks hanterade miljövariabler också ingår.

Exempel på Spark-miljövariabler:
{"SPARK_WORKER_MEMORY": "28000m", "SPARK_LOCAL_DIRS": "/local_disk0"} eller
{"SPARK_DAEMON_JAVA_OPTS": "$SPARK_DAEMON_JAVA_OPTS -Dspark.shuffle.service.enabled=true"}
autotermination_minutes INT32 Avslutar automatiskt klustret när det är inaktivt under den här tiden på några minuter. Om det inte har angetts kommer det här klustret inte att avslutas automatiskt. Om det anges måste tröskelvärdet vara mellan 10 och 10000 minuter. Du kan också ange värdet 0 om du vill inaktivera automatisk avslutning.
instance_pool_id STRING Det valfria ID: t för den instans som klustret tillhör. Mer information finns i API för instans pooler .
idempotency_token STRING En valfri token som kan användas för att garantera idempotens för skapande av kluster. Om det redan finns ett aktivt kluster med den angivna token, kommer begäran inte att skapa ett nytt kluster, men det returnerar det befintliga klustrets ID i stället. Det går inte att kontrol lera om det finns ett kluster med samma token mot avslutade kluster.

Om du anger idempotens-token kan du göra ett nytt försök tills begäran lyckas. Azure Databricks garanterar att exakt ett kluster kommer att startas med denna idempotens-token.

Denna token får innehålla högst 64 tecken.

Svars struktur

Fältnamn Typ Beskrivning
cluster_id STRING Kanoniskt ID för klustret.

Redigera

Slutpunkt HTTP-metod
2.0/clusters/edit POST

Redigera konfigurationen av ett kluster för att matcha de angivna attributen och storleken.

Du kan redigera ett kluster om det är i RUNNING läget eller TERMINATED . Om du redigerar ett kluster när det är i ett RUNNING tillstånd kommer det att startas om så att de nya attributen kan börja gälla. Om du redigerar ett kluster när det är i ett TERMINATED tillstånd finns det kvar TERMINATED . Nästa gång den startas med clusters/start API: t börjar de nya attributen gälla. Ett försök att redigera ett kluster i något annat tillstånd kommer att avvisas med en INVALID_STATE felkod.

Kluster som skapats av tjänsten Databricks Jobs kan inte redige ras.

En exempel förfrågan:

{
 "cluster_id": "1202-211320-brick1",
 "num_workers": 10,
 "spark_version": "7.3.x-scala2.12",
 "node_type_id": "Standard_D3_v2"
}

Begär struktur

Fältnamn Typ Beskrivning
num_workers eller autoskalning INT32 ELLER Autoskala Om num_workers, antalet arbetsnoder som det här klustret ska ha. Ett kluster har en spark-drivrutin och num_workers körningar för totalt num_workers + 1 Spark-noder.

Obs: När du läser egenskaperna för ett kluster visar det här fältet det önskade antalet arbetare i stället för det faktiska antalet arbetare. Om ett kluster till exempel ändras till mellan 5 och 10 arbetare kommer det här fältet omedelbart att uppdateras för att avspegla mål storleken på 10 arbetare, medan de anställda som anges i executors gradvis ökar från 5 till 10 eftersom de nya noderna är etablerade.

Om autoskalning krävs parametrar för att automatiskt skala upp och ned kluster baserat på belastning.
cluster_id STRING Kanoniskt ID för klustret. Det här fältet är obligatoriskt.
cluster_name STRING Kluster namn begärt av användaren. Detta behöver inte vara unikt. Om detta inte anges när klustret skapas är kluster namnet en tom sträng.
spark_version STRING Körnings versionen av klustret. Du kan hämta en lista över tillgängliga körnings versioner med API-anrop för körnings versioner . Det här fältet är obligatoriskt.
spark_conf SparkConfPair Ett objekt som innehåller en uppsättning valfria, användardefinierade konfigurations nyckel/värde-par för Spark-konfiguration. Du kan också skicka en sträng med extra JVM-alternativ till driv rutinen och körningarna via
spark.driver.extraJavaOptions``spark.executor.extraJavaOptionsrespektive.

I exempel Spark ger:
{"spark.speculation": true, "spark.streaming.ui.retainedBatches": 5} eller
{"spark.driver.extraJavaOptions": "-verbose:gc -XX:+PrintGCDetails"}
node_type_id STRING Det här fältet kodas med hjälp av ett enda värde och resurserna som är tillgängliga för var och en av Spark-noderna i det här klustret. Till exempel kan Spark-noderna tillhandahållas och optimeras för minnes-eller beräknings intensiva arbets belastningar som en lista över tillgängliga nodtyper kan hämtas med hjälp av list Node types API-anrop. Det här fältet är obligatoriskt.
driver_node_type_id STRING Nodtypen för Spark-drivrutinen. Det här fältet är valfritt. Om alternativet inte anges, anges driv Rutinens nodtyp som samma värde som node_type_id definieras ovan.
cluster_log_conf ClusterLogConf Konfigurationen för att leverera Spark-loggar till ett långsiktigt lagrings mål. Det går bara att ange ett mål för ett kluster. Om conf anges skickas loggarna till målet var
5 mins. Destinationen för driv rutins loggar är <destination>/<cluster-ID>/driver , medan målet för utförar-loggarna är <destination>/<cluster-ID>/executor .
init_scripts En matris med InitScriptInfo Konfigurationen för att lagra init-skript. Du kan ange valfritt antal destinationer. Skripten körs sekventiellt i den angivna ordningen. Om cluster_log_conf har angetts skickas initierings skript loggar till
<destination>/<cluster-ID>/init_scripts.
docker_image DockerImage Docker-avbildning för en anpassad behållare.
spark_env_vars SparkEnvPair Ett objekt som innehåller en uppsättning valfria, användardefinierade miljövariabel nyckel/värde-par. Nyckel/värde-par i formuläret (X, Y) exporteras som det är (det vill säga
export X='Y') när du startar driv rutinen och arbets tagarna.

För att kunna ange ytterligare en uppsättning SPARK_DAEMON_JAVA_OPTS rekommenderar vi att du lägger till dem i $SPARK_DAEMON_JAVA_OPTS som visas i följande exempel. Detta säkerställer att alla standardDatabricks hanterade miljövariabler också ingår.

Exempel på Spark-miljövariabler:
{"SPARK_WORKER_MEMORY": "28000m", "SPARK_LOCAL_DIRS": "/local_disk0"} eller
{"SPARK_DAEMON_JAVA_OPTS": "$SPARK_DAEMON_JAVA_OPTS -Dspark.shuffle.service.enabled=true"}
autotermination_minutes INT32 Avslutar automatiskt klustret när det är inaktivt under den här tiden på några minuter. Om det inte har angetts kommer det här klustret inte att avslutas automatiskt. Om det anges måste tröskelvärdet vara mellan 10 och 10000 minuter. Du kan också ange värdet 0 om du vill inaktivera automatisk avslutning.
instance_pool_id STRING Det valfria ID: t för den instans som klustret tillhör. Mer information finns i pooler .

Starta

Slutpunkt HTTP-metod
2.0/clusters/start POST

Starta ett avbrutet kluster med det aktuella ID: t. Detta liknar createCluster , förutom:

  • Det avbrutna klustrets ID och attribut bevaras.
  • Klustret börjar med den senast angivna kluster storleken. Om det avslutade klustret är ett kluster för automatisk skalning börjar klustret med det minsta antalet noder.
  • Om klustret är i ett RESTARTING tillstånd 400 returneras ett fel.
  • Det går inte att starta ett kluster som startar för att köra ett jobb.

En exempel förfrågan:

{
  "cluster_id": "1202-211320-brick1"
}

Begär struktur

Fältnamn Typ Beskrivning
cluster_id STRING Klustret som ska startas. Det här fältet är obligatoriskt.

Starta om

Slutpunkt HTTP-metod
2.0/clusters/restart POST

Starta om ett kluster med angivet ID. Klustret måste ha RUNNING statusen.

En exempel förfrågan:

{
  "cluster_id": "1202-211320-brick1"
}

Begär struktur

Fältnamn Typ Beskrivning
cluster_id STRING Klustret som ska startas. Det här fältet är obligatoriskt.

Ändra storlek

Slutpunkt HTTP-metod
2.0/clusters/resize POST

Ändra storlek på ett kluster om du vill ha ett önskat antal arbetare. Klustret måste ha RUNNING statusen.

En exempel förfrågan:

{
  "cluster_id": "1202-211320-brick1",
  "num_workers": 30
}

Begär struktur

Fältnamn Typ Beskrivning
num_workers eller autoskalning INT32 ELLER Autoskala Om num_workers, antalet arbetsnoder som det här klustret ska ha. Ett kluster har en spark-drivrutin och num_workers körningar för totalt num_workers + 1 Spark-noder.

Obs: När du läser egenskaperna för ett kluster visar det här fältet det önskade antalet arbetare i stället för det faktiska antalet arbetare. Om ett kluster till exempel ändras till mellan 5 och 10 arbetare kommer det här fältet omedelbart att uppdateras för att avspegla mål storleken på 10 arbetare, medan de anställda som anges i executors gradvis ökar från 5 till 10 eftersom de nya noderna är etablerade.

Om autoskalning krävs parametrar för att automatiskt skala upp och ned kluster baserat på belastning.
cluster_id STRING Klustret som ska ändras. Det här fältet är obligatoriskt.

Ta bort ( avsluta)

Slutpunkt HTTP-metod
2.0/clusters/delete POST

Avsluta ett kluster med angivet ID. Klustret tas bort asynkront. När avslutningen har slutförts är klustret i ett TERMINATED tillstånd. Om klustret redan är i ett TERMINATING -eller TERMINATED -tillstånd sker ingenting.

30 dagar efter att ett kluster har avslut ATS tas det bort permanent.

En exempel förfrågan:

{
  "cluster_id": "1202-211320-brick1"
}

Begär struktur

Fältnamn Typ Beskrivning
cluster_id STRING Klustret som ska avslutas. Det här fältet är obligatoriskt.

Permanent borttagning

Slutpunkt HTTP-metod
2.0/clusters/permanent-delete POST

Ta bort ett kluster permanent. Om klustret körs avbryts det och resurserna tas bort asynkront. Om klustret avslutas tas det omedelbart bort.

Du kan inte utföra några åtgärder, inklusive Hämta klustrets behörigheter, på ett permanent borttaget kluster. Ett permanent borttaget kluster returneras inte längre i kluster listan.

En exempel förfrågan:

{
  "cluster_id": "1202-211320-brick1"
}

Begär struktur

Fältnamn Typ Beskrivning
cluster_id STRING Klustret som ska tas bort permanent. Det här fältet är obligatoriskt.

Hämta

Slutpunkt HTTP-metod
2.0/clusters/get GET

Hämta information för ett kluster med angivet ID. Kluster kan beskrivas medan de körs eller upp till 30 dagar efter att de har avslut ATS.

En exempel förfrågan:

/clusters/get?cluster_id=1202-211320-brick1

Begär struktur

Fältnamn Typ Beskrivning
cluster_id STRING Det kluster som du vill hämta information om. Det här fältet är obligatoriskt.

Svars struktur

Fältnamn Typ Beskrivning
num_workers eller autoskalning INT32 ELLER Autoskala Om num_workers, antalet arbetsnoder som det här klustret ska ha. Ett kluster har en spark-drivrutin och num_workers körningar för totalt num_workers + 1 Spark-noder.

Obs: När du läser egenskaperna för ett kluster visar det här fältet det önskade antalet arbetare i stället för det faktiska antalet arbetare. Om ett kluster till exempel ändras till mellan 5 och 10 arbetare kommer det här fältet omedelbart att uppdateras för att avspegla mål storleken på 10 arbetare, medan de anställda som anges i executors gradvis ökar från 5 till 10 eftersom de nya noderna är etablerade.

Om autoskalning krävs parametrar för att automatiskt skala upp och ned kluster baserat på belastning.
cluster_id STRING Kanoniskt ID för klustret. Detta ID behålls när klustret startas om och ändras, medan varje nytt kluster har ett globalt unikt ID.
creator_user_name STRING Användar namn för skapare. Fältet tas inte med i svaret om användaren redan har tagits bort.
drivrutinsspecifika SparkNode Noden där Spark-drivrutinen finns. Driver-noden innehåller Spark-hanteraren och det Databricks-program som hanterar en spark-REPLs per dator.
körare En matris med SparkNode Noder där Spark-körningarna finns.
spark_context_id INT64 En kanonisk SparkContext-identifierare. Det här värdet ändras när Spark-drivrutinen startas om. Paret (cluster_id, spark_context_id) är en globalt unik identifierare för alla Spark-kontexter.
jdbc_port INT32 Den port som Spark JDBC-servern lyssnar på i noden driv rutin. Ingen tjänst kommer att lyssna på den här porten i utförar-noder.
cluster_name STRING Kluster namn begärt av användaren. Detta behöver inte vara unikt. Om detta inte anges när klustret skapas är kluster namnet en tom sträng.
spark_version STRING Körnings versionen av klustret. Du kan hämta en lista över tillgängliga körnings versioner med API-anrop för körnings versioner .
spark_conf SparkConfPair Ett objekt som innehåller en uppsättning valfria, användardefinierade konfigurations nyckel/värde-par för Spark-konfiguration. Du kan också skicka en sträng med extra JVM-alternativ till driv rutinen och körningarna via
spark.driver.extraJavaOptions``spark.executor.extraJavaOptionsrespektive.

I exempel Spark ger:
{"spark.speculation": true, "spark.streaming.ui.retainedBatches": 5} eller
{"spark.driver.extraJavaOptions": "-verbose:gc -XX:+PrintGCDetails"}
node_type_id STRING Det här fältet kodas med hjälp av ett enda värde och resurserna som är tillgängliga för var och en av Spark-noderna i det här klustret. Till exempel kan Spark-noderna tillhandahållas och optimeras för minnes-eller beräknings intensiva arbets belastningar som en lista över tillgängliga nodtyper kan hämtas med hjälp av list Node types API-anrop. Det här fältet är obligatoriskt.
driver_node_type_id STRING Nodtypen för Spark-drivrutinen. Det här fältet är valfritt. Om alternativet inte anges, anges driv Rutinens nodtyp som samma värde som node_type_id definieras ovan.
custom_tags ClusterTag Ett objekt som innehåller en uppsättning taggar för kluster resurser. Databricks Taggar alla kluster resurser med dessa taggar utöver default_tags.

Obs:

* Taggar stöds inte på äldre nodtyper, till exempel Compute-optimerad och minnesoptimerade
* Databricks tillåter högst 45 anpassade taggar
cluster_log_conf ClusterLogConf Konfigurationen för att leverera Spark-loggar till ett långsiktigt lagrings mål. Det går bara att ange ett mål för ett kluster. Om conf anges skickas loggarna till målet var
5 mins. Destinationen för driv rutins loggar är <destination>/<cluster-ID>/driver , medan målet för utförar-loggarna är <destination>/<cluster-ID>/executor .
init_scripts En matris med InitScriptInfo Konfigurationen för att lagra init-skript. Du kan ange valfritt antal destinationer. Skripten körs sekventiellt i den angivna ordningen. Om cluster_log_conf har angetts skickas initierings skript loggar till
<destination>/<cluster-ID>/init_scripts.
docker_image DockerImage Docker-avbildning för en anpassad behållare.
spark_env_vars SparkEnvPair Ett objekt som innehåller en uppsättning valfria, användardefinierade miljövariabel nyckel/värde-par. Nyckel/värde-par i formuläret (X, Y) exporteras som det är (det vill säga
export X='Y') när du startar driv rutinen och arbets tagarna.

För att kunna ange ytterligare en uppsättning SPARK_DAEMON_JAVA_OPTS rekommenderar vi att du lägger till dem i $SPARK_DAEMON_JAVA_OPTS som visas i följande exempel. Detta säkerställer att alla standardDatabricks hanterade miljövariabler också ingår.

Exempel på Spark-miljövariabler:
{"SPARK_WORKER_MEMORY": "28000m", "SPARK_LOCAL_DIRS": "/local_disk0"} eller
{"SPARK_DAEMON_JAVA_OPTS": "$SPARK_DAEMON_JAVA_OPTS -Dspark.shuffle.service.enabled=true"}
autotermination_minutes INT32 Avslutar automatiskt klustret när det är inaktivt under den här tiden på några minuter. Om det inte har angetts kommer det här klustret inte att avslutas automatiskt. Om det anges måste tröskelvärdet vara mellan 10 och 10000 minuter. Du kan också ange värdet 0 om du vill inaktivera automatisk avslutning.
enable_elastic_disk BOOL Automatisk skalning av lokal lagring: när det är aktiverat kommer det här klustret dynamiskt att förvärva ytterligare disk utrymme när dess Spark-arbetsbelastningar börjar få ont om disk utrymme. Mer information finns i automatisk skalning av lokalt lagrings utrymme .
instance_pool_id STRING Det valfria ID: t för den instans som klustret tillhör. Mer information finns i pooler .
state ClusterState Klustrets tillstånd.
state_message STRING Ett meddelande som är associerat med den senaste tillstånds över gången (till exempel orsaken till att klustret angav TERMINATED status).
start_time INT64 Tid (i epoker i millisekunder) när begäran om att skapa kluster togs emot (när klustret angav PENDING status).
terminated_time INT64 Tid (i epoker i millisekunder) när klustret avslutades, om tillämpligt.
last_state_loss_time INT64 Tid när kluster driv rutinen senast förlorade sitt tillstånd (på grund av en omstart eller driv rutins fel).
last_activity_time INT64 Tid (i epoker i millisekunder) när klustret senast var aktivt. Ett kluster är aktivt om det finns minst ett kommando som inte har avslut ATS i klustret. Det här fältet är tillgängligt när klustret har nått sitt RUNNING tillstånd. Uppdateringar av det här fältet görs med bästa möjliga försök. Vissa versioner av Spark stöder inte rapportering av kluster aktivitet. Se automatisk avslutning för mer information.
cluster_memory_mb INT64 Total mängd kluster minne, i megabyte.
cluster_cores FLOAT Antal processor kärnor som är tillgängliga för det här klustret. Detta kan vara bråkat eftersom vissa nodtyper har kon figurer ATS för att dela kärnor mellan Spark-noder på samma instans.
default_tags ClusterTag Ett objekt som innehåller en uppsättning taggar som läggs till av Azure Databricks oavsett custom_tags, inklusive:

* Leverantör: Databricks
* Skapare:
* Kluster namn: <namn-för-kluster>
* ClusterId: <-ID-för-kluster>
* Namn: på jobb kluster:

* RunName: <namn på jobb>
* JobId: <-ID för jobb>
cluster_log_status LogSyncStatus Leverans status för kluster logg.
termination_reason TerminationReason Information om varför klustret avslutades. Det här fältet visas bara när klustret är i TERMINATING läget eller TERMINATED .

Fäst

Anteckning

Du måste vara Azure Databricks administratör för att anropa detta API.

Slutpunkt HTTP-metod
2.0/clusters/pin POST

Se till att kluster konfigurationen för alla syften behålls även när ett kluster har avslut ATS i mer än 30 dagar. Genom att fästa ser du till att klustret alltid returneras av list -API: et. Att fästa ett kluster som redan har fästs har ingen påverkan.

En exempel förfrågan:

{
  "cluster_id": "1202-211320-brick1"
}

Begär struktur

Fältnamn Typ Beskrivning
cluster_id STRING Klustret som ska fästas. Det här fältet är obligatoriskt.

Ta bort

Anteckning

Du måste vara Azure Databricks administratör för att anropa detta API.

Slutpunkt HTTP-metod
2.0/clusters/unpin POST

Tillåter att klustret tas bort från listan som returneras av list -API: et. Att ta bort ett kluster som inte har fästs har ingen påverkan.

En exempel förfrågan:

{
  "cluster_id": "1202-211320-brick1"
}

Begär struktur

Fältnamn Typ Beskrivning
cluster_id STRING Klustret att ta bort. Det här fältet är obligatoriskt.

Lista

Slutpunkt HTTP-metod
2.0/clusters/list GET

Returnera information om alla fästa kluster, aktiva kluster, upp till 70 av de senast avslutade kluster i alla syften under de senaste 30 dagarna och upp till 30 av de senast avslutade jobb klustren under de senaste 30 dagarna. Om det t. ex. finns 1 fäst kluster, 4 aktiva kluster, 45 alla kluster för alla syften under de senaste 30 dagarna och 50 avslutade jobb kluster under de senaste 30 dagarna, returnerar detta API det 1 fästa klustret, 4 aktiva kluster, alla 45 avslutade kluster för alla syften och de 30 senast avslutade jobb klustren.

Svars struktur

Fältnamn Typ Beskrivning
kluster En matris med ClusterInfo En lista över kluster.

Lista Node-typer

Slutpunkt HTTP-metod
2.0/clusters/list-node-types GET

Returnera en lista över typer av Spark-nodtyper som stöds. De här typerna av noder kan användas för att starta ett kluster.

Svars struktur

Fältnamn Typ Beskrivning
node_types En matris med NodeType Listan över tillgängliga typer av Spark-noder.

Körnings versioner

Slutpunkt HTTP-metod
2.0/clusters/spark-versions GET

Returnera listan över tillgängliga körnings versioner. Dessa versioner kan användas för att starta ett kluster.

Svars struktur

Fältnamn Typ Beskrivning
versioner En matris med SparkVersion Alla tillgängliga körnings versioner.

Händelser

Slutpunkt HTTP-metod
2.0/clusters/events POST

Hämta en lista över händelser om aktiviteten i ett kluster. Du kan hämta händelser från aktiva kluster (som körs, väntar eller omkonfigureras) och avslutade kluster inom 30 dagar efter den senaste uppsägningen. Detta API är en sid brytning. Om det finns fler händelser att läsa, innehåller svaret alla parametrar som krävs för att begära nästa sida med händelser.

En exempel förfrågan:

{
  "cluster_id": "1202-211320-brick1"
}

Ett exempel svar:

{
  "events": [{
    "cluster_id": "1202-211320-brick1",
    "timestamp": 1534371918659,
    "type": "TERMINATING",
    "details": {
      "reason": {
        "code": "INACTIVITY",
        "parameters": {
          "inactivity_duration_min": "120"
        }
      }
    }
  }, {
    "cluster_id": "1202-211320-brick1",
    "timestamp": 1534358289590,
    "type": "RUNNING",
    "details": {
      "current_num_workers": 2,
      "target_num_workers": 2
    }
  }, {
    "cluster_id": "1202-211320-brick1",
    "timestamp": 1533225298406,
    "type": "RESTARTING",
    "details": {
      "user": "admin"
    }
  }],
  "next_page": {
    "cluster_id": "0802-034608-aloe926",
    "end_time": 1534371918659,
    "offset": 50
  },
  "total_count": 55
}

Exempel förfrågan om att hämta nästa sida med händelser:

{
  "cluster_id": "1202-211320",
  "start_time": 1534371918659
}

Begär struktur

Hämta händelser som rör ett enskilt kluster.

Fältnamn Typ Beskrivning
cluster_id STRING ID för klustret för att hämta händelser om. Det här fältet är obligatoriskt.
start_time INT64 Start tiden på epoker i millisekunder. Om det är tomt returneras händelser från början av tiden.
end_time INT64 Slut tiden i epoker i millisekunder. Om det är tomt returneras händelser fram till den aktuella tiden.
ordningsföljd ListOrder Ordning för att lista händelser i; antingen ASC eller DESC . Standardvärdet är DESC .
event_types En matris med ClusterEventType En valfri uppsättning händelse typer att filtrera på. Om detta är tomt returneras alla händelse typer.
offset INT64 Förskjutningen i resultat uppsättningen. Standardvärdet är 0 (ingen förskjutning). När en förskjutning anges och resultatet begärs i fallande ordning, krävs fältet end_time.
gränserna INT64 Det maximala antalet händelser som ska tas med på en sida med händelser. Standardvärdet är 50 och det högsta tillåtna värdet är 500.

Svars struktur

Fältnamn Typ Beskrivning
händelser En matris med ClusterEvent Den här listan över matchande händelser.
next_page Begär struktur De parametrar som krävs för att hämta nästa sida med händelser. Utelämnas om det inte finns några fler händelser att läsa.
total_count INT64 Det totala antalet händelser som filtrerats efter start_time, end_time och event_types.

Data strukturer

I det här avsnittet:

Autoskala

Intervall som definierar det minsta och högsta antalet kluster arbetare.

Fältnamn Typ Beskrivning
min_workers INT32 Det minsta antalet arbetare som klustret kan skalas ned när det används. Det är också det första antalet anställda som klustret kommer att ha efter att ha skapat.
max_workers INT32 Det maximala antalet arbetare som klustret kan skalas upp vid överbelastning. max_workers måste vara strikt större än min_workers.

ClusterInfo

Metadata om ett kluster.

Fältnamn Typ Beskrivning
num_workers eller autoskalning INT32 ELLER Autoskala Om num_workers, antalet arbetsnoder som det här klustret ska ha. Ett kluster har en spark-drivrutin och num_workers körningar för totalt num_workers + 1 Spark-noder.

Obs: När du läser egenskaperna för ett kluster visar det här fältet det önskade antalet arbetare i stället för det faktiska antalet arbetare. Om ett kluster till exempel ändras till mellan 5 och 10 arbetare kommer det här fältet omedelbart att uppdateras för att avspegla mål storleken på 10 arbetare, medan de anställda som anges i executors gradvis ökar från 5 till 10 eftersom de nya noderna är etablerade.

Om autoskalning krävs parametrar för att automatiskt skala upp och ned kluster baserat på belastning.
cluster_id STRING Kanoniskt ID för klustret. Detta ID behålls när klustret startas om och ändras, medan varje nytt kluster har ett globalt unikt ID.
creator_user_name STRING Användar namn för skapare. Fältet tas inte med i svaret om användaren redan har tagits bort.
drivrutinsspecifika SparkNode Noden där Spark-drivrutinen finns. Driver-noden innehåller Spark-hanteraren och det Databricks-program som hanterar en spark-REPLs per dator.
körare En matris med SparkNode Noder där Spark-körningarna finns.
spark_context_id INT64 En kanonisk SparkContext-identifierare. Det här värdet ändras när Spark-drivrutinen startas om. Paret (cluster_id, spark_context_id) är en globalt unik identifierare för alla Spark-kontexter.
jdbc_port INT32 Den port som Spark JDBC-servern lyssnar på i noden driv rutin. Ingen tjänst kommer att lyssna på den här porten i utförar-noder.
cluster_name STRING Kluster namn begärt av användaren. Detta behöver inte vara unikt. Om detta inte anges när klustret skapas är kluster namnet en tom sträng.
spark_version STRING Körnings versionen av klustret. Du kan hämta en lista över tillgängliga körnings versioner med API-anrop för körnings versioner .
spark_conf SparkConfPair Ett objekt som innehåller en uppsättning valfria, användardefinierade konfigurations nyckel/värde-par för Spark-konfiguration. Du kan också skicka en sträng med extra JVM-alternativ till driv rutinen och körningarna via
spark.driver.extraJavaOptions``spark.executor.extraJavaOptionsrespektive.

I exempel Spark ger:
{"spark.speculation": true, "spark.streaming.ui.retainedBatches": 5} eller
{"spark.driver.extraJavaOptions": "-verbose:gc -XX:+PrintGCDetails"}
node_type_id STRING Det här fältet kodas med hjälp av ett enda värde och resurserna som är tillgängliga för var och en av Spark-noderna i det här klustret. Till exempel kan Spark-noderna tillhandahållas och optimeras för minnes-eller beräknings intensiva arbets belastningar. En lista över tillgängliga nodtyper kan hämtas med hjälp av list Node types API-anrop.
driver_node_type_id STRING Nodtypen för Spark-drivrutinen. Det här fältet är valfritt. Om alternativet inte anges, anges driv Rutinens nodtyp som samma värde som node_type_id definieras ovan.
cluster_log_conf ClusterLogConf Konfigurationen för att leverera Spark-loggar till ett långsiktigt lagrings mål. Det går bara att ange ett mål för ett kluster. Om conf anges skickas loggarna till målet var
5 mins. Destinationen för driv rutins loggar är <destination>/<cluster-ID>/driver , medan målet för utförar-loggarna är <destination>/<cluster-ID>/executor .
init_scripts En matris med InitScriptInfo Konfigurationen för att lagra init-skript. Du kan ange valfritt antal destinationer. Skripten körs sekventiellt i den angivna ordningen. Om cluster_log_conf har angetts skickas initierings skript loggar till
<destination>/<cluster-ID>/init_scripts.
docker_image DockerImage Docker-avbildning för en anpassad behållare.
spark_env_vars SparkEnvPair Ett objekt som innehåller en uppsättning valfria, användardefinierade miljövariabel nyckel/värde-par. Nyckel/värde-par i formuläret (X, Y) exporteras som det är (det vill säga
export X='Y') när du startar driv rutinen och arbets tagarna.

Om du vill ange ytterligare en uppsättning SPARK_DAEMON_JAVA_OPTS rekommenderar vi att du lägger till dem i $SPARK_DAEMON_JAVA_OPTS som du ser i följande exempel. Detta säkerställer att alla standarddatabricks hanterade miljövariabler också ingår.

Exempel på Spark-miljövariabler:
{"SPARK_WORKER_MEMORY": "28000m", "SPARK_LOCAL_DIRS": "/local_disk0"} eller
{"SPARK_DAEMON_JAVA_OPTS": "$SPARK_DAEMON_JAVA_OPTS -Dspark.shuffle.service.enabled=true"}
autotermination_minutes INT32 Avslutar automatiskt klustret när det är inaktivt under den här tiden på några minuter. Om det inte har angetts kommer det här klustret inte att avslutas automatiskt. Om det anges måste tröskelvärdet vara mellan 10 och 10000 minuter. Du kan också ange värdet 0 om du vill inaktivera automatisk avslutning.
enable_elastic_disk BOOL Automatisk skalning av lokal lagring: när det är aktiverat kommer det här klustret dynamiskt att förvärva ytterligare disk utrymme när dess Spark-arbetsbelastningar börjar få ont om disk utrymme. Mer information finns i automatisk skalning av lokalt lagrings utrymme .
instance_pool_id STRING Det valfria ID: t för den instans som klustret tillhör. Mer information finns i pooler .
state ClusterState Klustrets tillstånd.
state_message STRING Ett meddelande som är kopplat till den senaste tillstånds över gången (till exempel orsaken till att klustret angav ett TERMINATED tillstånd).
start_time INT64 Tid (i epoker i millisekunder) när begäran om att skapa kluster togs emot (när klustret angav ett PENDING tillstånd).
terminated_time INT64 Tid (i epoker i millisekunder) när klustret avslutades, om tillämpligt.
last_state_loss_time INT64 Tid när kluster driv rutinen senast förlorade sitt tillstånd (på grund av en omstart eller driv rutins fel).
last_activity_time INT64 Tid (i epoker i millisekunder) när klustret senast var aktivt. Ett kluster är aktivt om det finns minst ett kommando som inte har avslut ATS i klustret. Det här fältet är tillgängligt när klustret har nått ett RUNNING tillstånd. Uppdateringar av det här fältet görs med bästa möjliga försök. Vissa versioner av Spark stöder inte rapportering av kluster aktivitet. Se automatisk avslutning för mer information.
cluster_memory_mb INT64 Total mängd kluster minne, i megabyte.
cluster_cores FLOAT Antal processor kärnor som är tillgängliga för det här klustret. Detta kan vara bråkat eftersom vissa nodtyper har kon figurer ATS för att dela kärnor mellan Spark-noder på samma instans.
default_tags ClusterTag Ett objekt som innehåller en uppsättning taggar som läggs till av Azure Databricks oavsett custom_tags, inklusive:

* Leverantör: Databricks
* Skapare:
* Kluster namn: <namn-för-kluster>
* ClusterId: <-ID-för-kluster>
* Namn: på jobb kluster:

* RunName: <namn på jobb>
* JobId: <-ID för jobb>
cluster_log_status LogSyncStatus Leverans status för kluster logg.
termination_reason TerminationReason Information om varför klustret avslutades. Det här fältet visas bara när klustret är i ett- TERMINATING eller- TERMINATED tillstånd.

ClusterEvent

Kluster händelse information.

Fältnamn Typ Beskrivning
cluster_id STRING Kanoniskt ID för klustret. Det här fältet är obligatoriskt.
timestamp INT64 Tidsstämpeln när händelsen inträffade, lagras som antalet millisekunder sedan UNIX-epoken. Tilldelas av tids linje tjänsten.
typ ClusterEventType Händelse typ. Det här fältet är obligatoriskt.
information EventDetails Händelse informationen. Det här fältet är obligatoriskt.

ClusterEventType

Typ av kluster händelse.

Händelsetyp Beskrivning
SKAPA Anger att klustret skapas.
DID_NOT_EXPAND_DISK Anger att disken har ont om utrymme, men om diskarna läggs till i den maximala kapaciteten.
EXPANDED_DISK Anger att disken har ont om utrymme och diskarna expanderades.
FAILED_TO_EXPAND_DISK Anger att disken har ont om utrymme och det inte gick att expandera disk utrymmet.
INIT_SCRIPTS_STARTING Anger att initierings skriptet för kluster omfång har startats.
INIT_SCRIPTS_FINISHED Anger att initierings skriptet för kluster omfånget har avslut ATS.
LEDS Anger att klustret startas.
STARTAR om Anger att klustret startas.
AVSLUTANDE Anger att klustret avslutas.
ÄNDRA Anger att klustret har redigerats.
KÖR Anger att klustret har skapats. Inkluderar antalet noder i klustret och en fel orsak om det inte gick att hämta några noder.
STORLEKS ändring Indikerar en ändring i klustrets mål storlek (utvidgad eller downsize).
UPSIZE_COMPLETED Anger att noder har lagts till i klustret. Inkluderar antalet noder i klustret och en fel orsak om det inte gick att hämta några noder.
NODES_LOST Anger att vissa noder förlorades från klustret.
DRIVER_HEALTHY Anger att driv rutinen är felfri och att klustret är klart att användas.
DRIVER_UNAVAILABLE Anger att driv rutinen inte är tillgänglig.
SPARK_EXCEPTION Anger att ett Spark-undantag utlöstes från driv rutinen.
DRIVER_NOT_RESPONDING Anger att driv rutinen är igång men inte svarar, troligen på grund av GC.
DBFS_DOWN Anger att driv rutinen är upp men DBFS är nere.
METASTORE_DOWN Anger att driv rutinen är igång, men metaarkiv är nere.
NODE_BLACKLISTED Anger att en nod inte tillåts av Spark.
ENSA Anger att klustret har fästs.
EJ fästa Anger att klustret inte har fästs.

EventDetails

Information om en kluster händelse.

Fältnamn Typ Beskrivning
current_num_workers INT32 Antalet noder i klustret.
target_num_workers INT32 Mål antalet noder i klustret.
previous_attributes ClusterAttributes Attributen för klustret innan ett kluster redigerades.
dokumentattribut ClusterAttributes * För skapade kluster, attribut för klustret.
* För redigerade kluster, de nya attributen för klustret.
previous_cluster_size ClusterSize Klustrets storlek innan en ändring eller storlek ändras.
cluster_size ClusterSize Kluster storleken som har angetts i Skapa eller redigera kluster.
Orsak ResizeCause Orsaken till en ändring i mål storleken.
orsak TerminationReason En avslutnings orsak:

* Vid en TERMINATED händelse, orsaken till uppsägningen.
* På en RESIZE_COMPLETE händelse anger orsaken till att vi inte kunde hämta några noder.
användare STRING Användaren som orsakade händelsen. (Tomt om det utfördes av Azure Databricks.)

ClusterAttributes

En gemensam uppsättning attribut som anges när klustret skapas. Attributen kan inte ändras över ett klusters livs längd.

Fältnamn Typ Beskrivning
cluster_name STRING Kluster namn begärt av användaren. Detta behöver inte vara unikt. Om detta inte anges när klustret skapas är kluster namnet en tom sträng.
spark_version STRING Körnings versionen av klustret, till exempel "5.0. x-Scala 2.11". Du kan hämta en lista över tillgängliga körnings versioner med API-anrop för körnings versioner .
spark_conf SparkConfPair Ett objekt som innehåller en uppsättning valfria, användardefinierade konfigurations nyckel/värde-par för Spark-konfiguration. Du kan också skicka en sträng med extra JVM-alternativ till driv rutinen och körningarna via
spark.driver.extraJavaOptions``spark.executor.extraJavaOptionsrespektive.

I exempel Spark ger:
{"spark.speculation": true, "spark.streaming.ui.retainedBatches": 5} eller
{"spark.driver.extraJavaOptions": "-verbose:gc -XX:+PrintGCDetails"}
node_type_id STRING Det här fältet kodas med hjälp av ett enda värde och resurserna som är tillgängliga för var och en av Spark-noderna i det här klustret. Till exempel kan Spark-noderna tillhandahållas och optimeras för minnes-eller beräknings intensiva arbets belastningar som en lista över tillgängliga nodtyper kan hämtas med hjälp av list Node types API-anrop.
driver_node_type_id STRING Nodtypen för Spark-drivrutinen. Det här fältet är valfritt. Om alternativet inte anges, anges driv Rutinens nodtyp som samma värde som node_type_id definieras ovan.
ssh_public_keys En matris med STRING Innehåll för den offentliga SSH-nyckeln som ska läggas till i varje spark-nod i klustret. Motsvarande privata nycklar kan användas för att logga in med användar namnet ubuntu på porten 2200 . Upp till 10 nycklar kan anges.
custom_tags ClusterTag Ett objekt som innehåller en uppsättning taggar för kluster resurser. Databricks Taggar alla kluster resurser med dessa taggar utöver default_tags.

Obs:

* Taggar stöds inte på äldre nodtyper, till exempel Compute-optimerad och minnesoptimerade
* Databricks tillåter högst 45 anpassade taggar
cluster_log_conf ClusterLogConf Konfigurationen för att leverera Spark-loggar till ett långsiktigt lagrings mål. Det går bara att ange ett mål för ett kluster. Om conf anges skickas loggarna till målet var
5 mins. Destinationen för driv rutins loggar är <destination>/<cluster-ID>/driver , medan målet för utförar-loggarna är <destination>/<cluster-ID>/executor .
init_scripts En matris med InitScriptInfo Konfigurationen för att lagra init-skript. Du kan ange valfritt antal destinationer. Skripten körs sekventiellt i den angivna ordningen. Om cluster_log_conf har angetts skickas initierings skript loggar till
<destination>/<cluster-ID>/init_scripts.
docker_image DockerImage Docker-avbildning för en anpassad behållare.
spark_env_vars SparkEnvPair Ett objekt som innehåller en uppsättning valfria, användardefinierade miljövariabel nyckel/värde-par. Nyckel/värde-par i formuläret (X, Y) exporteras som det är (det vill säga
export X='Y') när du startar driv rutinen och arbets tagarna.

För att kunna ange ytterligare en uppsättning SPARK_DAEMON_JAVA_OPTS rekommenderar vi att du lägger till dem i $SPARK_DAEMON_JAVA_OPTS som visas i följande exempel. Detta säkerställer att alla standarddatabricks hanterade miljövariabler också ingår.

Exempel på Spark-miljövariabler:
{"SPARK_WORKER_MEMORY": "28000m", "SPARK_LOCAL_DIRS": "/local_disk0"} eller
{"SPARK_DAEMON_JAVA_OPTS": "$SPARK_DAEMON_JAVA_OPTS -Dspark.shuffle.service.enabled=true"}
autotermination_minutes INT32 Avslutar automatiskt klustret när det är inaktivt under den här tiden på några minuter. Om det inte har angetts kommer det här klustret inte att avslutas automatiskt. Om det anges måste tröskelvärdet vara mellan 10 och 10000 minuter. Du kan också ange värdet 0 om du vill inaktivera automatisk avslutning.
enable_elastic_disk BOOL Automatisk skalning av lokal lagring: när det är aktiverat kommer det här klustret dynamiskt att förvärva ytterligare disk utrymme när dess Spark-arbetsbelastningar börjar få ont om disk utrymme. Mer information finns i automatisk skalning av lokalt lagrings utrymme .
instance_pool_id STRING Det valfria ID: t för den instans som klustret tillhör. Mer information finns i pooler .
cluster_source ClusterSource Bestämmer om klustret har skapats av en användare med hjälp av användar gränssnittet, som skapats av Databricks-jobb Scheduler eller via en API-begäran.
policy_id STRING Ett kluster princip -ID.

ClusterSize

Kluster storleks specifikation.

Fältnamn Typ Beskrivning
num_workers eller autoskalning INT32 ELLER Autoskala Om num_workers, antalet arbetsnoder som det här klustret ska ha. Ett kluster har en spark-drivrutin och num_workers körningar för totalt num_workers + 1 Spark-noder.

När du läser egenskaperna för ett kluster visar det här fältet det önskade antalet arbetare i stället för det faktiska antalet arbetare. Om ett kluster till exempel ändras till mellan 5 och 10 arbetare, uppdateras det här fältet för att avspegla mål storleken på 10 arbetare, medan de anställda som anges i körningar gradvis ökar från 5 till 10 när de nya noderna är etablerade.

Om autoskalning krävs parametrar för att automatiskt skala upp och ned kluster baserat på belastning.

ListOrder

Enum för allmän ordning för listbaserade frågor.

Beställning Beskrivning
DESC Fallande ordning.
ASC Stigande ordning.

ResizeCause

Orsak till varför ett kluster ändrades storlek.

Orsak Beskrivning
AUTOMATISK skalning Storleken ändrades automatiskt baserat på belastningen.
USER_REQUEST Användaren begärde en ny storlek.
ÅTERSTÄLLNING I den här övervakaren återställs storleken på klustret när en nod bröts.

ClusterLogConf

Sökväg till kluster loggen.

Fältnamn Typ Beskrivning
dBFS DbfsStorageInfo DBFS plats för kluster loggen. Destination måste anges. Exempel:
{ "dbfs" : { "destination" : "dbfs:/home/cluster_log" } }

InitScriptInfo

Sökväg till ett init-skript. Instruktioner om hur du använder init-skript med Databricks Container Servicesfinns i använda ett init-skript.

Anteckning

Fil lagrings typen är bara tillgänglig för kluster som har kon figurer ATS med Databricks Container Services.

Fältnamn Typ Beskrivning
dBFS eller-fil DbfsStorageInfo

FileStorageInfo
DBFS plats för init-skript. Destination måste anges. Exempel:
{ "dbfs" : { "destination" : "dbfs:/home/init_script" } }

Fil Sök väg för init-skript. Destination måste anges. Exempel:
{ "file" : { "destination" : "file:/my/local/file.sh" } }

ClusterTag

Kluster tag gen definition.

Typ Beskrivning
STRING Tangenten för taggen. Nyckeln måste:

* Måste vara mellan 1 och 512 tecken
* Innehåller inte några tecken <>%*&+?\\/
* Börjar inte med azure , microsoft eller windows
STRING Taggens värde. Värdets längd måste vara mindre än eller lika med 256 UTF-8 tecken.

DbfsStorageInfo

DBFS lagrings information.

Fältnamn Typ Beskrivning
mål STRING DBFS-mål. Exempel: dbfs:/my/path

FileStorageInfo

Fil lagrings information.

Anteckning

Den här plats typen är bara tillgänglig för kluster som har kon figurer ATS med Databricks Container Services.

Fältnamn Typ Beskrivning
mål STRING Fil mål. Exempel: file:/my/file.sh

DockerImage

Anslutnings information för Docker-avbildning.

Fält Typ Beskrivning
url sträng URL för Docker-avbildningen.
basic_auth DockerBasicAuth Grundläggande autentiseringsinformation för Docker-lagringsplatsen.

DockerBasicAuth

Information om grundläggande autentiseringsinformation för Docker-lagringsplatsen.

Fält Beskrivning
användarnamn Användar namn för Docker-lagringsplatsen.
password Lösen ord för Docker-lagringsplatsen.

LogSyncStatus

Logg leverans status.

Fältnamn Typ Beskrivning
last_attempted INT64 Tidsstämpel för senaste försöket. Om det senaste försöket Miss lyckas innehåller last_exception undantaget i det senaste försöket.
last_exception STRING Det inträffade ett undantags fel i det senaste försöket, det skulle vara null (utelämnat i svaret) om det inte finns något undantag i senaste försök.

NodeType

Beskrivning av Spark-nodtypen, inklusive båda dimensionerna för noden och den instans typ som den kommer att vara värd för.

Fältnamn Typ Beskrivning
node_type_id STRING Unik identifierare för den här nodtypen. Det här fältet är obligatoriskt.
memory_mb INT32 Tillgängligt minne (i MB) för den här nodtypen. Det här fältet är obligatoriskt.
num_cores FLOAT Antalet processor kärnor som är tillgängliga för den här nodtypen. Detta kan vara bråktal om antalet kärnor på en dator instans inte är delbar med antalet Spark-noder på den datorn. Det här fältet är obligatoriskt.
description STRING En sträng beskrivning som är associerad med den här nodtypen. Det här fältet är obligatoriskt.
instance_type_id STRING En identifierare för den typ av maskin vara som den här noden kör på. Det här fältet är obligatoriskt.
is_deprecated BOOL Om nodtypen är föråldrad. Icke-föråldrade nodtyper ger bättre prestanda.
node_info ClusterCloudProviderNodeInfo Information om nodtypen som rapporteras av moln leverantören.

ClusterCloudProviderNodeInfo

Information om en instans som tillhandahålls av en moln leverantör.

Fältnamn Typ Beskrivning
status ClusterCloudProviderNodeStatus Status som rapporteras av moln leverantören.
available_core_quota INT32 Tillgänglig processor kärn kvot.
total_core_quota INT32 Total processor kärn kvot.

ClusterCloudProviderNodeStatus

Status för en instans som tillhandahålls av en moln leverantör.

Status Beskrivning
NotEnabledOnSubscription Nodtypen är inte tillgänglig för prenumerationen.
NotAvailableInRegion Nodtypen är inte tillgänglig i regionen.

ParameterPair

Parameter som ger ytterligare information om varför ett kluster avbröts.

Typ Beskrivning
TerminationParameter Typ av avslutnings information.
STRING Avslutnings informationen.

SparkConfPair

Konfigurations nyckel/värde-par för Spark.

Typ Beskrivning
STRING Ett konfigurations egenskaps namn.
STRING Konfigurationens egenskaps värde.

SparkEnvPair

Spark miljö variabel nyckel/värde-par.

Viktigt

När du anger miljövariabler i ett jobb kluster accepterar fälten i den här data strukturen endast latinska tecken (ASCII-teckenuppsättning). Om icke-ASCII-tecken används returneras ett fel. Exempel på ogiltiga, icke-ASCII-tecken är kinesiska, japanska kanji och emojis.

Typ Beskrivning
STRING Ett miljö variabel namn.
STRING Miljövariabelns värde.

SparkNode

Spark-drivrutin eller utförar-konfiguration.

Fältnamn Typ Beskrivning
private_ip STRING Privat IP-adress (vanligt vis en 10. x. x-adress) för Spark-noden. Detta skiljer sig från värd instansens privata IP-adress.
public_dns STRING Den här nodens offentliga DNS-adress. Den här adressen kan användas för att få åtkomst till Spark JDBC-servern på noden driv rutin.
node_id STRING Globalt unik identifierare för den här noden.
instance_id STRING Globalt unik identifierare för värd instansen från moln leverantören.
start_timestamp INT64 Tidsstämpeln (i millisekunder) när Spark-noden startas.
host_private_ip STRING Värd instansens privata IP-adress.

SparkVersion

Databricks Runtime versionen av klustret.

Fältnamn Typ Beskrivning
key STRING Databricks runtime versions nyckel, till exempel 7.3.x-scala2.12 . Värdet som ska anges som spark_version när du skapar ett nytt kluster. Den exakta körnings versionen kan ändras över tid för en "wildcard"-version (dvs. 7.3.x-scala2.12 är en "wildcard"-version) med mindre fel korrigeringar.
name STRING Ett beskrivande namn för körnings versionen, till exempel "Databricks Runtime 7,3 LTS".

TerminationReason

Orsak till varför ett kluster avslutades.

Fältnamn Typ Beskrivning
kod TerminationCode Status kod som anger varför ett kluster avslutades.
typ TerminationType Orsak till varför ett kluster avbröts.
parametrar ParameterPair Objekt som innehåller en uppsättning parametrar som ger information om varför ett kluster avslutades.

PoolClusterTerminationCode

Status kod som anger varför klustret avslutades på grund av ett allokeringsfel.

Kod Beskrivning
INSTANCE_POOL_MAX_CAPACITY_FAILURE Poolens maximala kapacitet har nåtts.
INSTANCE_POOL_NOT_FOUND_FAILURE Poolen som anges av klustret är inte längre aktiv eller finns inte.

ClusterSource

Tjänst som skapade klustret.

Tjänst Beskrivning
UI Kluster som skapats via användar gränssnittet.
UPPGIFT Kluster som skapats av Databricks Job Scheduler.
API Kluster som skapats via ett API-anrop.

ClusterState

Tillstånd för ett kluster. Över gången för tillåtna tillstånd är följande:

  • PENDING -> RUNNING
  • PENDING -> TERMINATING
  • RUNNING -> RESIZING
  • RUNNING -> RESTARTING
  • RUNNING -> TERMINATING
  • RESTARTING -> RUNNING
  • RESTARTING -> TERMINATING
  • RESIZING -> RUNNING
  • RESIZING -> TERMINATING
  • TERMINATING -> TERMINATED
Stat Beskrivning
PENDING Anger att ett kluster håller på att skapas.
RUNNING Anger att ett kluster har startats och är redo att användas.
RESTARTING Anger att ett kluster håller på att startas om.
RESIZING Anger att ett kluster håller på att lägga till eller ta bort noder.
TERMINATING Indikerar att ett kluster håller på att förstöras.
TERMINATED Indikerar att ett kluster har förstörts.
ERROR Det här läget används inte längre. Den användes för att ange ett kluster som inte kunde skapas.
TERMINATING och TERMINATED används i stället.
UNKNOWN Indikerar att ett kluster är i ett okänt tillstånd. Ett kluster ska aldrig vara i det här läget.

TerminationCode

Status kod som anger varför klustret avslutades.

Kod Beskrivning
USER_REQUEST En användare avslutade klustret direkt. Parametrar ska innehålla ett username fält som anger den angivna användaren som avslutade klustret.
JOB_FINISHED Klustret startades av ett jobb och avslutades när jobbet slutfördes.
INAKTIVITET Klustret avslutades eftersom det var inaktivt.
CLOUD_PROVIDER_SHUTDOWN Instansen som värd för Spark-drivrutinen avslutades av moln leverantören.
COMMUNICATION_LOST Azure Databricks förlorad anslutning till tjänster på driv rutins instansen. Detta kan till exempel inträffa när problem uppstår i moln nätverkets infrastruktur, eller när själva instansen blir ohälsosam.
CLOUD_PROVIDER_LAUNCH_FAILURE Azure Databricks påträffade ett fel när en moln leverantör begärde instanser att starta kluster.
SPARK_STARTUP_FAILURE Det gick inte att initiera klustret. Möjliga orsaker kan vara att det inte går att skapa miljön för Spark eller problem som startar Spark-huvudprocessen och arbets processerna.
INVALID_ARGUMENT Det går inte att starta klustret eftersom användaren angav ett ogiltigt argument. Användaren kan till exempel ange en ogiltig körnings version för klustret.
UNEXPECTED_LAUNCH_FAILURE När det här klustret startades gick det inte att slutföra viktiga konfigurations steg för Azure Databricks och avsluta klustret.
INTERNAL_ERROR Azure Databricks påträffade ett oväntat fel som tvingade det aktiva klustret att avslutas. Kontakta Azure Databricks support om du vill ha mer information.
SPARK_ERROR Det gick inte att starta Spark-drivrutinen. Möjliga orsaker kan vara inkompatibla bibliotek och initierings skript som har skadat Spark-behållaren.
METASTORE_COMPONENT_UNHEALTHY Det gick inte att starta klustret eftersom det inte gick att nå det externa metaarkiv. Se fel sökning.
DBFS_COMPONENT_UNHEALTHY Det gick inte att starta klustret eftersom DBFS (Databricks File System) inte kunde nås.
AZURE_RESOURCE_PROVIDER_THROTTLING Azure Databricks uppnått gränsen för Azure Resource Provider-begäran. Mer specifikt får API-begäran frekvens till den specifika resurs typen (beräkning, nätverk osv.) inte överskrida gränsen. Försök igen kan hjälpa dig att lösa problemet. Mer information finns i https://docs.microsoft.com/azure/virtual-machines/troubleshooting/troubleshooting-throttling-errors .
AZURE_RESOURCE_MANAGER_THROTTLING Azure Databricks uppnått gränsen för Azure Resource Manager begäran som gör att Azure SDK inte kan utfärda någon Läs-eller skrivbegäran till Azure Resource Manager. Gränsen för förfrågningar tillämpas på varje prenumeration varje timma. Försök igen efter en timme eller ändra till en mindre kluster storlek kan hjälpa dig att lösa problemet. Mer information finns i https://docs.microsoft.com/azure/azure-resource-manager/resource-manager-request-limits .
NETWORK_CONFIGURATION_FAILURE Klustret avslutades på grund av ett fel i nätverks konfigurationen. En arbets yta med VNet-inmatning hade till exempel felaktiga DNS-inställningar som blockerade åtkomst till arbetarnas artefakter.
DRIVER_UNREACHABLE Azure Databricks har inte åtkomst till Spark-drivrutinen eftersom den inte kunde nås.
DRIVER_UNRESPONSIVE Azure Databricks kunde inte komma åt Spark-drivrutinen eftersom den inte svarade.
INSTANCE_UNREACHABLE Azure Databricks kunde inte komma åt instanser för att starta klustret. Detta kan vara ett tillfälligt nätverks problem. Om problemet kvarstår indikerar detta vanligt vis en felaktig nätverks miljö.
CONTAINER_LAUNCH_FAILURE Azure Databricks gick inte att starta behållare på arbetsnoder för klustret. Se till att din administratör kontrollerar nätverks konfigurationen.
INSTANCE_POOL_CLUSTER_FAILURE Pool-fel för kluster som har säkerhetskopierats. Mer information finns i pooler .
REQUEST_REJECTED Azure Databricks kan inte hantera begäran just nu. Försök igen senare och kontakta Azure Databricks om problemet kvarstår.
INIT_SCRIPT_FAILURE Azure Databricks kan inte läsa in och köra ett kluster med initierings skript på ett av klustrets noder, eller så avslutas init-skriptet med en slutkod som inte är noll. Referera till init-skript loggar.
TRIAL_EXPIRED Den Azure Databricks utvärderings prenumerationen har gått ut.

TerminationType

Orsak till varför klustret avslutades.

Typ Beskrivning
RESULTATET Avslutningen har slutförts.
CLIENT_ERROR Icke-återförsöksbar. Klienten måste åtgärda parametrarna innan de försöker skapa klustret igen.
SERVICE_FAULT Problem med Azure Databricks tjänsten. Klienten kan försöka igen.
CLOUD_FAILURE Problem med moln leverantörs infrastruktur. Klienten kan försöka igen när det underliggande problemet har lösts.

TerminationParameter

Nyckel som ger ytterligare information om varför ett kluster avbröts.

Nyckel Beskrivning
användarnamn Användar namnet för den användare som avslutade klustret.
databricks_error_message Ytterligare kontext som kan förklara orsaken till klustrets upphör Ande.
inactivity_duration_min Ett inaktivt kluster stängdes av efter inaktivitet under denna varaktighet.
instance_id ID: t för den instans som var värd för Spark-drivrutinen.
azure_error_code Den tillhandahållna felkoden för Azure som beskriver varför det inte gick att tillhandahålla klusternoder. För referens, se: https://docs.microsoft.com/azure/virtual-machines/windows/error-messages .
azure_error_message Mänskligt läsbar kontext för olika typer av problem från Azure. Det här fältet är ostrukturerat och det exakta formatet kan komma att ändras.
instance_pool_id ID för den instans som klustret använder.
instance_pool_error_code Felkoden för kluster fel som är speciella för en pool.