Kluster-API
Med kluster-API: et kan du skapa, starta, redigera, Visa, avsluta och ta bort kluster. Den högsta tillåtna storleken för en begäran till kluster-API: n är 10 MB.
Metoder för kluster livs cykeln kräver ett kluster-ID som returneras från create. Om du vill hämta en lista över kluster, anropa listan.
Azure Databricks mappar instans typer för klusternoder för att beräkna enheter som kallas DBU. På sidan med pris information för instans typ finns en lista över de instans typer som stöds och deras motsvarande DBU. Information om instans leverantörer finns i specifikationer och priser för Azure instance Type.
Azure Databricks har alltid ett års utfasnings meddelande innan det upphör ande stöd för en instans typ.
Viktigt
För att få åtkomst till Databricks REST API:er måste du autentisera.
Skapa
Slutpunkt | HTTP-metod |
---|---|
2.0/clusters/create |
POST |
Skapa ett nytt Apache Spark-kluster. Den här metoden hämtar nya instanser från moln leverantören om det behövs. Den här metoden är asynkron. returnerade cluster_id
kan användas för att avsöka kluster tillstånd. När den här metoden returneras är klustret i ett PENDING
tillstånd.
Klustret kan användas när det går in i ett RUNNING
tillstånd. Se ClusterState.
Anteckning
Azure Databricks kanske inte kan förvärva några av de begärda noderna, på grund av begränsningar i moln leverantören eller tillfälliga nätverks problem. Om det inte går att erhålla tillräckligt många av de begärda noderna, avslutas kluster skapandet med ett informativt fel meddelande.
En exempel förfrågan:
{
"cluster_name": "my-cluster",
"spark_version": "7.3.x-scala2.12",
"node_type_id": "Standard_D3_v2",
"spark_conf": {
"spark.speculation": true
},
"num_workers": 25
}
Här är ett exempel på ett kluster för automatisk skalning. Klustret kommer att starta med 2
noder, minst.
{
"cluster_name": "autoscaling-cluster",
"spark_version": "7.3.x-scala2.12",
"node_type_id": "Standard_D3_v2",
"autoscale" : {
"min_workers": 2,
"max_workers": 50
}
}
Här är ett exempel som inkluderar den princip som ska användas.
{
"num_workers": null,
"autoscale": {
"min_workers": 2,
"max_workers": 8
},
"cluster_name": "my-cluster",
"spark_version": "7.3.x-scala2.12",
"spark_conf": {},
"node_type_id": "Standard_D3_v2",
"custom_tags": {},
"spark_env_vars": {
"PYSPARK_PYTHON": "/databricks/python3/bin/python3"
},
"autotermination_minutes": 120,
"init_scripts": [],
"policy_id": "C65B864F02000008"
}
Skapa ett jobb med hjälp av en princip med API: et
Om du vill skapa ett jobb eller skicka en körning med ett nytt kluster med hjälp av en princip lägger du till policy_id
attributet i förfrågningens new_cluster
specifikation.
{
"run_name": "my spark task",
"new_cluster": {
"spark_version": "7.3.x-scala2.12",
"node_type_id": "Standard_D3_v2",
"num_workers": 10,
"policy_id": "ABCD000000000000"
},
"spark_jar_task": {
"main_class_name": "com.databricks.ComputeModels"
}
}
Begär struktur
Fältnamn | Typ | Beskrivning |
---|---|---|
num_workers eller autoskalning | INT32 ELLER Autoskala |
Om num_workers, antalet arbetsnoder som det här klustret ska ha. Ett kluster har en spark-drivrutin och num_workers körningar för totalt num_workers + 1 Spark-noder. Obs: När du läser egenskaperna för ett kluster visar det här fältet det önskade antalet arbetare i stället för det faktiska antalet arbetare. Om ett kluster till exempel ändras till mellan 5 och 10 arbetare kommer det här fältet omedelbart att uppdateras för att avspegla mål storleken på 10 arbetare, medan de anställda som anges i executors gradvis ökar från 5 till 10 eftersom de nya noderna är etablerade.Om autoskalning krävs parametrar för att automatiskt skala upp och ned kluster baserat på belastning. |
cluster_name | STRING |
Kluster namn begärt av användaren. Detta behöver inte vara unikt. Om detta inte anges när klustret skapas är kluster namnet en tom sträng. |
spark_version | STRING |
Körnings versionen av klustret. Du kan hämta en lista över tillgängliga körnings versioner med API-anrop för körnings versioner . Det här fältet är obligatoriskt. |
spark_conf | SparkConfPair | Ett objekt som innehåller en uppsättning valfria, användardefinierade konfigurations nyckel/värde-par för Spark-konfiguration. Du kan också skicka en sträng med extra JVM-alternativ till driv rutinen och körningarna viaspark.driver.extraJavaOptions``spark.executor.extraJavaOptions respektive.I exempel Spark ger: {"spark.speculation": true, "spark.streaming.ui.retainedBatches": 5} eller{"spark.driver.extraJavaOptions": "-verbose:gc -XX:+PrintGCDetails"} |
node_type_id | STRING |
Det här fältet kodas med hjälp av ett enda värde och resurserna som är tillgängliga för var och en av Spark-noderna i det här klustret. Till exempel kan Spark-noderna tillhandahållas och optimeras för minnes-eller beräknings intensiva arbets belastningar som en lista över tillgängliga nodtyper kan hämtas med hjälp av list Node types API-anrop. Det här fältet är obligatoriskt. |
driver_node_type_id | STRING |
Nodtypen för Spark-drivrutinen. Det här fältet är valfritt. Om alternativet inte anges, anges driv Rutinens nodtyp som samma värde som node_type_id definieras ovan. |
custom_tags | ClusterTag | Ett objekt som innehåller en uppsättning taggar för kluster resurser. Databricks Taggar alla kluster resurser (t. ex. virtuella datorer) med dessa taggar utöver default_tags. Obs: Azure Databricks tillåter högst 43 anpassade taggar. |
cluster_log_conf | ClusterLogConf | Konfigurationen för att leverera Spark-loggar till ett långsiktigt lagrings mål. Det går bara att ange ett mål för ett kluster. Om conf anges skickas loggarna till målet var5 mins . Destinationen för driv rutins loggar är <destination>/<cluster-ID>/driver , medan målet för utförar-loggarna är <destination>/<cluster-ID>/executor . |
init_scripts | En matris med InitScriptInfo | Konfigurationen för att lagra init-skript. Du kan ange valfritt antal skript. Skripten körs sekventiellt i den angivna ordningen. Om cluster_log_conf har angetts skickas initierings skript loggar till<destination>/<cluster-ID>/init_scripts . |
docker_image | DockerImage | Docker-avbildning för en anpassad behållare. |
spark_env_vars | SparkEnvPair | Ett objekt som innehåller en uppsättning valfria, användardefinierade miljövariabel nyckel/värde-par. Nyckel/värde-par i formuläret (X, Y) exporteras som det är (det vill sägaexport X='Y' ) när du startar driv rutinen och arbets tagarna.För att kunna ange ytterligare en uppsättning SPARK_DAEMON_JAVA_OPTS rekommenderar vi att du lägger till dem i $SPARK_DAEMON_JAVA_OPTS som visas i följande exempel. Detta säkerställer att alla standarddatabricks hanterade miljövariabler också ingår.Exempel på Spark-miljövariabler: {"SPARK_WORKER_MEMORY": "28000m", "SPARK_LOCAL_DIRS": "/local_disk0"} eller{"SPARK_DAEMON_JAVA_OPTS": "$SPARK_DAEMON_JAVA_OPTS -Dspark.shuffle.service.enabled=true"} |
autotermination_minutes | INT32 |
Avslutar automatiskt klustret när det är inaktivt under den här tiden på några minuter. Om det inte har angetts kommer det här klustret inte att avslutas automatiskt. Om det anges måste tröskelvärdet vara mellan 10 och 10000 minuter. Du kan också ange värdet 0 om du vill inaktivera automatisk avslutning. |
instance_pool_id | STRING |
Det valfria ID: t för den instans som klustret tillhör. Mer information finns i API för instans pooler . |
idempotency_token | STRING |
En valfri token som kan användas för att garantera idempotens för skapande av kluster. Om det redan finns ett aktivt kluster med den angivna token, kommer begäran inte att skapa ett nytt kluster, men det returnerar det befintliga klustrets ID i stället. Det går inte att kontrol lera om det finns ett kluster med samma token mot avslutade kluster. Om du anger idempotens-token kan du göra ett nytt försök tills begäran lyckas. Azure Databricks garanterar att exakt ett kluster kommer att startas med denna idempotens-token. Denna token får innehålla högst 64 tecken. |
Svars struktur
Fältnamn | Typ | Beskrivning |
---|---|---|
cluster_id | STRING |
Kanoniskt ID för klustret. |
Redigera
Slutpunkt | HTTP-metod |
---|---|
2.0/clusters/edit |
POST |
Redigera konfigurationen av ett kluster för att matcha de angivna attributen och storleken.
Du kan redigera ett kluster om det är i RUNNING
läget eller TERMINATED
.
Om du redigerar ett kluster när det är i ett RUNNING
tillstånd kommer det att startas om så att de nya attributen kan börja gälla. Om du redigerar ett kluster när det är i ett TERMINATED
tillstånd finns det kvar TERMINATED
. Nästa gång den startas med clusters/start
API: t börjar de nya attributen gälla. Ett försök att redigera ett kluster i något annat tillstånd kommer att avvisas med en INVALID_STATE
felkod.
Kluster som skapats av tjänsten Databricks Jobs kan inte redige ras.
En exempel förfrågan:
{
"cluster_id": "1202-211320-brick1",
"num_workers": 10,
"spark_version": "7.3.x-scala2.12",
"node_type_id": "Standard_D3_v2"
}
Begär struktur
Fältnamn | Typ | Beskrivning |
---|---|---|
num_workers eller autoskalning | INT32 ELLER Autoskala |
Om num_workers, antalet arbetsnoder som det här klustret ska ha. Ett kluster har en spark-drivrutin och num_workers körningar för totalt num_workers + 1 Spark-noder. Obs: När du läser egenskaperna för ett kluster visar det här fältet det önskade antalet arbetare i stället för det faktiska antalet arbetare. Om ett kluster till exempel ändras till mellan 5 och 10 arbetare kommer det här fältet omedelbart att uppdateras för att avspegla mål storleken på 10 arbetare, medan de anställda som anges i executors gradvis ökar från 5 till 10 eftersom de nya noderna är etablerade.Om autoskalning krävs parametrar för att automatiskt skala upp och ned kluster baserat på belastning. |
cluster_id | STRING |
Kanoniskt ID för klustret. Det här fältet är obligatoriskt. |
cluster_name | STRING |
Kluster namn begärt av användaren. Detta behöver inte vara unikt. Om detta inte anges när klustret skapas är kluster namnet en tom sträng. |
spark_version | STRING |
Körnings versionen av klustret. Du kan hämta en lista över tillgängliga körnings versioner med API-anrop för körnings versioner . Det här fältet är obligatoriskt. |
spark_conf | SparkConfPair | Ett objekt som innehåller en uppsättning valfria, användardefinierade konfigurations nyckel/värde-par för Spark-konfiguration. Du kan också skicka en sträng med extra JVM-alternativ till driv rutinen och körningarna viaspark.driver.extraJavaOptions``spark.executor.extraJavaOptions respektive.I exempel Spark ger: {"spark.speculation": true, "spark.streaming.ui.retainedBatches": 5} eller{"spark.driver.extraJavaOptions": "-verbose:gc -XX:+PrintGCDetails"} |
node_type_id | STRING |
Det här fältet kodas med hjälp av ett enda värde och resurserna som är tillgängliga för var och en av Spark-noderna i det här klustret. Till exempel kan Spark-noderna tillhandahållas och optimeras för minnes-eller beräknings intensiva arbets belastningar som en lista över tillgängliga nodtyper kan hämtas med hjälp av list Node types API-anrop. Det här fältet är obligatoriskt. |
driver_node_type_id | STRING |
Nodtypen för Spark-drivrutinen. Det här fältet är valfritt. Om alternativet inte anges, anges driv Rutinens nodtyp som samma värde som node_type_id definieras ovan. |
cluster_log_conf | ClusterLogConf | Konfigurationen för att leverera Spark-loggar till ett långsiktigt lagrings mål. Det går bara att ange ett mål för ett kluster. Om conf anges skickas loggarna till målet var5 mins . Destinationen för driv rutins loggar är <destination>/<cluster-ID>/driver , medan målet för utförar-loggarna är <destination>/<cluster-ID>/executor . |
init_scripts | En matris med InitScriptInfo | Konfigurationen för att lagra init-skript. Du kan ange valfritt antal destinationer. Skripten körs sekventiellt i den angivna ordningen. Om cluster_log_conf har angetts skickas initierings skript loggar till<destination>/<cluster-ID>/init_scripts . |
docker_image | DockerImage | Docker-avbildning för en anpassad behållare. |
spark_env_vars | SparkEnvPair | Ett objekt som innehåller en uppsättning valfria, användardefinierade miljövariabel nyckel/värde-par. Nyckel/värde-par i formuläret (X, Y) exporteras som det är (det vill sägaexport X='Y' ) när du startar driv rutinen och arbets tagarna.För att kunna ange ytterligare en uppsättning SPARK_DAEMON_JAVA_OPTS rekommenderar vi att du lägger till dem i $SPARK_DAEMON_JAVA_OPTS som visas i följande exempel. Detta säkerställer att alla standardDatabricks hanterade miljövariabler också ingår.Exempel på Spark-miljövariabler: {"SPARK_WORKER_MEMORY": "28000m", "SPARK_LOCAL_DIRS": "/local_disk0"} eller{"SPARK_DAEMON_JAVA_OPTS": "$SPARK_DAEMON_JAVA_OPTS -Dspark.shuffle.service.enabled=true"} |
autotermination_minutes | INT32 |
Avslutar automatiskt klustret när det är inaktivt under den här tiden på några minuter. Om det inte har angetts kommer det här klustret inte att avslutas automatiskt. Om det anges måste tröskelvärdet vara mellan 10 och 10000 minuter. Du kan också ange värdet 0 om du vill inaktivera automatisk avslutning. |
instance_pool_id | STRING |
Det valfria ID: t för den instans som klustret tillhör. Mer information finns i pooler . |
Starta
Slutpunkt | HTTP-metod |
---|---|
2.0/clusters/start |
POST |
Starta ett avbrutet kluster med det aktuella ID: t. Detta liknar createCluster
, förutom:
- Det avbrutna klustrets ID och attribut bevaras.
- Klustret börjar med den senast angivna kluster storleken. Om det avslutade klustret är ett kluster för automatisk skalning börjar klustret med det minsta antalet noder.
- Om klustret är i ett
RESTARTING
tillstånd400
returneras ett fel. - Det går inte att starta ett kluster som startar för att köra ett jobb.
En exempel förfrågan:
{
"cluster_id": "1202-211320-brick1"
}
Begär struktur
Fältnamn | Typ | Beskrivning |
---|---|---|
cluster_id | STRING |
Klustret som ska startas. Det här fältet är obligatoriskt. |
Starta om
Slutpunkt | HTTP-metod |
---|---|
2.0/clusters/restart |
POST |
Starta om ett kluster med angivet ID. Klustret måste ha RUNNING
statusen.
En exempel förfrågan:
{
"cluster_id": "1202-211320-brick1"
}
Begär struktur
Fältnamn | Typ | Beskrivning |
---|---|---|
cluster_id | STRING |
Klustret som ska startas. Det här fältet är obligatoriskt. |
Ändra storlek
Slutpunkt | HTTP-metod |
---|---|
2.0/clusters/resize |
POST |
Ändra storlek på ett kluster om du vill ha ett önskat antal arbetare. Klustret måste ha RUNNING
statusen.
En exempel förfrågan:
{
"cluster_id": "1202-211320-brick1",
"num_workers": 30
}
Begär struktur
Fältnamn | Typ | Beskrivning |
---|---|---|
num_workers eller autoskalning | INT32 ELLER Autoskala |
Om num_workers, antalet arbetsnoder som det här klustret ska ha. Ett kluster har en spark-drivrutin och num_workers körningar för totalt num_workers + 1 Spark-noder. Obs: När du läser egenskaperna för ett kluster visar det här fältet det önskade antalet arbetare i stället för det faktiska antalet arbetare. Om ett kluster till exempel ändras till mellan 5 och 10 arbetare kommer det här fältet omedelbart att uppdateras för att avspegla mål storleken på 10 arbetare, medan de anställda som anges i executors gradvis ökar från 5 till 10 eftersom de nya noderna är etablerade.Om autoskalning krävs parametrar för att automatiskt skala upp och ned kluster baserat på belastning. |
cluster_id | STRING |
Klustret som ska ändras. Det här fältet är obligatoriskt. |
Ta bort ( avsluta)
Slutpunkt | HTTP-metod |
---|---|
2.0/clusters/delete |
POST |
Avsluta ett kluster med angivet ID. Klustret tas bort asynkront. När avslutningen har slutförts är klustret i ett TERMINATED
tillstånd. Om klustret redan är i ett TERMINATING
-eller TERMINATED
-tillstånd sker ingenting.
30 dagar efter att ett kluster har avslut ATS tas det bort permanent.
En exempel förfrågan:
{
"cluster_id": "1202-211320-brick1"
}
Begär struktur
Fältnamn | Typ | Beskrivning |
---|---|---|
cluster_id | STRING |
Klustret som ska avslutas. Det här fältet är obligatoriskt. |
Permanent borttagning
Slutpunkt | HTTP-metod |
---|---|
2.0/clusters/permanent-delete |
POST |
Ta bort ett kluster permanent. Om klustret körs avbryts det och resurserna tas bort asynkront. Om klustret avslutas tas det omedelbart bort.
Du kan inte utföra några åtgärder, inklusive Hämta klustrets behörigheter, på ett permanent borttaget kluster. Ett permanent borttaget kluster returneras inte längre i kluster listan.
En exempel förfrågan:
{
"cluster_id": "1202-211320-brick1"
}
Begär struktur
Fältnamn | Typ | Beskrivning |
---|---|---|
cluster_id | STRING |
Klustret som ska tas bort permanent. Det här fältet är obligatoriskt. |
Hämta
Slutpunkt | HTTP-metod |
---|---|
2.0/clusters/get |
GET |
Hämta information för ett kluster med angivet ID. Kluster kan beskrivas medan de körs eller upp till 30 dagar efter att de har avslut ATS.
En exempel förfrågan:
/clusters/get?cluster_id=1202-211320-brick1
Begär struktur
Fältnamn | Typ | Beskrivning |
---|---|---|
cluster_id | STRING |
Det kluster som du vill hämta information om. Det här fältet är obligatoriskt. |
Svars struktur
Fältnamn | Typ | Beskrivning |
---|---|---|
num_workers eller autoskalning | INT32 ELLER Autoskala |
Om num_workers, antalet arbetsnoder som det här klustret ska ha. Ett kluster har en spark-drivrutin och num_workers körningar för totalt num_workers + 1 Spark-noder. Obs: När du läser egenskaperna för ett kluster visar det här fältet det önskade antalet arbetare i stället för det faktiska antalet arbetare. Om ett kluster till exempel ändras till mellan 5 och 10 arbetare kommer det här fältet omedelbart att uppdateras för att avspegla mål storleken på 10 arbetare, medan de anställda som anges i executors gradvis ökar från 5 till 10 eftersom de nya noderna är etablerade.Om autoskalning krävs parametrar för att automatiskt skala upp och ned kluster baserat på belastning. |
cluster_id | STRING |
Kanoniskt ID för klustret. Detta ID behålls när klustret startas om och ändras, medan varje nytt kluster har ett globalt unikt ID. |
creator_user_name | STRING |
Användar namn för skapare. Fältet tas inte med i svaret om användaren redan har tagits bort. |
drivrutinsspecifika | SparkNode | Noden där Spark-drivrutinen finns. Driver-noden innehåller Spark-hanteraren och det Databricks-program som hanterar en spark-REPLs per dator. |
körare | En matris med SparkNode | Noder där Spark-körningarna finns. |
spark_context_id | INT64 |
En kanonisk SparkContext-identifierare. Det här värdet ändras när Spark-drivrutinen startas om. Paret (cluster_id, spark_context_id) är en globalt unik identifierare för alla Spark-kontexter. |
jdbc_port | INT32 |
Den port som Spark JDBC-servern lyssnar på i noden driv rutin. Ingen tjänst kommer att lyssna på den här porten i utförar-noder. |
cluster_name | STRING |
Kluster namn begärt av användaren. Detta behöver inte vara unikt. Om detta inte anges när klustret skapas är kluster namnet en tom sträng. |
spark_version | STRING |
Körnings versionen av klustret. Du kan hämta en lista över tillgängliga körnings versioner med API-anrop för körnings versioner . |
spark_conf | SparkConfPair | Ett objekt som innehåller en uppsättning valfria, användardefinierade konfigurations nyckel/värde-par för Spark-konfiguration. Du kan också skicka en sträng med extra JVM-alternativ till driv rutinen och körningarna viaspark.driver.extraJavaOptions``spark.executor.extraJavaOptions respektive.I exempel Spark ger: {"spark.speculation": true, "spark.streaming.ui.retainedBatches": 5} eller{"spark.driver.extraJavaOptions": "-verbose:gc -XX:+PrintGCDetails"} |
node_type_id | STRING |
Det här fältet kodas med hjälp av ett enda värde och resurserna som är tillgängliga för var och en av Spark-noderna i det här klustret. Till exempel kan Spark-noderna tillhandahållas och optimeras för minnes-eller beräknings intensiva arbets belastningar som en lista över tillgängliga nodtyper kan hämtas med hjälp av list Node types API-anrop. Det här fältet är obligatoriskt. |
driver_node_type_id | STRING |
Nodtypen för Spark-drivrutinen. Det här fältet är valfritt. Om alternativet inte anges, anges driv Rutinens nodtyp som samma värde som node_type_id definieras ovan. |
custom_tags | ClusterTag | Ett objekt som innehåller en uppsättning taggar för kluster resurser. Databricks Taggar alla kluster resurser med dessa taggar utöver default_tags. Obs: * Taggar stöds inte på äldre nodtyper, till exempel Compute-optimerad och minnesoptimerade * Databricks tillåter högst 45 anpassade taggar |
cluster_log_conf | ClusterLogConf | Konfigurationen för att leverera Spark-loggar till ett långsiktigt lagrings mål. Det går bara att ange ett mål för ett kluster. Om conf anges skickas loggarna till målet var5 mins . Destinationen för driv rutins loggar är <destination>/<cluster-ID>/driver , medan målet för utförar-loggarna är <destination>/<cluster-ID>/executor . |
init_scripts | En matris med InitScriptInfo | Konfigurationen för att lagra init-skript. Du kan ange valfritt antal destinationer. Skripten körs sekventiellt i den angivna ordningen. Om cluster_log_conf har angetts skickas initierings skript loggar till<destination>/<cluster-ID>/init_scripts . |
docker_image | DockerImage | Docker-avbildning för en anpassad behållare. |
spark_env_vars | SparkEnvPair | Ett objekt som innehåller en uppsättning valfria, användardefinierade miljövariabel nyckel/värde-par. Nyckel/värde-par i formuläret (X, Y) exporteras som det är (det vill sägaexport X='Y' ) när du startar driv rutinen och arbets tagarna.För att kunna ange ytterligare en uppsättning SPARK_DAEMON_JAVA_OPTS rekommenderar vi att du lägger till dem i $SPARK_DAEMON_JAVA_OPTS som visas i följande exempel. Detta säkerställer att alla standardDatabricks hanterade miljövariabler också ingår.Exempel på Spark-miljövariabler: {"SPARK_WORKER_MEMORY": "28000m", "SPARK_LOCAL_DIRS": "/local_disk0"} eller{"SPARK_DAEMON_JAVA_OPTS": "$SPARK_DAEMON_JAVA_OPTS -Dspark.shuffle.service.enabled=true"} |
autotermination_minutes | INT32 |
Avslutar automatiskt klustret när det är inaktivt under den här tiden på några minuter. Om det inte har angetts kommer det här klustret inte att avslutas automatiskt. Om det anges måste tröskelvärdet vara mellan 10 och 10000 minuter. Du kan också ange värdet 0 om du vill inaktivera automatisk avslutning. |
enable_elastic_disk | BOOL |
Automatisk skalning av lokal lagring: när det är aktiverat kommer det här klustret dynamiskt att förvärva ytterligare disk utrymme när dess Spark-arbetsbelastningar börjar få ont om disk utrymme. Mer information finns i automatisk skalning av lokalt lagrings utrymme . |
instance_pool_id | STRING |
Det valfria ID: t för den instans som klustret tillhör. Mer information finns i pooler . |
state | ClusterState | Klustrets tillstånd. |
state_message | STRING |
Ett meddelande som är associerat med den senaste tillstånds över gången (till exempel orsaken till att klustret angav TERMINATED status). |
start_time | INT64 |
Tid (i epoker i millisekunder) när begäran om att skapa kluster togs emot (när klustret angav PENDING status). |
terminated_time | INT64 |
Tid (i epoker i millisekunder) när klustret avslutades, om tillämpligt. |
last_state_loss_time | INT64 |
Tid när kluster driv rutinen senast förlorade sitt tillstånd (på grund av en omstart eller driv rutins fel). |
last_activity_time | INT64 |
Tid (i epoker i millisekunder) när klustret senast var aktivt. Ett kluster är aktivt om det finns minst ett kommando som inte har avslut ATS i klustret. Det här fältet är tillgängligt när klustret har nått sitt RUNNING tillstånd. Uppdateringar av det här fältet görs med bästa möjliga försök. Vissa versioner av Spark stöder inte rapportering av kluster aktivitet. Se automatisk avslutning för mer information. |
cluster_memory_mb | INT64 |
Total mängd kluster minne, i megabyte. |
cluster_cores | FLOAT |
Antal processor kärnor som är tillgängliga för det här klustret. Detta kan vara bråkat eftersom vissa nodtyper har kon figurer ATS för att dela kärnor mellan Spark-noder på samma instans. |
default_tags | ClusterTag | Ett objekt som innehåller en uppsättning taggar som läggs till av Azure Databricks oavsett custom_tags, inklusive: * Leverantör: Databricks * Skapare: * Kluster namn: <namn-för-kluster> * ClusterId: <-ID-för-kluster> * Namn: * RunName: <namn på jobb> * JobId: <-ID för jobb> |
cluster_log_status | LogSyncStatus | Leverans status för kluster logg. |
termination_reason | TerminationReason | Information om varför klustret avslutades. Det här fältet visas bara när klustret är i TERMINATING läget eller TERMINATED . |
Fäst
Anteckning
Du måste vara Azure Databricks administratör för att anropa detta API.
Slutpunkt | HTTP-metod |
---|---|
2.0/clusters/pin |
POST |
Se till att kluster konfigurationen för alla syften behålls även när ett kluster har avslut ATS i mer än 30 dagar. Genom att fästa ser du till att klustret alltid returneras av list -API: et. Att fästa ett kluster som redan har fästs har ingen påverkan.
En exempel förfrågan:
{
"cluster_id": "1202-211320-brick1"
}
Begär struktur
Fältnamn | Typ | Beskrivning |
---|---|---|
cluster_id | STRING |
Klustret som ska fästas. Det här fältet är obligatoriskt. |
Ta bort
Anteckning
Du måste vara Azure Databricks administratör för att anropa detta API.
Slutpunkt | HTTP-metod |
---|---|
2.0/clusters/unpin |
POST |
Tillåter att klustret tas bort från listan som returneras av list -API: et. Att ta bort ett kluster som inte har fästs har ingen påverkan.
En exempel förfrågan:
{
"cluster_id": "1202-211320-brick1"
}
Begär struktur
Fältnamn | Typ | Beskrivning |
---|---|---|
cluster_id | STRING |
Klustret att ta bort. Det här fältet är obligatoriskt. |
Lista
Slutpunkt | HTTP-metod |
---|---|
2.0/clusters/list |
GET |
Returnera information om alla fästa kluster, aktiva kluster, upp till 70 av de senast avslutade kluster i alla syften under de senaste 30 dagarna och upp till 30 av de senast avslutade jobb klustren under de senaste 30 dagarna. Om det t. ex. finns 1 fäst kluster, 4 aktiva kluster, 45 alla kluster för alla syften under de senaste 30 dagarna och 50 avslutade jobb kluster under de senaste 30 dagarna, returnerar detta API det 1 fästa klustret, 4 aktiva kluster, alla 45 avslutade kluster för alla syften och de 30 senast avslutade jobb klustren.
Svars struktur
Fältnamn | Typ | Beskrivning |
---|---|---|
kluster | En matris med ClusterInfo | En lista över kluster. |
Lista Node-typer
Slutpunkt | HTTP-metod |
---|---|
2.0/clusters/list-node-types |
GET |
Returnera en lista över typer av Spark-nodtyper som stöds. De här typerna av noder kan användas för att starta ett kluster.
Svars struktur
Fältnamn | Typ | Beskrivning |
---|---|---|
node_types | En matris med NodeType | Listan över tillgängliga typer av Spark-noder. |
Körnings versioner
Slutpunkt | HTTP-metod |
---|---|
2.0/clusters/spark-versions |
GET |
Returnera listan över tillgängliga körnings versioner. Dessa versioner kan användas för att starta ett kluster.
Svars struktur
Fältnamn | Typ | Beskrivning |
---|---|---|
versioner | En matris med SparkVersion | Alla tillgängliga körnings versioner. |
Händelser
Slutpunkt | HTTP-metod |
---|---|
2.0/clusters/events |
POST |
Hämta en lista över händelser om aktiviteten i ett kluster. Du kan hämta händelser från aktiva kluster (som körs, väntar eller omkonfigureras) och avslutade kluster inom 30 dagar efter den senaste uppsägningen. Detta API är en sid brytning. Om det finns fler händelser att läsa, innehåller svaret alla parametrar som krävs för att begära nästa sida med händelser.
En exempel förfrågan:
{
"cluster_id": "1202-211320-brick1"
}
Ett exempel svar:
{
"events": [{
"cluster_id": "1202-211320-brick1",
"timestamp": 1534371918659,
"type": "TERMINATING",
"details": {
"reason": {
"code": "INACTIVITY",
"parameters": {
"inactivity_duration_min": "120"
}
}
}
}, {
"cluster_id": "1202-211320-brick1",
"timestamp": 1534358289590,
"type": "RUNNING",
"details": {
"current_num_workers": 2,
"target_num_workers": 2
}
}, {
"cluster_id": "1202-211320-brick1",
"timestamp": 1533225298406,
"type": "RESTARTING",
"details": {
"user": "admin"
}
}],
"next_page": {
"cluster_id": "0802-034608-aloe926",
"end_time": 1534371918659,
"offset": 50
},
"total_count": 55
}
Exempel förfrågan om att hämta nästa sida med händelser:
{
"cluster_id": "1202-211320",
"start_time": 1534371918659
}
Begär struktur
Hämta händelser som rör ett enskilt kluster.
Fältnamn | Typ | Beskrivning |
---|---|---|
cluster_id | STRING |
ID för klustret för att hämta händelser om. Det här fältet är obligatoriskt. |
start_time | INT64 |
Start tiden på epoker i millisekunder. Om det är tomt returneras händelser från början av tiden. |
end_time | INT64 |
Slut tiden i epoker i millisekunder. Om det är tomt returneras händelser fram till den aktuella tiden. |
ordningsföljd | ListOrder | Ordning för att lista händelser i; antingen ASC eller DESC . Standardvärdet är DESC . |
event_types | En matris med ClusterEventType | En valfri uppsättning händelse typer att filtrera på. Om detta är tomt returneras alla händelse typer. |
offset | INT64 |
Förskjutningen i resultat uppsättningen. Standardvärdet är 0 (ingen förskjutning). När en förskjutning anges och resultatet begärs i fallande ordning, krävs fältet end_time. |
gränserna | INT64 |
Det maximala antalet händelser som ska tas med på en sida med händelser. Standardvärdet är 50 och det högsta tillåtna värdet är 500. |
Svars struktur
Fältnamn | Typ | Beskrivning |
---|---|---|
händelser | En matris med ClusterEvent | Den här listan över matchande händelser. |
next_page | Begär struktur | De parametrar som krävs för att hämta nästa sida med händelser. Utelämnas om det inte finns några fler händelser att läsa. |
total_count | INT64 |
Det totala antalet händelser som filtrerats efter start_time, end_time och event_types. |
Data strukturer
I det här avsnittet:
- Automatisk skalning
- ClusterInfo
- ClusterEvent
- ClusterEventType
- EventDetails
- ClusterAttributes
- ClusterSize
- ListOrder
- ResizeCause
- ClusterLogConf
- InitScriptInfo
- ClusterTag
- DbfsStorageInfo
- FileStorageInfo
- DockerImage
- DockerBasicAuth
- LogSyncStatus
- Nodtyp
- ClusterCloudProviderNodeInfo
- ClusterCloudProviderNodeStatus
- ParameterPair
- SparkConfPair
- SparkEnvPair
- SparkNode
- SparkVersion
- TerminationReason
- PoolClusterTerminationCode
- ClusterSource
- ClusterState
- TerminationCode
- TerminationType
- TerminationParameter
Autoskala
Intervall som definierar det minsta och högsta antalet kluster arbetare.
Fältnamn | Typ | Beskrivning |
---|---|---|
min_workers | INT32 |
Det minsta antalet arbetare som klustret kan skalas ned när det används. Det är också det första antalet anställda som klustret kommer att ha efter att ha skapat. |
max_workers | INT32 |
Det maximala antalet arbetare som klustret kan skalas upp vid överbelastning. max_workers måste vara strikt större än min_workers. |
ClusterInfo
Metadata om ett kluster.
Fältnamn | Typ | Beskrivning |
---|---|---|
num_workers eller autoskalning | INT32 ELLER Autoskala |
Om num_workers, antalet arbetsnoder som det här klustret ska ha. Ett kluster har en spark-drivrutin och num_workers körningar för totalt num_workers + 1 Spark-noder. Obs: När du läser egenskaperna för ett kluster visar det här fältet det önskade antalet arbetare i stället för det faktiska antalet arbetare. Om ett kluster till exempel ändras till mellan 5 och 10 arbetare kommer det här fältet omedelbart att uppdateras för att avspegla mål storleken på 10 arbetare, medan de anställda som anges i executors gradvis ökar från 5 till 10 eftersom de nya noderna är etablerade.Om autoskalning krävs parametrar för att automatiskt skala upp och ned kluster baserat på belastning. |
cluster_id | STRING |
Kanoniskt ID för klustret. Detta ID behålls när klustret startas om och ändras, medan varje nytt kluster har ett globalt unikt ID. |
creator_user_name | STRING |
Användar namn för skapare. Fältet tas inte med i svaret om användaren redan har tagits bort. |
drivrutinsspecifika | SparkNode | Noden där Spark-drivrutinen finns. Driver-noden innehåller Spark-hanteraren och det Databricks-program som hanterar en spark-REPLs per dator. |
körare | En matris med SparkNode | Noder där Spark-körningarna finns. |
spark_context_id | INT64 |
En kanonisk SparkContext-identifierare. Det här värdet ändras när Spark-drivrutinen startas om. Paret (cluster_id, spark_context_id) är en globalt unik identifierare för alla Spark-kontexter. |
jdbc_port | INT32 |
Den port som Spark JDBC-servern lyssnar på i noden driv rutin. Ingen tjänst kommer att lyssna på den här porten i utförar-noder. |
cluster_name | STRING |
Kluster namn begärt av användaren. Detta behöver inte vara unikt. Om detta inte anges när klustret skapas är kluster namnet en tom sträng. |
spark_version | STRING |
Körnings versionen av klustret. Du kan hämta en lista över tillgängliga körnings versioner med API-anrop för körnings versioner . |
spark_conf | SparkConfPair | Ett objekt som innehåller en uppsättning valfria, användardefinierade konfigurations nyckel/värde-par för Spark-konfiguration. Du kan också skicka en sträng med extra JVM-alternativ till driv rutinen och körningarna viaspark.driver.extraJavaOptions``spark.executor.extraJavaOptions respektive.I exempel Spark ger: {"spark.speculation": true, "spark.streaming.ui.retainedBatches": 5} eller{"spark.driver.extraJavaOptions": "-verbose:gc -XX:+PrintGCDetails"} |
node_type_id | STRING |
Det här fältet kodas med hjälp av ett enda värde och resurserna som är tillgängliga för var och en av Spark-noderna i det här klustret. Till exempel kan Spark-noderna tillhandahållas och optimeras för minnes-eller beräknings intensiva arbets belastningar. En lista över tillgängliga nodtyper kan hämtas med hjälp av list Node types API-anrop. |
driver_node_type_id | STRING |
Nodtypen för Spark-drivrutinen. Det här fältet är valfritt. Om alternativet inte anges, anges driv Rutinens nodtyp som samma värde som node_type_id definieras ovan. |
cluster_log_conf | ClusterLogConf | Konfigurationen för att leverera Spark-loggar till ett långsiktigt lagrings mål. Det går bara att ange ett mål för ett kluster. Om conf anges skickas loggarna till målet var5 mins . Destinationen för driv rutins loggar är <destination>/<cluster-ID>/driver , medan målet för utförar-loggarna är <destination>/<cluster-ID>/executor . |
init_scripts | En matris med InitScriptInfo | Konfigurationen för att lagra init-skript. Du kan ange valfritt antal destinationer. Skripten körs sekventiellt i den angivna ordningen. Om cluster_log_conf har angetts skickas initierings skript loggar till<destination>/<cluster-ID>/init_scripts . |
docker_image | DockerImage | Docker-avbildning för en anpassad behållare. |
spark_env_vars | SparkEnvPair | Ett objekt som innehåller en uppsättning valfria, användardefinierade miljövariabel nyckel/värde-par. Nyckel/värde-par i formuläret (X, Y) exporteras som det är (det vill sägaexport X='Y' ) när du startar driv rutinen och arbets tagarna.Om du vill ange ytterligare en uppsättning SPARK_DAEMON_JAVA_OPTS rekommenderar vi att du lägger till dem i $SPARK_DAEMON_JAVA_OPTS som du ser i följande exempel. Detta säkerställer att alla standarddatabricks hanterade miljövariabler också ingår.Exempel på Spark-miljövariabler: {"SPARK_WORKER_MEMORY": "28000m", "SPARK_LOCAL_DIRS": "/local_disk0"} eller{"SPARK_DAEMON_JAVA_OPTS": "$SPARK_DAEMON_JAVA_OPTS -Dspark.shuffle.service.enabled=true"} |
autotermination_minutes | INT32 |
Avslutar automatiskt klustret när det är inaktivt under den här tiden på några minuter. Om det inte har angetts kommer det här klustret inte att avslutas automatiskt. Om det anges måste tröskelvärdet vara mellan 10 och 10000 minuter. Du kan också ange värdet 0 om du vill inaktivera automatisk avslutning. |
enable_elastic_disk | BOOL |
Automatisk skalning av lokal lagring: när det är aktiverat kommer det här klustret dynamiskt att förvärva ytterligare disk utrymme när dess Spark-arbetsbelastningar börjar få ont om disk utrymme. Mer information finns i automatisk skalning av lokalt lagrings utrymme . |
instance_pool_id | STRING |
Det valfria ID: t för den instans som klustret tillhör. Mer information finns i pooler . |
state | ClusterState | Klustrets tillstånd. |
state_message | STRING |
Ett meddelande som är kopplat till den senaste tillstånds över gången (till exempel orsaken till att klustret angav ett TERMINATED tillstånd). |
start_time | INT64 |
Tid (i epoker i millisekunder) när begäran om att skapa kluster togs emot (när klustret angav ett PENDING tillstånd). |
terminated_time | INT64 |
Tid (i epoker i millisekunder) när klustret avslutades, om tillämpligt. |
last_state_loss_time | INT64 |
Tid när kluster driv rutinen senast förlorade sitt tillstånd (på grund av en omstart eller driv rutins fel). |
last_activity_time | INT64 |
Tid (i epoker i millisekunder) när klustret senast var aktivt. Ett kluster är aktivt om det finns minst ett kommando som inte har avslut ATS i klustret. Det här fältet är tillgängligt när klustret har nått ett RUNNING tillstånd. Uppdateringar av det här fältet görs med bästa möjliga försök. Vissa versioner av Spark stöder inte rapportering av kluster aktivitet. Se automatisk avslutning för mer information. |
cluster_memory_mb | INT64 |
Total mängd kluster minne, i megabyte. |
cluster_cores | FLOAT |
Antal processor kärnor som är tillgängliga för det här klustret. Detta kan vara bråkat eftersom vissa nodtyper har kon figurer ATS för att dela kärnor mellan Spark-noder på samma instans. |
default_tags | ClusterTag | Ett objekt som innehåller en uppsättning taggar som läggs till av Azure Databricks oavsett custom_tags, inklusive: * Leverantör: Databricks * Skapare: * Kluster namn: <namn-för-kluster> * ClusterId: <-ID-för-kluster> * Namn: * RunName: <namn på jobb> * JobId: <-ID för jobb> |
cluster_log_status | LogSyncStatus | Leverans status för kluster logg. |
termination_reason | TerminationReason | Information om varför klustret avslutades. Det här fältet visas bara när klustret är i ett- TERMINATING eller- TERMINATED tillstånd. |
ClusterEvent
Kluster händelse information.
Fältnamn | Typ | Beskrivning |
---|---|---|
cluster_id | STRING |
Kanoniskt ID för klustret. Det här fältet är obligatoriskt. |
timestamp | INT64 |
Tidsstämpeln när händelsen inträffade, lagras som antalet millisekunder sedan UNIX-epoken. Tilldelas av tids linje tjänsten. |
typ | ClusterEventType | Händelse typ. Det här fältet är obligatoriskt. |
information | EventDetails | Händelse informationen. Det här fältet är obligatoriskt. |
ClusterEventType
Typ av kluster händelse.
Händelsetyp | Beskrivning |
---|---|
SKAPA | Anger att klustret skapas. |
DID_NOT_EXPAND_DISK | Anger att disken har ont om utrymme, men om diskarna läggs till i den maximala kapaciteten. |
EXPANDED_DISK | Anger att disken har ont om utrymme och diskarna expanderades. |
FAILED_TO_EXPAND_DISK | Anger att disken har ont om utrymme och det inte gick att expandera disk utrymmet. |
INIT_SCRIPTS_STARTING | Anger att initierings skriptet för kluster omfång har startats. |
INIT_SCRIPTS_FINISHED | Anger att initierings skriptet för kluster omfånget har avslut ATS. |
LEDS | Anger att klustret startas. |
STARTAR om | Anger att klustret startas. |
AVSLUTANDE | Anger att klustret avslutas. |
ÄNDRA | Anger att klustret har redigerats. |
KÖR | Anger att klustret har skapats. Inkluderar antalet noder i klustret och en fel orsak om det inte gick att hämta några noder. |
STORLEKS ändring | Indikerar en ändring i klustrets mål storlek (utvidgad eller downsize). |
UPSIZE_COMPLETED | Anger att noder har lagts till i klustret. Inkluderar antalet noder i klustret och en fel orsak om det inte gick att hämta några noder. |
NODES_LOST | Anger att vissa noder förlorades från klustret. |
DRIVER_HEALTHY | Anger att driv rutinen är felfri och att klustret är klart att användas. |
DRIVER_UNAVAILABLE | Anger att driv rutinen inte är tillgänglig. |
SPARK_EXCEPTION | Anger att ett Spark-undantag utlöstes från driv rutinen. |
DRIVER_NOT_RESPONDING | Anger att driv rutinen är igång men inte svarar, troligen på grund av GC. |
DBFS_DOWN | Anger att driv rutinen är upp men DBFS är nere. |
METASTORE_DOWN | Anger att driv rutinen är igång, men metaarkiv är nere. |
NODE_BLACKLISTED | Anger att en nod inte tillåts av Spark. |
ENSA | Anger att klustret har fästs. |
EJ fästa | Anger att klustret inte har fästs. |
EventDetails
Information om en kluster händelse.
Fältnamn | Typ | Beskrivning |
---|---|---|
current_num_workers | INT32 |
Antalet noder i klustret. |
target_num_workers | INT32 |
Mål antalet noder i klustret. |
previous_attributes | ClusterAttributes | Attributen för klustret innan ett kluster redigerades. |
dokumentattribut | ClusterAttributes | * För skapade kluster, attribut för klustret. * För redigerade kluster, de nya attributen för klustret. |
previous_cluster_size | ClusterSize | Klustrets storlek innan en ändring eller storlek ändras. |
cluster_size | ClusterSize | Kluster storleken som har angetts i Skapa eller redigera kluster. |
Orsak | ResizeCause | Orsaken till en ändring i mål storleken. |
orsak | TerminationReason | En avslutnings orsak: * Vid en TERMINATED händelse, orsaken till uppsägningen.* På en RESIZE_COMPLETE händelse anger orsaken till att vi inte kunde hämta några noder. |
användare | STRING |
Användaren som orsakade händelsen. (Tomt om det utfördes av Azure Databricks.) |
ClusterAttributes
En gemensam uppsättning attribut som anges när klustret skapas. Attributen kan inte ändras över ett klusters livs längd.
Fältnamn | Typ | Beskrivning |
---|---|---|
cluster_name | STRING |
Kluster namn begärt av användaren. Detta behöver inte vara unikt. Om detta inte anges när klustret skapas är kluster namnet en tom sträng. |
spark_version | STRING |
Körnings versionen av klustret, till exempel "5.0. x-Scala 2.11". Du kan hämta en lista över tillgängliga körnings versioner med API-anrop för körnings versioner . |
spark_conf | SparkConfPair | Ett objekt som innehåller en uppsättning valfria, användardefinierade konfigurations nyckel/värde-par för Spark-konfiguration. Du kan också skicka en sträng med extra JVM-alternativ till driv rutinen och körningarna viaspark.driver.extraJavaOptions``spark.executor.extraJavaOptions respektive.I exempel Spark ger: {"spark.speculation": true, "spark.streaming.ui.retainedBatches": 5} eller{"spark.driver.extraJavaOptions": "-verbose:gc -XX:+PrintGCDetails"} |
node_type_id | STRING |
Det här fältet kodas med hjälp av ett enda värde och resurserna som är tillgängliga för var och en av Spark-noderna i det här klustret. Till exempel kan Spark-noderna tillhandahållas och optimeras för minnes-eller beräknings intensiva arbets belastningar som en lista över tillgängliga nodtyper kan hämtas med hjälp av list Node types API-anrop. |
driver_node_type_id | STRING |
Nodtypen för Spark-drivrutinen. Det här fältet är valfritt. Om alternativet inte anges, anges driv Rutinens nodtyp som samma värde som node_type_id definieras ovan. |
ssh_public_keys | En matris med STRING |
Innehåll för den offentliga SSH-nyckeln som ska läggas till i varje spark-nod i klustret. Motsvarande privata nycklar kan användas för att logga in med användar namnet ubuntu på porten 2200 . Upp till 10 nycklar kan anges. |
custom_tags | ClusterTag | Ett objekt som innehåller en uppsättning taggar för kluster resurser. Databricks Taggar alla kluster resurser med dessa taggar utöver default_tags. Obs: * Taggar stöds inte på äldre nodtyper, till exempel Compute-optimerad och minnesoptimerade * Databricks tillåter högst 45 anpassade taggar |
cluster_log_conf | ClusterLogConf | Konfigurationen för att leverera Spark-loggar till ett långsiktigt lagrings mål. Det går bara att ange ett mål för ett kluster. Om conf anges skickas loggarna till målet var5 mins . Destinationen för driv rutins loggar är <destination>/<cluster-ID>/driver , medan målet för utförar-loggarna är <destination>/<cluster-ID>/executor . |
init_scripts | En matris med InitScriptInfo | Konfigurationen för att lagra init-skript. Du kan ange valfritt antal destinationer. Skripten körs sekventiellt i den angivna ordningen. Om cluster_log_conf har angetts skickas initierings skript loggar till<destination>/<cluster-ID>/init_scripts . |
docker_image | DockerImage | Docker-avbildning för en anpassad behållare. |
spark_env_vars | SparkEnvPair | Ett objekt som innehåller en uppsättning valfria, användardefinierade miljövariabel nyckel/värde-par. Nyckel/värde-par i formuläret (X, Y) exporteras som det är (det vill sägaexport X='Y' ) när du startar driv rutinen och arbets tagarna.För att kunna ange ytterligare en uppsättning SPARK_DAEMON_JAVA_OPTS rekommenderar vi att du lägger till dem i $SPARK_DAEMON_JAVA_OPTS som visas i följande exempel. Detta säkerställer att alla standarddatabricks hanterade miljövariabler också ingår.Exempel på Spark-miljövariabler: {"SPARK_WORKER_MEMORY": "28000m", "SPARK_LOCAL_DIRS": "/local_disk0"} eller{"SPARK_DAEMON_JAVA_OPTS": "$SPARK_DAEMON_JAVA_OPTS -Dspark.shuffle.service.enabled=true"} |
autotermination_minutes | INT32 |
Avslutar automatiskt klustret när det är inaktivt under den här tiden på några minuter. Om det inte har angetts kommer det här klustret inte att avslutas automatiskt. Om det anges måste tröskelvärdet vara mellan 10 och 10000 minuter. Du kan också ange värdet 0 om du vill inaktivera automatisk avslutning. |
enable_elastic_disk | BOOL |
Automatisk skalning av lokal lagring: när det är aktiverat kommer det här klustret dynamiskt att förvärva ytterligare disk utrymme när dess Spark-arbetsbelastningar börjar få ont om disk utrymme. Mer information finns i automatisk skalning av lokalt lagrings utrymme . |
instance_pool_id | STRING |
Det valfria ID: t för den instans som klustret tillhör. Mer information finns i pooler . |
cluster_source | ClusterSource | Bestämmer om klustret har skapats av en användare med hjälp av användar gränssnittet, som skapats av Databricks-jobb Scheduler eller via en API-begäran. |
policy_id | STRING |
Ett kluster princip -ID. |
ClusterSize
Kluster storleks specifikation.
Fältnamn | Typ | Beskrivning |
---|---|---|
num_workers eller autoskalning | INT32 ELLER Autoskala |
Om num_workers, antalet arbetsnoder som det här klustret ska ha. Ett kluster har en spark-drivrutin och num_workers körningar för totalt num_workers + 1 Spark-noder. När du läser egenskaperna för ett kluster visar det här fältet det önskade antalet arbetare i stället för det faktiska antalet arbetare. Om ett kluster till exempel ändras till mellan 5 och 10 arbetare, uppdateras det här fältet för att avspegla mål storleken på 10 arbetare, medan de anställda som anges i körningar gradvis ökar från 5 till 10 när de nya noderna är etablerade. Om autoskalning krävs parametrar för att automatiskt skala upp och ned kluster baserat på belastning. |
ListOrder
Enum för allmän ordning för listbaserade frågor.
Beställning | Beskrivning |
---|---|
DESC | Fallande ordning. |
ASC | Stigande ordning. |
ResizeCause
Orsak till varför ett kluster ändrades storlek.
Orsak | Beskrivning |
---|---|
AUTOMATISK skalning | Storleken ändrades automatiskt baserat på belastningen. |
USER_REQUEST | Användaren begärde en ny storlek. |
ÅTERSTÄLLNING | I den här övervakaren återställs storleken på klustret när en nod bröts. |
ClusterLogConf
Sökväg till kluster loggen.
Fältnamn | Typ | Beskrivning |
---|---|---|
dBFS | DbfsStorageInfo | DBFS plats för kluster loggen. Destination måste anges. Exempel:{ "dbfs" : { "destination" : "dbfs:/home/cluster_log" } } |
InitScriptInfo
Sökväg till ett init-skript. Instruktioner om hur du använder init-skript med Databricks Container Servicesfinns i använda ett init-skript.
Anteckning
Fil lagrings typen är bara tillgänglig för kluster som har kon figurer ATS med Databricks Container Services.
Fältnamn | Typ | Beskrivning |
---|---|---|
dBFS eller-fil | DbfsStorageInfo FileStorageInfo |
DBFS plats för init-skript. Destination måste anges. Exempel:{ "dbfs" : { "destination" : "dbfs:/home/init_script" } } Fil Sök väg för init-skript. Destination måste anges. Exempel: { "file" : { "destination" : "file:/my/local/file.sh" } } |
ClusterTag
Kluster tag gen definition.
Typ | Beskrivning |
---|---|
STRING |
Tangenten för taggen. Nyckeln måste: * Måste vara mellan 1 och 512 tecken * Innehåller inte några tecken <>%*&+?\\/ * Börjar inte med azure , microsoft eller windows |
STRING |
Taggens värde. Värdets längd måste vara mindre än eller lika med 256 UTF-8 tecken. |
DbfsStorageInfo
DBFS lagrings information.
Fältnamn | Typ | Beskrivning |
---|---|---|
mål | STRING |
DBFS-mål. Exempel: dbfs:/my/path |
FileStorageInfo
Fil lagrings information.
Anteckning
Den här plats typen är bara tillgänglig för kluster som har kon figurer ATS med Databricks Container Services.
Fältnamn | Typ | Beskrivning |
---|---|---|
mål | STRING |
Fil mål. Exempel: file:/my/file.sh |
DockerImage
Anslutnings information för Docker-avbildning.
Fält | Typ | Beskrivning |
---|---|---|
url | sträng | URL för Docker-avbildningen. |
basic_auth | DockerBasicAuth | Grundläggande autentiseringsinformation för Docker-lagringsplatsen. |
DockerBasicAuth
Information om grundläggande autentiseringsinformation för Docker-lagringsplatsen.
Fält | Beskrivning |
---|---|
användarnamn | Användar namn för Docker-lagringsplatsen. |
password | Lösen ord för Docker-lagringsplatsen. |
LogSyncStatus
Logg leverans status.
Fältnamn | Typ | Beskrivning |
---|---|---|
last_attempted | INT64 |
Tidsstämpel för senaste försöket. Om det senaste försöket Miss lyckas innehåller last_exception undantaget i det senaste försöket. |
last_exception | STRING |
Det inträffade ett undantags fel i det senaste försöket, det skulle vara null (utelämnat i svaret) om det inte finns något undantag i senaste försök. |
NodeType
Beskrivning av Spark-nodtypen, inklusive båda dimensionerna för noden och den instans typ som den kommer att vara värd för.
Fältnamn | Typ | Beskrivning |
---|---|---|
node_type_id | STRING |
Unik identifierare för den här nodtypen. Det här fältet är obligatoriskt. |
memory_mb | INT32 |
Tillgängligt minne (i MB) för den här nodtypen. Det här fältet är obligatoriskt. |
num_cores | FLOAT |
Antalet processor kärnor som är tillgängliga för den här nodtypen. Detta kan vara bråktal om antalet kärnor på en dator instans inte är delbar med antalet Spark-noder på den datorn. Det här fältet är obligatoriskt. |
description | STRING |
En sträng beskrivning som är associerad med den här nodtypen. Det här fältet är obligatoriskt. |
instance_type_id | STRING |
En identifierare för den typ av maskin vara som den här noden kör på. Det här fältet är obligatoriskt. |
is_deprecated | BOOL |
Om nodtypen är föråldrad. Icke-föråldrade nodtyper ger bättre prestanda. |
node_info | ClusterCloudProviderNodeInfo | Information om nodtypen som rapporteras av moln leverantören. |
ClusterCloudProviderNodeInfo
Information om en instans som tillhandahålls av en moln leverantör.
Fältnamn | Typ | Beskrivning |
---|---|---|
status | ClusterCloudProviderNodeStatus | Status som rapporteras av moln leverantören. |
available_core_quota | INT32 |
Tillgänglig processor kärn kvot. |
total_core_quota | INT32 |
Total processor kärn kvot. |
ClusterCloudProviderNodeStatus
Status för en instans som tillhandahålls av en moln leverantör.
Status | Beskrivning |
---|---|
NotEnabledOnSubscription | Nodtypen är inte tillgänglig för prenumerationen. |
NotAvailableInRegion | Nodtypen är inte tillgänglig i regionen. |
ParameterPair
Parameter som ger ytterligare information om varför ett kluster avbröts.
Typ | Beskrivning |
---|---|
TerminationParameter | Typ av avslutnings information. |
STRING |
Avslutnings informationen. |
SparkConfPair
Konfigurations nyckel/värde-par för Spark.
Typ | Beskrivning |
---|---|
STRING |
Ett konfigurations egenskaps namn. |
STRING |
Konfigurationens egenskaps värde. |
SparkEnvPair
Spark miljö variabel nyckel/värde-par.
Viktigt
När du anger miljövariabler i ett jobb kluster accepterar fälten i den här data strukturen endast latinska tecken (ASCII-teckenuppsättning). Om icke-ASCII-tecken används returneras ett fel. Exempel på ogiltiga, icke-ASCII-tecken är kinesiska, japanska kanji och emojis.
Typ | Beskrivning |
---|---|
STRING |
Ett miljö variabel namn. |
STRING |
Miljövariabelns värde. |
SparkNode
Spark-drivrutin eller utförar-konfiguration.
Fältnamn | Typ | Beskrivning |
---|---|---|
private_ip | STRING |
Privat IP-adress (vanligt vis en 10. x. x-adress) för Spark-noden. Detta skiljer sig från värd instansens privata IP-adress. |
public_dns | STRING |
Den här nodens offentliga DNS-adress. Den här adressen kan användas för att få åtkomst till Spark JDBC-servern på noden driv rutin. |
node_id | STRING |
Globalt unik identifierare för den här noden. |
instance_id | STRING |
Globalt unik identifierare för värd instansen från moln leverantören. |
start_timestamp | INT64 |
Tidsstämpeln (i millisekunder) när Spark-noden startas. |
host_private_ip | STRING |
Värd instansens privata IP-adress. |
SparkVersion
Databricks Runtime versionen av klustret.
Fältnamn | Typ | Beskrivning |
---|---|---|
key | STRING |
Databricks runtime versions nyckel, till exempel 7.3.x-scala2.12 . Värdet som ska anges som spark_version när du skapar ett nytt kluster. Den exakta körnings versionen kan ändras över tid för en "wildcard"-version (dvs. 7.3.x-scala2.12 är en "wildcard"-version) med mindre fel korrigeringar. |
name | STRING |
Ett beskrivande namn för körnings versionen, till exempel "Databricks Runtime 7,3 LTS". |
TerminationReason
Orsak till varför ett kluster avslutades.
Fältnamn | Typ | Beskrivning |
---|---|---|
kod | TerminationCode | Status kod som anger varför ett kluster avslutades. |
typ | TerminationType | Orsak till varför ett kluster avbröts. |
parametrar | ParameterPair | Objekt som innehåller en uppsättning parametrar som ger information om varför ett kluster avslutades. |
PoolClusterTerminationCode
Status kod som anger varför klustret avslutades på grund av ett allokeringsfel.
Kod | Beskrivning |
---|---|
INSTANCE_POOL_MAX_CAPACITY_FAILURE | Poolens maximala kapacitet har nåtts. |
INSTANCE_POOL_NOT_FOUND_FAILURE | Poolen som anges av klustret är inte längre aktiv eller finns inte. |
ClusterSource
Tjänst som skapade klustret.
Tjänst | Beskrivning |
---|---|
UI | Kluster som skapats via användar gränssnittet. |
UPPGIFT | Kluster som skapats av Databricks Job Scheduler. |
API | Kluster som skapats via ett API-anrop. |
ClusterState
Tillstånd för ett kluster. Över gången för tillåtna tillstånd är följande:
PENDING
->RUNNING
PENDING
->TERMINATING
RUNNING
->RESIZING
RUNNING
->RESTARTING
RUNNING
->TERMINATING
RESTARTING
->RUNNING
RESTARTING
->TERMINATING
RESIZING
->RUNNING
RESIZING
->TERMINATING
TERMINATING
->TERMINATED
Stat | Beskrivning |
---|---|
PENDING |
Anger att ett kluster håller på att skapas. |
RUNNING |
Anger att ett kluster har startats och är redo att användas. |
RESTARTING |
Anger att ett kluster håller på att startas om. |
RESIZING |
Anger att ett kluster håller på att lägga till eller ta bort noder. |
TERMINATING |
Indikerar att ett kluster håller på att förstöras. |
TERMINATED |
Indikerar att ett kluster har förstörts. |
ERROR |
Det här läget används inte längre. Den användes för att ange ett kluster som inte kunde skapas.TERMINATING och TERMINATED används i stället. |
UNKNOWN |
Indikerar att ett kluster är i ett okänt tillstånd. Ett kluster ska aldrig vara i det här läget. |
TerminationCode
Status kod som anger varför klustret avslutades.
Kod | Beskrivning |
---|---|
USER_REQUEST | En användare avslutade klustret direkt. Parametrar ska innehålla ett username fält som anger den angivna användaren som avslutade klustret. |
JOB_FINISHED | Klustret startades av ett jobb och avslutades när jobbet slutfördes. |
INAKTIVITET | Klustret avslutades eftersom det var inaktivt. |
CLOUD_PROVIDER_SHUTDOWN | Instansen som värd för Spark-drivrutinen avslutades av moln leverantören. |
COMMUNICATION_LOST | Azure Databricks förlorad anslutning till tjänster på driv rutins instansen. Detta kan till exempel inträffa när problem uppstår i moln nätverkets infrastruktur, eller när själva instansen blir ohälsosam. |
CLOUD_PROVIDER_LAUNCH_FAILURE | Azure Databricks påträffade ett fel när en moln leverantör begärde instanser att starta kluster. |
SPARK_STARTUP_FAILURE | Det gick inte att initiera klustret. Möjliga orsaker kan vara att det inte går att skapa miljön för Spark eller problem som startar Spark-huvudprocessen och arbets processerna. |
INVALID_ARGUMENT | Det går inte att starta klustret eftersom användaren angav ett ogiltigt argument. Användaren kan till exempel ange en ogiltig körnings version för klustret. |
UNEXPECTED_LAUNCH_FAILURE | När det här klustret startades gick det inte att slutföra viktiga konfigurations steg för Azure Databricks och avsluta klustret. |
INTERNAL_ERROR | Azure Databricks påträffade ett oväntat fel som tvingade det aktiva klustret att avslutas. Kontakta Azure Databricks support om du vill ha mer information. |
SPARK_ERROR | Det gick inte att starta Spark-drivrutinen. Möjliga orsaker kan vara inkompatibla bibliotek och initierings skript som har skadat Spark-behållaren. |
METASTORE_COMPONENT_UNHEALTHY | Det gick inte att starta klustret eftersom det inte gick att nå det externa metaarkiv. Se fel sökning. |
DBFS_COMPONENT_UNHEALTHY | Det gick inte att starta klustret eftersom DBFS (Databricks File System) inte kunde nås. |
AZURE_RESOURCE_PROVIDER_THROTTLING | Azure Databricks uppnått gränsen för Azure Resource Provider-begäran. Mer specifikt får API-begäran frekvens till den specifika resurs typen (beräkning, nätverk osv.) inte överskrida gränsen. Försök igen kan hjälpa dig att lösa problemet. Mer information finns i https://docs.microsoft.com/azure/virtual-machines/troubleshooting/troubleshooting-throttling-errors . |
AZURE_RESOURCE_MANAGER_THROTTLING | Azure Databricks uppnått gränsen för Azure Resource Manager begäran som gör att Azure SDK inte kan utfärda någon Läs-eller skrivbegäran till Azure Resource Manager. Gränsen för förfrågningar tillämpas på varje prenumeration varje timma. Försök igen efter en timme eller ändra till en mindre kluster storlek kan hjälpa dig att lösa problemet. Mer information finns i https://docs.microsoft.com/azure/azure-resource-manager/resource-manager-request-limits . |
NETWORK_CONFIGURATION_FAILURE | Klustret avslutades på grund av ett fel i nätverks konfigurationen. En arbets yta med VNet-inmatning hade till exempel felaktiga DNS-inställningar som blockerade åtkomst till arbetarnas artefakter. |
DRIVER_UNREACHABLE | Azure Databricks har inte åtkomst till Spark-drivrutinen eftersom den inte kunde nås. |
DRIVER_UNRESPONSIVE | Azure Databricks kunde inte komma åt Spark-drivrutinen eftersom den inte svarade. |
INSTANCE_UNREACHABLE | Azure Databricks kunde inte komma åt instanser för att starta klustret. Detta kan vara ett tillfälligt nätverks problem. Om problemet kvarstår indikerar detta vanligt vis en felaktig nätverks miljö. |
CONTAINER_LAUNCH_FAILURE | Azure Databricks gick inte att starta behållare på arbetsnoder för klustret. Se till att din administratör kontrollerar nätverks konfigurationen. |
INSTANCE_POOL_CLUSTER_FAILURE | Pool-fel för kluster som har säkerhetskopierats. Mer information finns i pooler . |
REQUEST_REJECTED | Azure Databricks kan inte hantera begäran just nu. Försök igen senare och kontakta Azure Databricks om problemet kvarstår. |
INIT_SCRIPT_FAILURE | Azure Databricks kan inte läsa in och köra ett kluster med initierings skript på ett av klustrets noder, eller så avslutas init-skriptet med en slutkod som inte är noll. Referera till init-skript loggar. |
TRIAL_EXPIRED | Den Azure Databricks utvärderings prenumerationen har gått ut. |
TerminationType
Orsak till varför klustret avslutades.
Typ | Beskrivning |
---|---|
RESULTATET | Avslutningen har slutförts. |
CLIENT_ERROR | Icke-återförsöksbar. Klienten måste åtgärda parametrarna innan de försöker skapa klustret igen. |
SERVICE_FAULT | Problem med Azure Databricks tjänsten. Klienten kan försöka igen. |
CLOUD_FAILURE | Problem med moln leverantörs infrastruktur. Klienten kan försöka igen när det underliggande problemet har lösts. |
TerminationParameter
Nyckel som ger ytterligare information om varför ett kluster avbröts.
Nyckel | Beskrivning |
---|---|
användarnamn | Användar namnet för den användare som avslutade klustret. |
databricks_error_message | Ytterligare kontext som kan förklara orsaken till klustrets upphör Ande. |
inactivity_duration_min | Ett inaktivt kluster stängdes av efter inaktivitet under denna varaktighet. |
instance_id | ID: t för den instans som var värd för Spark-drivrutinen. |
azure_error_code | Den tillhandahållna felkoden för Azure som beskriver varför det inte gick att tillhandahålla klusternoder. För referens, se: https://docs.microsoft.com/azure/virtual-machines/windows/error-messages . |
azure_error_message | Mänskligt läsbar kontext för olika typer av problem från Azure. Det här fältet är ostrukturerat och det exakta formatet kan komma att ändras. |
instance_pool_id | ID för den instans som klustret använder. |
instance_pool_error_code | Felkoden för kluster fel som är speciella för en pool. |