Jobb-API

Med jobb-API: et kan du skapa, redigera och ta bort jobb. Den högsta tillåtna storleken för en begäran till jobb-API: n är 10 MB. Se API-exempel för jobb för en instruktions guide för det här API: et.

Anteckning

Om du får ett fel på 500 nivå när du utför jobb-API-begäranden rekommenderar Databricks att du försöker utföra begär Anden på upp till 10 minuter (med ett minsta intervall på 30 sekunder mellan återförsök).

Viktigt

För att få åtkomst till Databricks REST API:er måste du autentisera.

Skapa

Slutpunkt HTTP-metod
2.0/jobs/create POST

Skapa ett nytt jobb.

En exempel förfrågan för ett jobb som körs vid 10:17:15 varje natt:

{
  "name": "Nightly model training",
  "new_cluster": {
    "spark_version": "7.3.x-scala2.12",
    "node_type_id": "Standard_D3_v2",
    "num_workers": 10
  },
  "libraries": [
    {
      "jar": "dbfs:/my-jar.jar"
    },
    {
      "maven": {
        "coordinates": "org.jsoup:jsoup:1.7.2"
      }
    }
  ],
  "timeout_seconds": 3600,
  "max_retries": 1,
  "schedule": {
    "quartz_cron_expression": "0 15 22 ? * *",
    "timezone_id": "America/Los_Angeles"
  },
  "spark_jar_task": {
    "main_class_name": "com.databricks.ComputeModels"
  }
}

Och svar:

{
  "job_id": 1
}

Begär struktur

Viktigt

  • När du kör ett jobb i ett nytt jobb kluster behandlas jobbet som en arbets belastning för jobb beräkning (automatiserad) för jobb som beräknar priser.
  • När du kör ett jobb i ett befintligt kluster för alla syften behandlas det som en All-Purpose beräkning (interaktiv) arbets belastning som omfattas av All-Purpose beräknings priser.
Fältnamn Typ Beskrivning
existing_cluster_id eller new_cluster STRING ELLER NewCluster Om existing_cluster_id, det ID för ett befintligt kluster som ska användas för alla körningar av jobbet. När du kör jobb i ett befintligt kluster kan du behöva starta om klustret manuellt om det slutar svara. Vi föreslår att köra jobb på nya kluster för bättre tillförlitlighet.

Om new_cluster, en beskrivning av ett kluster som ska skapas för varje körning.
notebook_task eller spark_jar_task eller spark_python_task eller spark_submit_task NotebookTask ELLER SparkJarTask eller SparkPythonTask eller SparkSubmitTask Om notebook_task, anger det att jobbet ska köra en antecknings bok. Det här fältet får inte anges tillsammans med spark_jar_task.

Om spark_jar_task, anger det att jobbet ska köra en JAR.

Om spark_python_task, anger det att jobbet ska köra en python-fil.

Om spark_submit_task, anger det att jobbet ska startas av Spark-Submit-skriptet.
name STRING Ett valfritt namn för jobbet. Standardvärdet är Untitled.
bibliotek En matris med bibliotek En valfri lista med bibliotek som ska installeras i klustret som ska köra jobbet. Standardvärdet är en tom lista.
email_notifications JobEmailNotifications En valfri uppsättning e-postadresser meddelas när körningar av jobbet börjar och slutförs och när jobbet tas bort. Standard beteendet är att inte skicka e-post.
timeout_seconds INT32 En valfri tids gräns som används för varje jobb körning. Standard beteendet är att inte ha någon tids gräns.
max_retries INT32 Ett valfritt maximalt antal gånger att försöka utföra en misslyckad körning. En körning anses vara misslyckad om den är klar med FAILED result_state eller
INTERNAL_ERROR
life_cycle_state. Värdet-1 innebär att ett nytt försök görs i oändlighet och värdet 0 innebär att aldrig nya försök görs. Standard beteendet är att aldrig försöka igen.
min_retry_interval_millis INT32 Ett valfritt minimalt intervall i millisekunder mellan starten av den misslyckade körningen och efterföljande försök att köra igen. Standard beteendet är att misslyckade körningar görs omedelbart.
retry_on_timeout BOOL En valfri princip för att ange om du vill göra ett nytt försök med ett jobb när tids gränsen uppnåtts. Standard beteendet är att inte försöka igen vid timeout.
schedule CronSchedule Ett valfritt periodiskt schema för det här jobbet. Standard beteendet är att jobbet körs när det utlöses genom att klicka på Kör nu i jobb gränssnittet eller skicka en API-begäran till runNow .
max_concurrent_runs INT32 Ett valfritt maximalt tillåtet antal samtidiga körningar av jobbet.

Ange det här värdet om du vill kunna köra flera körningar av samma jobb samtidigt. Detta är användbart till exempel om du utlöser jobbet enligt ett frekvent schema och vill tillåta att efterföljande körningar överlappar varandra, eller om du vill utlösa flera körningar som skiljer sig från deras indataparametrar.

Den här inställningen påverkar endast nya körningar. Anta till exempel att jobbets samtidighet är 4 och att det finns 4 samtidiga aktiva körningar. Om du sedan anger samtidighet till 3 så kommer inga aktiva körningar att stoppas. Men från och med hoppas nya körningar över, såvida det inte finns färre än 3 aktiva körningar.

Värdet får inte överstiga 1000. Om du anger värdet 0 hoppas alla nya körningar över. Standard beteendet är att endast tillåta en samtidig körning.

Svars struktur

Fältnamn Typ Beskrivning
job_id INT64 Den kanoniska identifieraren för det nyskapade jobbet.

Lista

Slutpunkt HTTP-metod
2.0/jobs/list GET

Lista alla jobb.

Ett exempel svar:

{
  "jobs": [
    {
      "job_id": 1,
      "settings": {
        "name": "Nightly model training",
        "new_cluster": {
          "spark_version": "7.3.x-scala2.12",
          "node_type_id": "Standard_D3_v2",
          "num_workers": 10
        },
        "libraries": [
          {
            "jar": "dbfs:/my-jar.jar"
          },
          {
            "maven": {
              "coordinates": "org.jsoup:jsoup:1.7.2"
            }
          }
        ],
        "timeout_seconds": 100000000,
        "max_retries": 1,
        "schedule": {
          "quartz_cron_expression": "0 15 22 ? * *",
          "timezone_id": "America/Los_Angeles",
          "pause_status": "UNPAUSED"
        },
        "spark_jar_task": {
          "main_class_name": "com.databricks.ComputeModels"
        }
      },
      "created_time": 1457570074236
    }
  ]
}

Svars struktur

Fältnamn Typ Beskrivning
utskrifts En matris med jobb Listan med jobb.

Ta bort

Slutpunkt HTTP-metod
2.0/jobs/delete POST

Ta bort ett jobb och skicka ett e-postmeddelande till de adresser som anges i JobSettings.email_notifications . Ingen åtgärd utförs om jobbet redan har tagits bort. När jobbet har tagits bort visas varken dess information eller dess körnings historik i jobb gränssnittet eller API: et. Jobbet är garanterat att tas bort när begäran har slutförts. Körningar som var aktiva innan den här begäran togs emot kan dock fortfarande vara aktiva. De kommer att avslutas asynkront.

En exempel förfrågan:

{
  "job_id": 1
}

Begär struktur

Fältnamn Typ Beskrivning
job_id INT64 Den kanoniska identifieraren för det jobb som ska tas bort. Det här fältet är obligatoriskt.

Hämta

Slutpunkt HTTP-metod
2.0/jobs/get GET

Hämta information om ett enskilt jobb. En exempel förfrågan:

/jobs/get?job_id=1

Ett exempel svar:

{
  "job_id": 1,
  "settings": {
    "name": "Nightly model training",
    "new_cluster": {
      "spark_version": "7.3.x-scala2.12",
      "node_type_id": "Standard_D3_v2",
      "num_workers": 10
    },
    "libraries": [
      {
        "jar": "dbfs:/my-jar.jar"
      },
      {
        "maven": {
          "coordinates": "org.jsoup:jsoup:1.7.2"
        }
      }
    ],
    "timeout_seconds": 100000000,
    "max_retries": 1,
    "schedule": {
      "quartz_cron_expression": "0 15 22 ? * *",
      "timezone_id": "America/Los_Angeles",
      "pause_status": "UNPAUSED"
    },
    "spark_jar_task": {
      "main_class_name": "com.databricks.ComputeModels"
    }
  },
  "created_time": 1457570074236
}

Begär struktur

Fältnamn Typ Beskrivning
job_id INT64 Den kanoniska identifieraren för jobbet att hämta information om. Det här fältet är obligatoriskt.

Svars struktur

Fältnamn Typ Beskrivning
job_id INT64 Kanoniskt ID för det här jobbet.
creator_user_name STRING Användar namnet för skapare. Det här fältet tas inte med i svaret om användaren har tagits bort.
inställningar JobSettings Inställningarna för det här jobbet och alla dess körningar. De här inställningarna kan uppdateras med hjälp av återställnings -eller uppdaterings slut punkterna.
created_time INT64 Tiden då jobbet skapades i epoker i millisekunder (millisekunder sedan 1/1/1970 UTC).

Återställ

Slutpunkt HTTP-metod
2.0/jobs/reset POST

Skriv över alla inställningar för ett enskilt jobb. Använd uppdaterings slut punkten för att uppdatera jobb inställningar delvis.

En exempel förfrågan som gör jobb 2 identisk med jobb 1 i create -exemplet:

{
  "job_id": 2,
  "new_settings": {
    "name": "Nightly model training",
    "new_cluster": {
      "spark_version": "7.3.x-scala2.12",
      "node_type_id": "Standard_D3_v2",
      "num_workers": 10
    },
    "libraries": [
      {
        "jar": "dbfs:/my-jar.jar"
      },
      {
        "maven": {
          "coordinates": "org.jsoup:jsoup:1.7.2"
        }
      }
    ],
    "timeout_seconds": 100000000,
    "max_retries": 1,
    "schedule": {
      "quartz_cron_expression": "0 15 22 ? * *",
      "timezone_id": "America/Los_Angeles",
      "pause_status": "UNPAUSED"
    },
    "spark_jar_task": {
      "main_class_name": "com.databricks.ComputeModels"
    }
  }
}

Begär struktur

Fältnamn Typ Beskrivning
job_id INT64 Den kanoniska identifieraren för det jobb som ska återställas. Det här fältet är obligatoriskt.
new_settings JobSettings De nya inställningarna för jobbet. De här inställningarna ersätter de gamla inställningarna fullständigt.

Ändringar i fältet JobSettings.timeout_seconds tillämpas på aktiva körningar. Ändringar i andra fält tillämpas endast på framtida körningar.

Uppdatera

Slutpunkt HTTP-metod
2.0/jobs/update POST

Lägg till, ändra eller ta bort vissa inställningar för ett befintligt jobb. Använd återställnings slut punkten för att skriva över alla jobb inställningar.

En exempel förfrågan som tar bort bibliotek och lägger till inställningar för e-postavisering till jobb 1 som definierats i avsnittet skapa exempel:

{
  "job_id": 1,
  "new_settings": {
    "existing_cluster_id": "1201-my-cluster",
    "email_notifications": {
      "on_start": ["donald@duck.com"],
      "on_success": [],
      "on_failure": []
    }
  },
  "fields_to_remove": ["libraries"]
}

Begär struktur

Fältnamn Typ Beskrivning
job_id INT64 Den kanoniska identifieraren för jobbet som ska uppdateras. Det här fältet är obligatoriskt.
new_settings JobSettings De nya inställningarna för jobbet. Alla fält på översta nivån som anges i new_settings ersätts fullständigt. Delvis uppdatering av kapslade fält stöds inte.

Ändringar i fältet JobSettings.timeout_seconds tillämpas på aktiva körningar. Ändringar i andra fält tillämpas endast på framtida körningar.
fields_to_remove En matris med STRING Ta bort fält på översta nivån i jobb inställningarna. Det finns inte stöd för att ta bort kapslade fält. Det här fältet är valfritt.

Kör nu

Viktigt

  • En arbets yta är begränsad till 1000 samtidiga jobb körningar. Ett 429 Too Many Requests svar returneras när du begär en körning som inte kan startas direkt.
  • Antalet jobb som en arbets yta kan skapa på en timme är begränsad till 5000 (inklusive "kör nu" och "kör sändning"). Den här gränsen påverkar även jobb som skapas av REST API och notebook-flöden.
Slutpunkt HTTP-metod
2.0/jobs/run-now POST

Kör ett jobb nu och återgå till run_id den Utlös ande körningen.

Tips

Om du anropar skapa tillsammans med Kör nukan du använda slut punkten för att Skicka i stället, vilket gör att du kan skicka in din arbets belastning direkt utan att behöva skapa ett jobb.

En exempel förfrågan för ett anteckningsbok-jobb:

{
  "job_id": 1,
  "notebook_params": {
    "name": "john doe",
    "age": "35"
  }
}

En exempel förfrågan för ett JAR-jobb:

{
  "job_id": 2,
  "jar_params": ["john doe", "35"]
}

Begär struktur

Fältnamn Typ Beskrivning
job_id INT64
jar_params En matris med STRING En lista med parametrar för jobb med JAR-uppgifter, t. ex. "jar_params": ["john doe", "35"] . Parametrarna används för att anropa huvud funktionen i den huvud klass som anges i Spark-åtgärden Spark. Om detta inte anges på run-now , kommer standardvärdet för en tom lista. jar_params kan inte anges tillsammans med notebook_params. JSON-representationen av det här fältet (d.v.s. {"jar_params":["john doe","35"]} ) får inte överskrida 10 000 byte.
notebook_params En karta över ParamPair En karta från nycklar till värden för jobb med antecknings boks aktivitet, t. ex.
"notebook_params": {"name": "john doe", "age": "35"}. Kartan skickas till den bärbara datorn och kan nås via funktionen dbutils. widgets. get .

Om run-now den Utlös ande körningen inte anges använder jobbets bas parametrar.

Det går inte att ange notebook_params tillsammans med jar_params.

JSON-representationen av det här fältet (t. ex.
{"notebook_params":{"name":"john doe","age":"35"}}) får inte överskrida 10 000 byte.
python_params En matris med STRING En lista med parametrar för jobb med python-uppgifter, t. ex. "python_params": ["john doe", "35"] . Parametrarna skickas till python-filen som kommando rads parametrar. Om det anges på run-now , skriver det över de parametrar som anges i jobb inställningen. JSON-representationen av det här fältet (d.v.s. {"python_params":["john doe","35"]} ) får inte överskrida 10 000 byte.
spark_submit_params En matris med STRING En lista med parametrar för jobb med Spark skicka uppgift, t. ex.
"spark_submit_params": ["--class", "org.apache.spark.examples.SparkPi"]. Parametrarna skickas till Spark-Submit-skript som kommando rads parametrar. Om det anges på run-now , skriver det över de parametrar som anges i jobb inställningen. JSON-representationen av det här fältet får inte överstiga 10 000 byte.

Svars struktur

Fältnamn Typ Beskrivning
run_id INT64 Globalt unikt ID för den nyligen utlöst körningen.
number_in_job INT64 Sekvensnumret för körningen bland alla körningar av jobbet.

Kör sändning

Viktigt

  • En arbets yta är begränsad till 1000 samtidiga jobb körningar. Ett 429 Too Many Requests svar returneras när du begär en körning som inte kan startas direkt.
  • Antalet jobb som en arbets yta kan skapa på en timme är begränsad till 5000 (inklusive "kör nu" och "kör sändning"). Den här gränsen påverkar även jobb som skapas av REST API och notebook-flöden.
Slutpunkt HTTP-metod
2.0/jobs/runs/submit POST

Skicka in en engångs körning. Med den här slut punkten kan du skicka en arbets belastning direkt utan att skapa ett jobb. Körningar som skickats med den här slut punkten visas inte i användar gränssnittet. Använd jobs/runs/get API: et för att kontrol lera körnings statusen när jobbet har skickats.

En exempel förfrågan:

{
  "run_name": "my spark task",
  "new_cluster": {
    "spark_version": "7.3.x-scala2.12",
    "node_type_id": "Standard_D3_v2",
    "num_workers": 10
  },
  "libraries": [
    {
      "jar": "dbfs:/my-jar.jar"
    },
    {
      "maven": {
        "coordinates": "org.jsoup:jsoup:1.7.2"
      }
    }
  ],
  "spark_jar_task": {
    "main_class_name": "com.databricks.ComputeModels"
  }
}

Och svar:

{
  "run_id": 123
}

Begär struktur

Viktigt

  • När du kör ett jobb i ett nytt jobb kluster behandlas jobbet som en arbets belastning för jobb beräkning (automatiserad) för jobb som beräknar priser.
  • När du kör ett jobb i ett befintligt kluster för alla syften behandlas det som en All-Purpose beräkning (interaktiv) arbets belastning som omfattas av All-Purpose beräknings priser.
Fältnamn Typ Beskrivning
existing_cluster_id eller new_cluster STRING ELLER NewCluster Om existing_cluster_id, det ID för ett befintligt kluster som ska användas för alla körningar av jobbet. När du kör jobb i ett befintligt kluster kan du behöva starta om klustret manuellt om det slutar svara. Vi föreslår att köra jobb på nya kluster för bättre tillförlitlighet.

Om new_cluster, en beskrivning av ett kluster som ska skapas för varje körning.
notebook_task eller spark_jar_task eller spark_python_task eller spark_submit_task NotebookTask ELLER SparkJarTask eller SparkPythonTask eller SparkSubmitTask Om notebook_task, anger det att jobbet ska köra en antecknings bok. Det här fältet får inte anges tillsammans med spark_jar_task.

Om spark_jar_task, anger det att jobbet ska köra en JAR.

Om spark_python_task, anger det att jobbet ska köra en python-fil.

Om spark_submit_task, anger det att jobbet ska startas av Spark-Submit-skriptet.
run_name STRING Ett valfritt namn för körningen. Standardvärdet är Untitled.
bibliotek En matris med bibliotek En valfri lista med bibliotek som ska installeras i klustret som ska köra jobbet. Standardvärdet är en tom lista.
timeout_seconds INT32 En valfri tids gräns som används för varje jobb körning. Standard beteendet är att inte ha någon tids gräns.
idempotency_token STRING En valfri token som kan användas för att garantera idempotens av jobb körnings begär Anden. Om det redan finns en aktiv körning med den angivna token kommer begäran inte att skapa en ny körning, men returnerar ID: t för den befintliga körningen i stället.

Om du anger idempotens-token kan du göra ett nytt försök tills begäran lyckas. Azure Databricks garanterar att exakt en körning startar med den idempotens-token.

Denna token får innehålla högst 64 tecken.

Svars struktur

Fältnamn Typ Beskrivning
run_id INT64 Kanoniskt ID för den nyligen skickade körningen.

Körnings lista

Slutpunkt HTTP-metod
2.0/jobs/runs/list GET

Listan körs i fallande ordning efter start tid.

Anteckning

Körningar tas bort automatiskt efter 60 dagar. Om du vill referera till dem efter 60 dagar bör du spara gamla körnings resultat innan de går ut. Information om hur du exporterar med hjälp av användar gränssnittet finns i Exportera jobb körnings resultat. Om du vill exportera med hjälp av jobb-API: et, se Kör export.

En exempel förfrågan:

/jobs/runs/list?job_id=1&active_only=false&offset=1&limit=1&run_type=JOB_RUN

Och svar:

{
  "runs": [
    {
      "job_id": 1,
      "run_id": 452,
      "number_in_job": 5,
      "state": {
        "life_cycle_state": "RUNNING",
        "state_message": "Performing action"
      },
      "task": {
        "notebook_task": {
          "notebook_path": "/Users/donald@duck.com/my-notebook"
        }
      },
      "cluster_spec": {
        "existing_cluster_id": "1201-my-cluster"
      },
      "cluster_instance": {
        "cluster_id": "1201-my-cluster",
        "spark_context_id": "1102398-spark-context-id"
      },
      "overriding_parameters": {
        "jar_params": ["param1", "param2"]
      },
      "start_time": 1457570074236,
      "end_time": 1457570075149,
      "setup_duration": 259754,
      "execution_duration": 3589020,
      "cleanup_duration": 31038,
      "trigger": "PERIODIC"
    }
  ],
  "has_more": true
}

Begär struktur

Fältnamn Typ Beskrivning
active_only eller completed_only BOOL ELLER BOOL Om active_only är true inkluderas endast aktiva körningar i resultaten. i annat fall visas både aktiva och slutförda körningar. En aktiv körning är en körning i PENDING RunLifecycleState-, RUNNING -eller- TERMINATING . Det här fältet får inte vara true när completed_only är true .

Om completed_only är true inkluderas bara slutförda körningar i resultaten. i annat fall visas både aktiva och slutförda körningar. Det här fältet får inte vara true när active_only är true .
job_id INT64 Det jobb som ska köras. Om det utelämnas kommer jobb tjänsten att visa en lista med körningar från alla jobb.
offset INT32 Förskjutningen för den första körningen som ska returneras i förhållande till den senaste körningen.
gräns INT32 Antalet körningar som ska returneras. Värdet måste vara större än 0 och mindre än 1000. Standardvärdet är 20. Om en begäran anger en gräns på 0, kommer tjänsten istället att använda den maximala gränsen.
run_type STRING Den typ av körning som ska returneras. En beskrivning av körnings typer finns i Kör.

Svars struktur

Fältnamn Typ Beskrivning
körs En matris med körning En lista över körningar, från senast startade till minst.
has_more BOOL Om värdet är True är ytterligare körningar som matchar det angivna filtret tillgängliga för List.

Kör get

Slutpunkt HTTP-metod
2.0/jobs/runs/get GET

Hämta metadata för en körning.

Anteckning

Körningar tas bort automatiskt efter 60 dagar. Om du vill referera till dem efter 60 dagar bör du spara gamla körnings resultat innan de går ut. Information om hur du exporterar med hjälp av användar gränssnittet finns i Exportera jobb körnings resultat. Om du vill exportera med hjälp av jobb-API: et, se Kör export.

En exempel förfrågan:

/jobs/runs/get?run_id=452

Ett exempel svar:

{
  "job_id": 1,
  "run_id": 452,
  "number_in_job": 5,
  "state": {
    "life_cycle_state": "RUNNING",
    "state_message": "Performing action"
  },
  "task": {
    "notebook_task": {
      "notebook_path": "/Users/donald@duck.com/my-notebook"
    }
  },
  "cluster_spec": {
    "existing_cluster_id": "1201-my-cluster"
  },
  "cluster_instance": {
    "cluster_id": "1201-my-cluster",
    "spark_context_id": "1102398-spark-context-id"
  },
  "overriding_parameters": {
    "jar_params": ["param1", "param2"]
  },
  "start_time": 1457570074236,
  "end_time": 1457570075149,
  "setup_duration": 259754,
  "execution_duration": 3589020,
  "cleanup_duration": 31038,
  "trigger": "PERIODIC"
}

Begär struktur

Fältnamn Typ Beskrivning
run_id INT64 Den kanoniska identifieraren för körningen som metadata ska hämtas för. Det här fältet är obligatoriskt.

Svars struktur

Fältnamn Typ Beskrivning
job_id INT64 Den kanoniska identifieraren för jobbet som innehåller den här körningen.
run_id INT64 Den kanoniska identifieraren för körningen. Detta ID är unikt för alla körningar av alla jobb.
number_in_job INT64 Sekvensnumret för körningen bland alla körningar av jobbet. Värdet börjar med 1.
original_attempt_run_id INT64 Om den här körningen är ett nytt försök vid ett tidigare körnings försök, innehåller det här fältet run_id av det ursprungliga försöket. annars är det samma som run_id.
state RunState Resultat-och livs cykel tillstånd för körningen.
schedule CronSchedule Det cron-schema som utlöste körningen om det utlöstes av den periodiska Scheduler.
aktivitet JobTask Den aktivitet som utförs av körningen, om det finns någon.
cluster_spec ClusterSpec En ögonblicks bild av jobbets kluster specifikation när den här körningen skapades.
cluster_instance ClusterInstance Klustret som används för den här körningen. Om körningen anges för att använda ett nytt kluster, anges det här fältet när jobb tjänsten har begärt ett kluster för körningen.
overriding_parameters RunParameters De parametrar som används för den här körningen.
start_time INT64 Tiden då den här körningen startades i epok millisekunder (millisekunder sedan 1/1/1970 UTC). Det kanske inte är den tid då jobb aktiviteten börjar köras, till exempel om jobbet är schemalagt att köras i ett nytt kluster, så är det den tidpunkt då kluster anropet skapas.
setup_duration INT64 Tiden det tog att konfigurera klustret i millisekunder. För körningar som körs på nya kluster är det dags att skapa kluster, för körningar som körs på befintliga kluster den här tiden bör vara mycket kort.
execution_duration INT64 Tiden i millisekunder som det tog att köra kommandona i BURKen eller antecknings boken tills de har slutförts, uppnådde sin tids gräns, avbröts eller påträffade ett oväntat fel.
cleanup_duration INT64 Tiden i millisekunder som det tog att avsluta klustret och rensa alla associerade artefakter. Den totala varaktigheten för körningen är summan av setup_duration, execution_duration och cleanup_duration.
utlösare TriggerType Typ av utlösare som startade den här körningen.
creator_user_name STRING Användar namnet för skapare. Det här fältet tas inte med i svaret om användaren har tagits bort
run_page_url STRING URL: en till informations sidan för körningen.

Kör export

Slutpunkt HTTP-metod
2.0/jobs/runs/export GET

Exportera och hämta jobb körnings aktiviteten.

Anteckning

Endast Notebook-körningar kan exporteras i HTML-format. Det går inte att exportera körningar av andra typer.

En exempel förfrågan:

/jobs/runs/export?run_id=452

Ett exempel svar:

{
  "views": [ {
    "content": "<!DOCTYPE html><html><head>Head</head><body>Body</body></html>",
    "name": "my-notebook",
    "type": "NOTEBOOK"
  } ]
}

Om du vill extrahera HTML-anteckningsboken från JSON-svaret laddar du ned och kör det här python-skriptet.

Anteckning

Antecknings bokens brödtext i __DATABRICKS_NOTEBOOK_MODEL objektet är kodad.

Begär struktur

Fältnamn Typ Beskrivning
run_id INT64 Den kanoniska identifieraren för körningen. Det här fältet är obligatoriskt.
views_to_export ViewsToExport Vilka vyer som ska exporteras (kod, instrument paneler eller alla). Standardvärdet är CODE.

Svars struktur

Fältnamn Typ Beskrivning
vyer En matris med ViewItem Det exporterade innehållet i HTML-format (ett för varje visnings objekt).

Kör Avbryt

Slutpunkt HTTP-metod
2.0/jobs/runs/cancel POST

Avbryt en körning. Körningen avbröts asynkront, så när denna begäran slutförs kan körningen fortfarande köras. Körningen avbryts inom kort. Om körningen redan finns i en Terminal life_cycle_state är den här metoden en no-op.

Den här slut punkten kontrollerar att run_id parametern är giltig och att HTTP-statuskod 400 returneras för ogiltiga parametrar.

En exempel förfrågan:

{
  "run_id": 453
}

Begär struktur

Fältnamn Typ Beskrivning
run_id INT64 Det här fältet är obligatoriskt.

Kör Hämta utdata

Slutpunkt HTTP-metod
2.0/jobs/runs/get-output GET

Hämta utdata och metadata för en körning. När en antecknings aktivitet returnerar ett värde via anropet dbutils. Notebook. Exit () kan du använda slut punkten för att hämta det värdet. Azure Databricks begränsar den här API: n för att returnera de första 5 MB av utdata. För att returnera ett större resultat kan du lagra jobb resultat i en moln lagrings tjänst.

Den här slut punkten kontrollerar att run_id parametern är giltig och att HTTP-statuskod 400 returneras för ogiltiga parametrar.

Körningar tas bort automatiskt efter 60 dagar. Om du vill referera till dem efter 60 dagar bör du spara gamla körnings resultat innan de går ut. Information om hur du exporterar med hjälp av användar gränssnittet finns i Exportera jobb körnings resultat. Om du vill exportera med hjälp av jobb-API: et, se Kör export.

En exempel förfrågan:

/jobs/runs/get-output?run_id=453

Och svar:

{
  "metadata": {
    "job_id": 1,
    "run_id": 452,
    "number_in_job": 5,
    "state": {
      "life_cycle_state": "TERMINATED",
      "result_state": "SUCCESS",
      "state_message": ""
    },
    "task": {
      "notebook_task": {
        "notebook_path": "/Users/donald@duck.com/my-notebook"
      }
    },
    "cluster_spec": {
      "existing_cluster_id": "1201-my-cluster"
    },
    "cluster_instance": {
      "cluster_id": "1201-my-cluster",
      "spark_context_id": "1102398-spark-context-id"
    },
    "overriding_parameters": {
      "jar_params": ["param1", "param2"]
    },
    "start_time": 1457570074236,
    "setup_duration": 259754,
    "execution_duration": 3589020,
    "cleanup_duration": 31038,
    "trigger": "PERIODIC"
  },
  "notebook_output": {
    "result": "the maybe truncated string passed to dbutils.notebook.exit()"
  }
}

Begär struktur

Fältnamn Typ Beskrivning
run_id INT64 Den kanoniska identifieraren för körningen. Det här fältet är obligatoriskt.

Svars struktur

Fältnamn Typ Beskrivning
notebook_output eller fel NotebookOutput ELLER STRING Om notebook_output visas resultatet av en antecknings boks uppgift, om det är tillgängligt. En antecknings boks uppgift som avslutas (antingen korrekt eller med ett fel) utan att anropa
dbutils.notebook.exit() anses ha en tom utdata. Det här fältet kommer att anges men dess resultat värde är tomt.

Om det uppstår ett fel meddelande som anger varför utdata inte är tillgängliga. Meddelandet är ostrukturerat och det exakta formatet kan komma att ändras.
metadata Kör All information om körningen förutom utdata.

Kör borttagning

Slutpunkt HTTP-metod
2.0/jobs/runs/delete POST

Ta bort en icke-aktiv körning. Returnerar ett fel om körningen är aktiv.

En exempel förfrågan:

{
  "run_id": 42
}

Begär struktur

Fältnamn Typ Beskrivning
run_id INT64 Den kanoniska identifieraren för körningen som metadata ska hämtas för.

Data strukturer

I det här avsnittet:

ClusterInstance

Identifierare för klustret och Spark-kontexten som används av en körning. Dessa två värden identifierar en körnings kontext över hela tiden.

Fältnamn Typ Beskrivning
cluster_id STRING Den kanoniska identifieraren för klustret som används av en körning. Det här fältet är alltid tillgängligt för körningar i befintliga kluster. För körningar i nya kluster blir de tillgängliga när klustret har skapats. Det här värdet kan användas för att visa loggar genom att bläddra till /#setting/sparkui/$cluster_id/driver-logs . Loggarna är fortfarande tillgängliga när körningen är klar.

Svaret innehåller inte det här fältet om identifieraren inte är tillgänglig ännu.
spark_context_id STRING Kanoniskt ID för Spark-kontexten som används av en körning. Det här fältet kommer att fyllas i när körningen börjar köras. Det här värdet kan användas för att Visa Spark-ANVÄNDARGRÄNSSNITTET genom att bläddra till /#setting/sparkui/$cluster_id/$spark_context_id . Spark-ANVÄNDARGRÄNSSNITTET fortsätter att vara tillgängligt när körningen har slutförts.

Svaret innehåller inte det här fältet om identifieraren inte är tillgänglig ännu.

ClusterSpec

Viktigt

  • När du kör ett jobb i ett nytt jobb kluster behandlas jobbet som en arbets belastning för jobb beräkning (automatiserad) för jobb som beräknar priser.
  • När du kör ett jobb i ett befintligt kluster för alla syften behandlas det som en All-Purpose beräkning (interaktiv) arbets belastning som omfattas av All-Purpose beräknings priser.
Fältnamn Typ Beskrivning
existing_cluster_id eller new_cluster STRING ELLER NewCluster Om existing_cluster_id, det ID för ett befintligt kluster som ska användas för alla körningar av jobbet. När du kör jobb i ett befintligt kluster kan du behöva starta om klustret manuellt om det slutar svara. Vi föreslår att köra jobb på nya kluster för bättre tillförlitlighet.

Om new_cluster, en beskrivning av ett kluster som ska skapas för varje körning.
bibliotek En matris med bibliotek En valfri lista med bibliotek som ska installeras i klustret som ska köra jobbet. Standardvärdet är en tom lista.

CronSchedule

Fältnamn Typ Beskrivning
quartz_cron_expression STRING Ett cron-uttryck som använder Quartz-syntax som beskriver schemat för ett jobb. Mer information finns i cron-utlösaren . Det här fältet är obligatoriskt.
timezone_id STRING Ett Java-timezone-ID. Schemat för ett jobb löses med avseende på den här tids zonen. Mer information finns i Java-timezone . Det här fältet är obligatoriskt.
pause_status STRING Ange om det här schemat har pausats eller inte. Antingen "PAUSad" eller "unpaused".

Jobb

Fältnamn Typ Beskrivning
job_id INT64 Kanoniskt ID för det här jobbet.
creator_user_name STRING Användar namnet för skapare. Det här fältet tas inte med i svaret om användaren redan har tagits bort.
inställningar JobSettings Inställningarna för det här jobbet och alla dess körningar. De här inställningarna kan uppdateras med hjälp av- resetJob metoden.
created_time INT64 Tiden då jobbet skapades i epoker i millisekunder (millisekunder sedan 1/1/1970 UTC).

JobEmailNotifications

Viktigt

Fälten on_start, on_success och on_failure accepterar bara latinska tecken (ASCII-teckenuppsättning). Om icke-ASCII-tecken används returneras ett fel. Exempel på ogiltiga, icke-ASCII-tecken är kinesiska, japanska kanji och emojis.

Fältnamn Typ Beskrivning
on_start En matris med STRING En lista med e-postadresser som ska meddelas när en körning börjar. Om detta inte anges när jobb skapas, återställs eller uppdateras, är listan tom och meddelanden skickas inte.
on_success En matris med STRING En lista med e-postadresser som ska meddelas när en körning har slutförts. En körning anses ha slutförts utan problem om den avslutas med en TERMINATED life_cycle_state och en SUCCESSFUL result_state. Om detta inte anges när jobb skapas, återställs eller uppdateras, är listan tom och meddelanden skickas inte.
on_failure En matris med STRING En lista med e-postadresser som ska meddelas när en körning slutförs. En körning anses ha slutförts utan problem om den slutar med en INTERNAL_ERROR
life_cycle_state eller ett SKIPPED , FAILED -eller TIMED_OUT result_state. Om detta inte anges när jobb skapas, återställs eller uppdateras, kommer listan att vara tom och meddelanden skickas inte.
no_alert_for_skipped_runs BOOL Om det här värdet är sant ska du inte skicka e-post till mottagare som anges i on_failure om körningen hoppas över.

JobSettings

Viktigt

  • När du kör ett jobb i ett nytt jobb kluster behandlas jobbet som en arbets belastning för jobb beräkning (automatiserad) för jobb som beräknar priser.
  • När du kör ett jobb i ett befintligt kluster för alla syften behandlas det som en All-Purpose beräkning (interaktiv) arbets belastning som omfattas av All-Purpose beräknings priser.

Inställningar för ett jobb. De här inställningarna kan uppdateras med hjälp av- resetJob metoden.

Fältnamn Typ Beskrivning
existing_cluster_id eller new_cluster STRING ELLER NewCluster Om existing_cluster_id, det ID för ett befintligt kluster som ska användas för alla körningar av jobbet. När du kör jobb i ett befintligt kluster kan du behöva starta om klustret manuellt om det slutar svara. Vi föreslår att köra jobb på nya kluster för bättre tillförlitlighet.

Om new_cluster, en beskrivning av ett kluster som ska skapas för varje körning.
notebook_task eller spark_jar_task eller spark_python_task eller spark_submit_task NotebookTask ELLER SparkJarTask eller SparkPythonTask eller SparkSubmitTask Om notebook_task, anger det att jobbet ska köra en antecknings bok. Det här fältet får inte anges tillsammans med spark_jar_task.

Om spark_jar_task, anger det att jobbet ska köra en JAR.

Om spark_python_task, anger det att jobbet ska köra en python-fil.

Om spark_submit_task, anger det att jobbet ska startas av Spark-Submit-skriptet.
name STRING Ett valfritt namn för jobbet. Standardvärdet är Untitled.
bibliotek En matris med bibliotek En valfri lista med bibliotek som ska installeras i klustret som ska köra jobbet. Standardvärdet är en tom lista.
email_notifications JobEmailNotifications En valfri uppsättning e-postadresser som ska meddelas när körningar av jobbet börjar eller slutförs samt när jobbet tas bort. Standard beteendet är att inte skicka e-post.
timeout_seconds INT32 En valfri tids gräns som används för varje jobb körning. Standard beteendet är att inte ha någon tids gräns.
max_retries INT32 Ett valfritt maximalt antal gånger att försöka utföra en misslyckad körning. En körning anses vara misslyckad om den är klar med FAILED result_state eller
INTERNAL_ERROR
life_cycle_state. Värdet-1 innebär att ett nytt försök görs i oändlighet och värdet 0 innebär att aldrig nya försök görs. Standard beteendet är att aldrig försöka igen.
min_retry_interval_millis INT32 Ett valfritt minimalt intervall i millisekunder mellan försök. Standard beteendet är att misslyckade körningar görs omedelbart.
retry_on_timeout BOOL En valfri princip för att ange om du vill göra ett nytt försök med ett jobb när tids gränsen uppnåtts. Standard beteendet är att inte försöka igen vid timeout.
schedule CronSchedule Ett valfritt periodiskt schema för det här jobbet. Standard beteendet är att jobbet endast körs när det utlöses genom att klicka på Kör nu i jobb gränssnittet eller skicka en API-begäran till
runNow.
max_concurrent_runs INT32 Ett valfritt maximalt tillåtet antal samtidiga körningar av jobbet.

Ange det här värdet om du vill kunna köra flera körningar av samma jobb samtidigt. Detta är användbart till exempel om du utlöser jobbet enligt ett frekvent schema och vill tillåta att efterföljande körningar överlappar varandra, eller om du vill utlösa flera körningar som skiljer sig från deras indataparametrar.

Den här inställningen påverkar endast nya körningar. Anta till exempel att jobbets samtidighet är 4 och att det finns 4 samtidiga aktiva körningar. Om du sedan anger samtidighet till 3 så kommer inga aktiva körningar att stoppas. Men från och med kommer nya körningar att hoppas över om det inte finns färre än 3 aktiva körningar.

Värdet får inte överstiga 1000. Om du anger värdet 0 hoppas alla nya körningar över. Standard beteendet är att endast tillåta en samtidig körning.

JobTask

Fältnamn Typ Beskrivning
notebook_task eller spark_jar_task eller spark_python_task eller spark_submit_task NotebookTask ELLER SparkJarTask eller SparkPythonTask eller SparkSubmitTask Om notebook_task, anger det att jobbet ska köra en antecknings bok. Det här fältet får inte anges tillsammans med spark_jar_task.

Om spark_jar_task, anger det att jobbet ska köra en JAR.

Om spark_python_task, anger det att jobbet ska köra en python-fil.

Om spark_submit_task, anger det att jobbet ska startas av Spark-Submit-skriptet.

NewCluster

Fältnamn Typ Beskrivning
num_workers eller autoskalning INT32 ELLER Autoskala Om num_workers, antalet arbetsnoder som det här klustret ska ha. Ett kluster har en spark-drivrutin och num_workers körningar för totalt num_workers + 1 Spark-noder.

Obs: när du läser egenskaperna för ett kluster, visar det här fältet det önskade antalet arbetare i stället för det faktiska antalet arbetare. Om ett kluster till exempel ändras mellan 5 och 10 arbetare kommer det här fältet omedelbart att uppdateras för att avspegla mål storleken på 10 arbetare, medan de anställda som anges i spark_info gradvis ökar från 5 till 10 när de nya noderna har tillhandahållits.

Om autoskalning krävs parametrar för att automatiskt skala upp och ned kluster baserat på belastning.
spark_version STRING Spark-versionen av klustret. En lista med tillgängliga Spark-versioner kan hämtas med hjälp av API-anropet för körnings versioner . Det här fältet är obligatoriskt.
spark_conf SparkConfPair Ett objekt som innehåller en uppsättning valfria, användardefinierade konfigurations nyckel/värde-par för Spark-konfiguration. Du kan också skicka en sträng med extra JVM-alternativ till driv rutinen och körningarna via
spark.driver.extraJavaOptions````spark.executor.extraJavaOptionsrespektive.

I exempel Spark ger:
{"spark.speculation": true, "spark.streaming.ui.retainedBatches": 5} eller
{"spark.driver.extraJavaOptions": "-verbose:gc -XX:+PrintGCDetails"}
node_type_id STRING Det här fältet kodas med hjälp av ett enda värde och resurserna som är tillgängliga för var och en av Spark-noderna i det här klustret. Till exempel kan Spark-noderna tillhandahållas och optimeras för minnes-eller beräknings intensiva arbets belastningar som en lista över tillgängliga nodtyper kan hämtas med hjälp av list Node types API-anrop. Det här fältet är obligatoriskt.
driver_node_type_id STRING Nodtypen för Spark-drivrutinen. Det här fältet är valfritt. Om alternativet inte är angivet anges driv Rutinens nodtyp som samma värde som node_type_id definieras ovan.
custom_tags ClusterTag Ett objekt som innehåller en uppsättning taggar för kluster resurser. Databricks Taggar alla kluster resurser (t. ex. virtuella datorer) med dessa taggar utöver default_tags.

Obs:

* Taggar stöds inte på äldre nodtyper, till exempel Compute-optimerad och minnesoptimerade
* Databricks tillåter högst 45 anpassade taggar
cluster_log_conf ClusterLogConf Konfigurationen för att leverera Spark-loggar till ett långsiktigt lagrings mål. Det går bara att ange ett mål för ett kluster. Om conf anges skickas loggarna till målet var 5 mins . Destinationen för driv rutins loggar är <destination>/<cluster-id>/driver , medan målet för utförar-loggarna är <destination>/<cluster-id>/executor .
init_scripts En matris med InitScriptInfo Konfigurationen för att lagra init-skript. Du kan ange valfritt antal skript. Skripten körs sekventiellt i den angivna ordningen. Om cluster_log_conf har angetts skickas initierings skript loggar till
<destination>/<cluster-id>/init_scripts.
spark_env_vars SparkEnvPair Ett objekt som innehåller en uppsättning valfria, användardefinierade miljövariabel nyckel/värde-par. Nyckel/värde-paret i formuläret (X, Y) exporteras som det är (dvs.
export X='Y') när du startar driv rutinen och arbets tagarna.

För att kunna ange ytterligare en uppsättning SPARK_DAEMON_JAVA_OPTS rekommenderar vi att du lägger till dem i $SPARK_DAEMON_JAVA_OPTS som visas i följande exempel. Detta säkerställer att alla standarddatabricks hanterade miljövariabler också ingår.

Exempel på Spark-miljövariabler:
{"SPARK_WORKER_MEMORY": "28000m", "SPARK_LOCAL_DIRS": "/local_disk0"} eller
{"SPARK_DAEMON_JAVA_OPTS": "$SPARK_DAEMON_JAVA_OPTS -Dspark.shuffle.service.enabled=true"}
enable_elastic_disk BOOL Automatisk skalning av lokal lagring: när det här klustret har Aktiver ATS får det dynamiskt ytterligare disk utrymme när Spark-arbetsbelastningarna börjar få ont om disk utrymme. Mer information finns i den automatiska skalningen av lokalt lagrings utrymme .
instance_pool_id STRING Det valfria ID: t för den instans som klustret tillhör. Mer information finns i API för instans pooler .

NotebookOutput

Fältnamn Typ Beskrivning
resultat STRING Värdet som skickades till dbutils. Notebook. Exit (). Azure Databricks begränsar detta API så att det returnerar de första 1 MB av värdet. För ett större resultat kan jobbet lagra resultaten i en moln lagrings tjänst. Det här fältet kommer att saknas om dbutils.notebook.exit() har aldrig anropats.
trunkeras BOOLEAN Huruvida resultatet trunkerades eller inte.

NotebookTask

Alla utdata-celler är beroende av storleken 8 MB. Om resultatet av en cell har större storlek avbryts resten av körningen och körningen markeras som misslyckad. I så fall kan vissa av innehållet i de andra cellerna också saknas. Om du behöver hjälp med att hitta cellen som ligger utanför gränsen kör du antecknings boken mot ett kluster för alla syften och använder den här AUTOSPARNING-tekniken i Notebook.

Fältnamn Typ Beskrivning
notebook_path STRING Den absoluta sökvägen till antecknings boken som ska köras i Azure Databricks arbets ytan. Sökvägen måste börja med ett snedstreck. Det här fältet är obligatoriskt.
revision_timestamp LONG Tidsstämpeln för revideringen av antecknings boken.
base_parameters En karta över ParamPair Bas parametrar som ska användas för varje jobb körning. Om körningen initieras av ett anrop till run-now med angivna parametrar, sammanfogas de två parameter mappningarna. Om samma nyckel anges i base_parameters och i run-now , kommer värdet från run-now att användas.

Om antecknings boken tar en parameter som inte anges i jobbets base_parameters eller run-now åsidosätter parametrarna, kommer standardvärdet från antecknings boken att användas.

Hämta parametrarna i en bärbar dator med hjälp av dbutils. rewidgets. get.

ParamPair

Namnbaserade parametrar för jobb som kör Notebook-uppgifter.

Viktigt

Fälten i den här data strukturen accepterar endast latinska tecken (ASCII-teckenuppsättning). Om icke-ASCII-tecken används returneras ett fel. Exempel på ogiltiga, icke-ASCII-tecken är kinesiska, japanska kanji och emojis.

Typ Beskrivning
STRING Parameternamn. Skicka till dbutils. rewidgets. get för att hämta värdet.
STRING Parameter värde.

Kör

All information om en körning förutom dess utdata. Utdata kan hämtas separat med- getRunOutput metoden.

Fältnamn Typ Beskrivning
job_id INT64 Den kanoniska identifieraren för jobbet som innehåller den här körningen.
run_id INT64 Den kanoniska identifieraren för körningen. Detta ID är unikt för alla körningar av alla jobb.
creator_user_name STRING Användar namnet för skapare. Det här fältet tas inte med i svaret om användaren redan har tagits bort.
number_in_job INT64 Sekvensnumret för körningen bland alla körningar av jobbet. Värdet börjar med 1.
original_attempt_run_id INT64 Om den här körningen är ett nytt försök vid ett tidigare körnings försök, innehåller det här fältet run_id av det ursprungliga försöket. annars är det samma som run_id.
state RunState Resultat-och livs cykel tillstånd för körningen.
schedule CronSchedule Det cron-schema som utlöste körningen om det utlöstes av den periodiska Scheduler.
aktivitet JobTask Den aktivitet som utförs av körningen, om det finns någon.
cluster_spec ClusterSpec En ögonblicks bild av jobbets kluster specifikation när den här körningen skapades.
cluster_instance ClusterInstance Klustret som används för den här körningen. Om körningen anges för att använda ett nytt kluster, anges det här fältet när jobb tjänsten har begärt ett kluster för körningen.
overriding_parameters RunParameters De parametrar som används för den här körningen.
start_time INT64 Tiden då den här körningen startades i epok millisekunder (millisekunder sedan 1/1/1970 UTC). Det kanske inte är den tid då jobb aktiviteten börjar köras, till exempel om jobbet är schemalagt att köras i ett nytt kluster, så är det den tidpunkt då kluster anropet skapas.
setup_duration INT64 Tiden det tog att konfigurera klustret i millisekunder. För körningar som körs på nya kluster är det dags att skapa kluster, för körningar som körs på befintliga kluster den här tiden bör vara mycket kort.
execution_duration INT64 Tiden i millisekunder som det tog att köra kommandona i BURKen eller antecknings boken tills de har slutförts, uppnådde sin tids gräns, avbröts eller påträffade ett oväntat fel.
cleanup_duration INT64 Tiden i millisekunder som det tog att avsluta klustret och rensa alla associerade artefakter. Den totala varaktigheten för körningen är summan av setup_duration, execution_duration och cleanup_duration.
utlösare TriggerType Typ av utlösare som startade den här körningen.
run_name STRING Ett valfritt namn för körningen. Standardvärdet är Untitled. Den högsta tillåtna längden är 4096 byte i UTF-8-kodning.
run_page_url STRING URL: en till informations sidan för körningen.
run_type STRING Typen av körning.

* JOB_RUN – Normal jobb körning. En körning som skapats med Kör nu.
* WORKFLOW_RUN – Kör arbets flöde. En körning som skapats med dbutils. Notebook. Run.
* SUBMIT_RUN -Skicka körning. En körning som skapats med Kör nu.

RunParameters

Parametrar för den här körningen. Endast en av jar_params, python_params eller notebook_params ska anges i run-now begäran, beroende på typen av jobb aktivitet. Jobb med Spark jar-uppgift eller python-uppgift tar en lista med positions parametrar och jobb med antecknings uppgifter tar en nyckel värdes karta.

Fältnamn Typ Beskrivning
jar_params En matris med STRING En lista med parametrar för jobb med Spark JAR-uppgifter, t. ex. "jar_params": ["john doe", "35"] . Parametrarna används för att anropa huvud funktionen i den huvud klass som anges i Spark-åtgärden Spark. Om detta inte anges på run-now , kommer standardvärdet för en tom lista. jar_params kan inte anges tillsammans med notebook_params. JSON-representationen av det här fältet (d.v.s. {"jar_params":["john doe","35"]} ) får inte överskrida 10 000 byte.
notebook_params En karta över ParamPair En karta från nycklar till värden för jobb med antecknings boks aktivitet, t. ex.
"notebook_params": {"name": "john doe", "age": "35"}. Kartan skickas till den bärbara datorn och kan nås via funktionen dbutils. widgets. get .

Om run-now den Utlös ande körningen inte anges använder jobbets bas parametrar.

notebook_params kan inte anges tillsammans med jar_params.

JSON-representationen av det här fältet (t. ex.
{"notebook_params":{"name":"john doe","age":"35"}}) får inte överskrida 10 000 byte.
python_params En matris med STRING En lista med parametrar för jobb med python-uppgifter, t. ex. "python_params": ["john doe", "35"] . Parametrarna skickas till python-filen som kommando rads parametrar. Om det anges på run-now , skriver det över de parametrar som anges i jobb inställningen. JSON-representationen av det här fältet (d.v.s. {"python_params":["john doe","35"]} ) får inte överskrida 10 000 byte.

> [!IMPORTANT] > > de här parametrarna bara accepterar latinska tecken (ASCII-teckenuppsättning). > att använda icke-ASCII-tecken returnerar ett fel. Exempel på ogiltiga, icke-ASCII-tecken är > kinesiska, japanska kanji och emojis.
spark_submit_params En matris med STRING En lista med parametrar för jobb med Spark skicka uppgift, t. ex.
"spark_submit_params": ["--class", "org.apache.spark.examples.SparkPi"]. Parametrarna skickas till Spark-Submit-skript som kommando rads parametrar. Om det anges på run-now , skriver det över de parametrar som anges i jobb inställningen. JSON-representationen av det här fältet (d.v.s. {"python_params":["john doe","35"]} ) får inte överskrida 10 000 byte.

> [!IMPORTANT] > > de här parametrarna bara accepterar latinska tecken (ASCII-teckenuppsättning). > att använda icke-ASCII-tecken returnerar ett fel. Exempel på ogiltiga, icke-ASCII-tecken är > kinesiska, japanska kanji och emojis.

RunState

Fältnamn Typ Beskrivning
life_cycle_state RunLifeCycleState En beskrivning av en körnings aktuella plats i körnings livs cykeln. Det här fältet är alltid tillgängligt i svaret.
result_state RunResultState Resultat tillstånd för en körning. Om det inte är tillgängligt innehåller svaret inte det här fältet. Se RunResultState för mer information om tillgängligheten för result_state.
state_message STRING Ett beskrivande meddelande för det aktuella läget. Det här fältet är ostrukturerat och det exakta formatet kan komma att ändras.

SparkJarTask

Fältnamn Typ Beskrivning
jar_uri STRING Inaktuell sedan 04/2016. Ange ett i jar libraries fältet i stället. Ett exempel finns i skapa.
main_class_name STRING Det fullständiga namnet på klassen som innehåller den huvudsakliga metoden som ska köras. Den här klassen måste finnas i en JAR-form som är ett bibliotek.

Koden ska använda SparkContext.getOrCreate för att hämta en spark-kontext, annars Miss lyckas körningarna av jobbet.
parametrar En matris med STRING Parametrar som skickas till main-metoden.

SparkPythonTask

Fältnamn Typ Beskrivning
python_file STRING URI för python-filen som ska köras. DBFS-sökvägar stöds. Det här fältet är obligatoriskt.
parametrar En matris med STRING Kommando rads parametrar har skickats till python-filen.

SparkSubmitTask

Viktigt

  • Du kan bara anropa Spark-uppgifter på nya kluster.
  • I new_cluster specifikation libraries och spark_conf stöds inte. Använd --jars och --py-files för att lägga till Java-och Python-bibliotek och --conf Ange Spark-konfigurationen.
  • master, deploy-mode och executor-cores konfigureras automatiskt av Azure Databricks. du kan inte ange dem i parametrar.
  • Som standard använder Spark-jobbet allt tillgängligt minne (exklusive reserverat minne för Azure Databricks Services). Du kan ange --driver-memory , och --executor-memory till ett mindre värde för att lämna lite utrymme för användning av andra användare än heap.
  • --jars --py-files --files Argumenten,, stöder DBFS sökvägar.

Anta till exempel att JAR överförs till DBFS, du kan köra SparkPi genom att ange följande parametrar.

{
  "parameters": [
    "--class",
    "org.apache.spark.examples.SparkPi",
    "dbfs:/path/to/examples.jar",
    "10"
  ]
}
Fältnamn Typ Beskrivning
parametrar En matris med STRING Kommando rads parametrar som skickats till Spark-överföring.

ViewItem

Det exporterade innehållet är i HTML-format. Om vyn som ska exporteras till exempel är instrument paneler returneras en HTML-sträng för varje instrument panel.

Fältnamn Typ Beskrivning
innehåll STRING Innehåll i vyn.
name STRING Namnet på objektet View. När det gäller kodvyn skulle det vara antecknings bokens namn. Om det är ett instrument panels läge, är det instrument panelens namn.
typ ViewType Typ av visnings objekt.

RunLifeCycleState

Livs cykel tillstånd för en körning. Tillåtna tillstånds över gångar är:

  • PENDING -> RUNNING -> TERMINATING -> TERMINATED
  • PENDING -> SKIPPED
  • PENDING -> INTERNAL_ERROR
  • RUNNING -> INTERNAL_ERROR
  • TERMINATING -> INTERNAL_ERROR
Stat Beskrivning
PENDING Körningen har utlösts. Om det inte redan finns en aktiv körning av samma jobb förbereds klustret och körnings kontexten. Om det redan finns en aktiv körning av samma jobb övergår körningen omedelbart till SKIPPED läget utan att förbereda några resurser.
RUNNING Uppgiften för den här körningen körs.
TERMINATING Aktiviteten för den här körningen har slutförts och klustret och körnings kontexten rensas.
TERMINATED Aktiviteten för den här körningen har slutförts och klustret och körnings kontexten har rensats. Det här läget är Terminal.
SKIPPED Den här körningen avbröts eftersom en tidigare körning av samma jobb redan var aktiv. Det här läget är Terminal.
INTERNAL_ERROR Ett utmärkt tillstånd som indikerar ett haveri i jobb-tjänsten, t. ex. nätverks haveri över en längre period. Om en körning i ett nytt kluster upphör i INTERNAL_ERROR status avslutar jobb tjänsten klustret så snart som möjligt. Det här läget är Terminal.

RunResultState

Resultat tillstånd för körningen.

  • Om life_cycle_state = TERMINATED : om aktiviteten körs hade en uppgift, garanteras att resultatet är tillgängligt och indikerar resultatet av uppgiften.
  • Om life_cycle_state = PENDING , RUNNING eller SKIPPED , är resultat statusen inte tillgänglig.
  • IF life_cycle_state = TERMINATING eller lifecyclestate = INTERNAL_ERROR : resultat tillstånd är tillgängligt om körningen hade en aktivitet och hanterades för att starta den.

Resultatet ändras aldrig när det är tillgängligt.

Stat Beskrivning
RESULTATET Uppgiften har slutförts.
DET GICK INTE Uppgiften slutfördes med ett fel.
STÄNGNINGSÅTGÄRD Körningen stoppades när tids gränsen nåddes.
AVBRUTNA Körningen avbröts på användarens begäran.

TriggerType

Detta är den typ av utlösare som kan utlösa en körning.

Typ Beskrivning
SKRIFTER Scheman som regelbundet utlöser körningar, till exempel en cron Scheduler.
ONE_TIME En tids utlösare som utlöser en enskild körning. Detta inträffar när du har utlöst en enskild körning på begäran via användar gränssnittet eller API: et.
FÖRSÖK igen Anger en körning som utlöses som ett nytt försök för en tidigare misslyckad körning. Detta inträffar när du begär att köra jobbet igen om det uppstår fel.

ViewType

Typ Beskrivning
1150 Anteckningsbok-vyns objekt.
INSTRUMENTPANEL Instrument panels visnings objekt.

ViewsToExport

Visa för att exportera: antingen kod, alla instrument paneler eller alla.

Typ Beskrivning
CODE Vyn kod för antecknings boken.
INSTRUMENTPANELER Alla instrument panels visningar i antecknings boken.
ALL Alla vyer av antecknings boken.