travauxJobs

Un travail est un moyen d’exécuter un bloc-notes ou un fichier JAR, soit immédiatement, soit selon une planification.A job is a way of running a notebook or JAR either immediately or on a scheduled basis. L’autre façon d’exécuter un bloc-notes est interactive dans l' interface utilisateur du Notebook.The other way to run a notebook is interactively in the notebook UI.

Vous pouvez créer et exécuter des travaux à l’aide de l’interface utilisateur, de l’interface CLI et en appelant l’API Jobs.You can create and run jobs using the UI, the CLI, and by invoking the Jobs API. Vous pouvez surveiller les résultats de l’exécution des travaux dans l’interface utilisateur, à l’aide de l’interface CLI, en interrogeant l’API et via des alertes par courrier électronique.You can monitor job run results in the UI, using the CLI, by querying the API, and through email alerts. Cet article se concentre sur l’exécution de tâches de travail à l’aide de l’interface utilisateur.This article focuses on performing job tasks using the UI. Pour les autres méthodes, consultez l' interface CLI travaux et l' API Jobs.For the other methods, see Jobs CLI and Jobs API.

Important

  • Le nombre de travaux est limité à 1000.The number of jobs is limited to 1000.
  • Le nombre de travaux qu’un espace de travail peut créer dans une heure est limité à 5000 (y compris « exécuter maintenant » et « exécutions »).The number of jobs a workspace can create in an hour is limited to 5000 (includes “run now” and “runs submit”). Cette limite affecte également les travaux créés par les workflows de l’API REST et des notebooks.This limit also affects jobs created by the REST API and notebook workflows.
  • Un espace de travail est limité à 150 exécutions de travaux simultanées (exécution en cours).A workspace is limited to 150 concurrent (running) job runs.
  • Un espace de travail est limité à 1000 exécutions de travaux actives (exécution en cours et en attente).A workspace is limited to 1000 active (running and pending) job runs.

Afficher les travauxView jobs

Cliquer sur l’icône travauxClick the Jobs icon Icône du menu travaux dans la barre latérale.in the sidebar. La liste des tâches s’affiche.The Jobs list displays. La page travaux répertorie tous les travaux définis, la définition du cluster, le calendrier, le cas échéant, et le résultat de la dernière exécution.The Jobs page lists all defined jobs, the cluster definition, the schedule if any, and the result of the last run.

Dans la liste des tâches, vous pouvez filtrer les tâches :In the Jobs list, you can filter jobs:

  • Utilisation des mots clés.Using key words.
  • Sélectionnez uniquement les travaux dont vous êtes propriétaire ou ceux auxquels vous avez accès.Selecting only jobs you own or jobs you have access to. L’accès à ce filtre dépend de l’activation du contrôle d’accès des tâches .Access to this filter depends on Jobs access control being enabled.

Vous pouvez également cliquer sur n’importe quel en-tête de colonne pour trier la liste des travaux (décroissant ou croissant) par cette colonne.You can also click any column header to sort the list of jobs (either descending or ascending) by that column. Par défaut, la page est triée sur les noms de travaux dans l’ordre croissant.By default, the page is sorted on job names in ascending order.

Liste des tâchesJobs list

Créer un travail Create a job

  1. Cliquez sur + créer un travail.Click + Create Job. La page Détails du travail s’affiche.The job detail page displays.

    Détail du travailJob detail

  2. Entrez un nom dans le champ de texte avec le texte de l’espace réservé Untitled .Enter a name in the text field with the placeholder text Untitled.

  3. Spécifiez le type de tâche : cliquez sur Sélectionner un Notebook, Définissez jarou configurez Spark-Submit.Specify the task type: click Select Notebook, Set JAR, or Configure spark-submit.

    • NotebookNotebook

      1. Sélectionnez un bloc-notes, puis cliquez sur OK.Select a notebook and click OK.
      2. En regard de paramètres, cliquez sur modifier.Next to Parameters, click Edit. Spécifiez des paires clé-valeur ou une chaîne JSON représentant des paires clé-valeur.Specify key-value pairs or a JSON string representing key-value pairs. Ces paramètres définissent la valeur des widgets.Such parameters set the value of widgets.
    • Jar: téléchargez un fichier jar, spécifiez la classe et les arguments principaux, puis cliquez sur OK.JAR: Upload a JAR, specify the main class and arguments, and click OK. Pour en savoir plus sur les travaux JAR, consultez les conseils de travail jar.To learn more about JAR jobs, see JAR job tips.

    • Spark-Submit: spécifiez la classe principale, le chemin d’accès au fichier jar de la bibliothèque, les arguments, puis cliquez sur confirmer.spark-submit: Specify the main class, path to the library JAR, arguments, and click Confirm. Pour en savoir plus sur l’envoi de Spark, consultez la documentation Apache Spark.To learn more about spark-submit, see the Apache Spark documentation.

      Notes

      Les fonctionnalités de Azure Databricks suivantes ne sont pas disponibles pour les travaux Spark-submit :The following Azure Databricks features are not available for spark-submit jobs:

      • Mise à l’échelle automatique du cluster.Cluster autoscaling. Pour en savoir plus sur la mise à l’échelle automatique, consultez mise à l’échelleautomatique du cluster.To learn more about autoscaling, see Cluster autoscaling.
      • Utilitaires Databricks.Databricks Utilities. Si vous souhaitez utiliser les utilitaires Databricks, utilisez des travaux JAR à la place.If you want to use Databricks Utilities, use JAR jobs instead.
  4. Dans le champ bibliothèques dépendantes, cliquez éventuellement sur Ajouter et spécifiez bibliothèques dépendantes.In the Dependent Libraries field, optionally click Add and specify dependent libraries. Les bibliothèques dépendantes sont automatiquement attachées au cluster au lancement.Dependent libraries are automatically attached to the cluster on launch. Suivez les recommandations dans dépendances de bibliothèque pour spécifier des dépendances.Follow the recommendations in Library dependencies for specifying dependencies.

    Important

    Si vous avez configuré une bibliothèque pour qu’elle s' installe automatiquement sur tous les clusters ou à l’étape suivante, vous sélectionnez un cluster terminé existant sur lequel des bibliothèques sont installées, l’exécution du travail n’attend pas l’installation de la bibliothèque.If you have configured a library to automatically install on all clusters or in the next step you select an existing terminated cluster that has libraries installed, the job execution does not wait for library installation to complete. Si un travail requiert une bibliothèque spécifique, vous devez attacher la bibliothèque au travail dans le champ bibliothèques dépendantes.If a job requires a certain library, you should attach the library to the job in the Dependent Libraries field.

  5. Dans le champ cluster, cliquez sur modifier et spécifiez le cluster sur lequel exécuter le travail.In the Cluster field, click Edit and specify the cluster on which to run the job. Dans la liste déroulante type de cluster, choisissez nouveau cluster de travail ou cluster à usage général existant.In the Cluster Type drop-down, choose New Job Cluster or Existing All-Purpose Cluster.

    Notes

    Gardez à l’esprit les points suivants lorsque vous choisissez un type de cluster :Keep the following in mind when you choose a cluster type:

    • Pour les travaux au niveau de la production ou les travaux dont l’exécution est importante, nous vous recommandons de sélectionner nouveau cluster de travail.For production-level jobs or jobs that are important to complete, we recommend that you select New Job Cluster.
    • Vous pouvez exécuter les travaux Spark-Submit uniquement sur les nouveaux clusters.You can run spark-submit jobs only on new clusters.
    • Lorsque vous exécutez un travail sur un nouveau cluster, le travail est traité comme une charge de travail d’ingénierie des données (tâche) soumise à la tarification de la charge de travail du travail.When you run a job on a new cluster, the job is treated as a data engineering (job) workload subject to the job workload pricing. Lorsque vous exécutez un travail sur un cluster existant, le travail est traité comme une charge de travail d’analyse des données (à usage général) soumise à la tarification de la charge de travail à usage général.When you run a job on an existing cluster, the job is treated as a data analytics (all-purpose) workload subject to all-purpose workload pricing.
    • Si vous sélectionnez un cluster existant terminé et que le propriétaire du travail peut redémarrer l' autorisation, Azure Databricks démarre le cluster lorsque l’exécution du travail est planifiée.If you select a terminated existing cluster and the job owner has Can Restart permission, Azure Databricks starts the cluster when the job is scheduled to run.
    • Les clusters existants fonctionnent mieux pour les tâches telles que la mise à jour des tableaux de bord à intervalles réguliers.Existing clusters work best for tasks such as updating dashboards at regular intervals.
    • Nouveau cluster de travail : terminez la configuration du cluster.New Job Cluster - complete the cluster configuration.
      1. Dans la configuration du cluster, sélectionnez une version du Runtime.In the cluster configuration, select a runtime version. Pour obtenir de l’aide sur la sélection d’une version du runtime, consultez Databricks Runtime et Databricks Light.For help with selecting a runtime version, see Databricks Runtime and Databricks Light.
      2. Pour réduire l’heure de début du nouveau cluster, sélectionnez un pool dans la configuration du cluster.To decrease new cluster start time, select a pool in the cluster configuration.
    • Cluster à usage général existant : dans la liste déroulante, sélectionnez le cluster existant.Existing All-Purpose Cluster - in the drop-down, select the existing cluster.
  6. Dans le champ calendrier, cliquez éventuellement sur modifier et planifier le travail.In the Schedule field, optionally click Edit and schedule the job. Consultez exécuter un travail.See Run a job.

  7. Si vous le souhaitez, cliquez sur avancé et spécifiez les options de travail avancées.Optionally click Advanced and specify advanced job options. Consultez options de tâche avancées.See Advanced job options.

Afficher les détails d' une tâche View job details

Dans la page travaux, cliquez sur un nom de travail dans la colonne nom.On the Jobs page, click a job name in the Name column. La page Détails de la tâche affiche les paramètres de configuration, les exécutions actives (en cours d’exécution et en attente) et les exécutions terminées.The job details page shows configuration parameters, active runs (running and pending), and completed runs.

Détails du travailJob details

Databricks conserve un historique de vos exécutions de travaux pendant jusqu’à 60 jours.Databricks maintains a history of your job runs for up to 60 days. Si vous devez conserver des exécutions de travaux, nous vous recommandons d’exporter les résultats de l’exécution du travail avant qu’ils n’expirent.If you need to preserve job runs, we recommend that you export job run results before they expire. Pour plus d’informations, consultez exporter les résultats de l' exécution du travail.For more information, see Export job run results.

Dans la page exécutions du travail, vous pouvez afficher l’erreur standard, la sortie standard, la sortie log4j pour un travail exécuté en cliquant sur le lien journaux dans la colonne Spark.In the job runs page, you can view the standard error, standard output, log4j output for a job run by clicking the Logs link in the Spark column.

Exécuter une tâcheRun a job

Vous pouvez exécuter un travail selon une planification ou immédiatement.You can run a job on a schedule or immediately.

Planifier un travailSchedule a job

Pour définir une planification pour le travail :To define a schedule for the job:

  1. Cliquez sur modifier en regard de planification.Click Edit next to Schedule.

    Modifier une planificationEdit schedule

    La boîte de dialogue planifier le travail s’affiche.The Schedule Job dialog displays.

    Planifier le travailSchedule job

  2. Spécifiez la granularité de la planification, l’heure de début et le fuseau horaire.Specify the schedule granularity, starting time, and time zone. Si vous le souhaitez, activez la case à cocher afficher la syntaxe cron pour afficher et modifier la planification dans la syntaxe de la quartz cron.Optionally select the Show Cron Syntax checkbox to display and edit the schedule in Quartz Cron Syntax.

    Notes

    • Azure Databricks applique un intervalle minimal de 10 secondes entre les exécutions suivantes déclenchées par la planification d’un travail, quelle que soit la configuration en secondes de l’expression cron.Azure Databricks enforces a minimum interval of 10 seconds between subsequent runs triggered by the schedule of a job regardless of the seconds configuration in the cron expression.
    • Vous pouvez choisir un fuseau horaire qui respecte l’heure d’été ou l’heure UTC.You can choose a time zone that observes daylight saving time or a UTC time. Si vous sélectionnez une zone qui respecte l’heure d’été, une tâche horaire est ignorée ou peut sembler ne pas se déclencher pendant une heure ou deux lorsque l’heure d’été commence ou se termine.If you select a zone that observes daylight saving time, an hourly job will be skipped or may appear to not fire for an hour or two when daylight saving time begins or ends. Si vous souhaitez que les travaux s’exécutent toutes les heures (heure absolue), choisissez une heure UTC.If you want jobs to run at every hour (absolute time), choose a UTC time.
    • Le planificateur de tâches, comme l’interface Spark batch interface, n’est pas destiné aux tâches à faible latence.The job scheduler, like the Spark batch interface, is not intended for low latency jobs. En raison de problèmes de réseau ou de Cloud, les exécutions de tâches peuvent parfois être retardées jusqu’à plusieurs minutes.Due to network or cloud issues, job runs may occasionally be delayed up to several minutes. Dans ce cas, les tâches planifiées sont exécutées immédiatement après la disponibilité du service.In these situations, scheduled jobs will run immediately upon service availability.
  3. Cliquez sur Confirmer.Click Confirm.

    Travail planifiéJob scheduled

Suspendre et reprendre une planification de travailPause and resume a job schedule

Pour suspendre un travail, cliquez sur le bouton Pause en regard de la planification du travail :To pause a job, click the Pause button next to the job schedule:

Travail planifiéJob scheduled

Pour reprendre une planification de travail suspendue, cliquez sur le bouton Resume :To resume a paused job schedule, click the Resume button:

Reprendre le travailResume job

Exécuter immédiatement un travailRun a job immediately

Pour exécuter la tâche immédiatement, dans le tableau exécutions actives , cliquez sur Exécuter maintenant.To run the job immediately, in the Active runs table click Run Now.

Exécuter maintenantRun now

Conseil

Cliquez sur Exécuter maintenant pour effectuer une série de tests de votre bloc-notes ou jar lorsque vous avez terminé de configurer votre travail.Click Run Now to do a test run of your notebook or JAR when you’ve finished configuring your job. Si votre bloc-notes échoue, vous pouvez le modifier pour que le travail exécute automatiquement la nouvelle version du bloc-notes.If your notebook fails, you can edit it and the job will automatically run the new version of the notebook.

Exécuter un travail avec des paramètres différents Run a job with different parameters

Vous pouvez utiliser Exécuter maintenant avec des paramètres différents pour réexécuter une tâche en spécifiant des paramètres différents ou des valeurs différentes pour les paramètres existants.You can use Run Now with Different Parameters to re-run a job specifying different parameters or different values for existing parameters.

  1. Dans le tableau exécutions actives , cliquez sur Exécuter maintenant avec des paramètres différents.In the Active runs table, click Run Now with Different Parameters. La boîte de dialogue varie selon que vous exécutez un travail de bloc-notes ou un travail d’envoi Spark.The dialog varies depending on whether you are running a notebook job or a spark-submit job.

    • Notebook : une interface utilisateur qui vous permet de définir des paires clé-valeur ou un objet JSON s’affiche.Notebook - A UI that lets you set key-value pairs or a JSON object displays. Vous pouvez utiliser cette boîte de dialogue pour définir les valeurs des widgets:You can use this dialog to set the values of widgets:

      Exécuter le bloc-notes avec des paramètresRun notebook with parameters

    • la boîte de dialogue Spark-Submit -A contenant la liste des paramètres s’affiche.spark-submit - A dialog containing the list of parameters displays. Par exemple, vous pouvez exécuter l’estimateur SparkPi décrit dans créer un travail avec 100 au lieu des 10 partitions par défaut :For example, you could run the SparkPi estimator described in Create a job with 100 instead of the default 10 partitions:

      Définir les paramètres Spark-SubmitSet spark-submit parameters

  2. Spécifiez les paramètres.Specify the parameters. Les paramètres fournis sont fusionnés avec les paramètres par défaut pour la série déclenchée.The provided parameters are merged with the default parameters for the triggered run. Si vous supprimez des clés, les paramètres par défaut sont utilisés.If you delete keys, the default parameters are used.

  3. Cliquez sur Exécuter.Click Run.

Conseils sur les travaux Notebook Notebook job tips

La sortie totale des cellules du bloc-notes (la sortie combinée de toutes les cellules du bloc-notes) est soumise à une limite de taille de 20 Mo.Total notebook cell output (the combined output of all notebook cells) is subject to a 20MB size limit. En outre, la sortie de cellule individuelle est soumise à une limite de taille de 8 Mo.Additionally, individual cell output is subject to an 8MB size limit. Si la taille totale des cellules dépasse 20 Mo, ou si la sortie d’une cellule individuelle est supérieure à 8 Mo, l’exécution est annulée et marquée comme ayant échoué.If total cell output exceeds 20MB in size, or if the output of an individual cell is larger than 8MB, the run will be canceled and marked as failed. Si vous avez besoin d’aide pour trouver des cellules proches ou supérieures à la limite, exécutez le bloc-notes sur un cluster à usage général et utilisez cette technique d’enregistrement automatique du bloc-notes.If you need help finding cells that are near or beyond the limit, run the notebook against an all-purpose cluster and use this notebook autosave technique.

Conseils sur les travaux jar JAR job tips

Vous devez tenir compte de certains points à prendre en compte lors de l’exécution d’un travail JAR.There are some caveats you need to be aware of when you run a JAR job.

Limites de taille de la sortie Output size limits

Notes

Disponible dans Databricks Runtime 6,3 et versions ultérieures.Available in Databricks Runtime 6.3 and above.

La sortie d’une tâche, telle que la sortie de journal émise vers stdout, est soumise à une limite de taille de 20 Mo.Job output, such as log output emitted to stdout, is subject to a 20MB size limit. Si la sortie totale a une taille supérieure, l’exécution est annulée et marquée comme ayant échoué.If the total output has a larger size, the run will be canceled and marked as failed.

Pour éviter d’être confronté à cette limite, vous pouvez empêcher le retour de stdout du pilote à Azure Databricks en affectant spark.databricks.driver.disableScalaOutput à la configuration Spark la valeur true .To avoid encountering this limit, you can prevent stdout from being returned from the driver to Azure Databricks by setting the spark.databricks.driver.disableScalaOutput Spark configuration to true. Par défaut, la valeur de l’indicateur est false .By default the flag value is false. L’indicateur contrôle la sortie de cellule pour les travaux JAR Scala et les blocs-notes Scala.The flag controls cell output for Scala JAR jobs and Scala notebooks. Si l’indicateur est activé, Spark ne retourne pas les résultats de l’exécution du travail au client.If the flag is enabled, Spark does not return job execution results to the client. L’indicateur n’affecte pas les données écrites dans les fichiers journaux du cluster.The flag does not affect the data that is written in the cluster’s log files. Définir cet indicateur est recommandé uniquement pour les clusters de travaux pour les travaux JAR, car il désactive les résultats du Notebook.Setting this flag is recommended only for job clusters for JAR jobs, because it will disable notebook results.

Utiliser le partagé SparkContext Use the shared SparkContext

Étant donné que Databricks est un service géré, certaines modifications du code peuvent être nécessaires pour s’assurer que vos travaux de Apache Spark s’exécutent correctement.Because Databricks is a managed service, some code changes may be necessary to ensure that your Apache Spark jobs run correctly. Les programmes de travail JAR doivent utiliser l' SparkContext API partagée pour accéder au SparkContext .JAR job programs must use the shared SparkContext API to get the SparkContext. Étant donné que Databricks Initialise le SparkContext , les programmes qui appellent new SparkContext() échouent.Because Databricks initializes the SparkContext, programs that invoke new SparkContext() will fail. Pour ce faire SparkContext , utilisez uniquement le partagé SparkContext créé par Databricks :To get the SparkContext, use only the shared SparkContext created by Databricks:

val goodSparkContext = SparkContext.getOrCreate()
val goodSparkSession = SparkSession.builder().getOrCreate()

En outre, il existe plusieurs méthodes que vous devez éviter lorsque vous utilisez le partagé SparkContext .In addition, there are several methods you should avoid when using the shared SparkContext.

  • N’appelez pas SparkContext.stop().Do not call SparkContext.stop().
  • N’appelez pas System.exit(0) ou sc.stop() à la fin de votre Main programme.Do not call System.exit(0) or sc.stop() at the end of your Main program. Cela peut entraîner un comportement indéfini.This can cause undefined behavior.

Utiliser try-finally des blocs pour le nettoyage du travailUse try-finally blocks for job clean up

Imaginez un fichier JAR constitué de deux parties :Consider a JAR that consists of two parts:

  • jobBody() qui contient la partie principale du travailjobBody() which contains the main part of the job
  • jobCleanup() qui doit être exécuté après jobBody() , que cette fonction succès ou ait retourné une exceptionjobCleanup() which has to be executed after jobBody(), irrespective of whether that function succeded or returned an exception

Par exemple, jobBody() peut créer des tables, et vous pouvez utiliser jobCleanup() pour supprimer ces tables.As an example, jobBody() may create tables, and you can use jobCleanup() to drop these tables.

Le moyen le plus sûr de s’assurer que la méthode de nettoyage est appelée consiste à placer un try-finally bloc dans le code :The safe way to ensure that the clean up method is called is to put a try-finally block in the code:

try {
  jobBody()
} finally {
  jobCleanup()
}

Vous ne devez pas essayer de nettoyer avec sys.addShutdownHook(jobCleanup) ouYou should should not try to clean up using sys.addShutdownHook(jobCleanup) or

val cleanupThread = new Thread { override def run = jobCleanup() }
Runtime.getRuntime.addShutdownHook(cleanupThread)

En raison du mode de gestion de la durée de vie des conteneurs Spark dans Azure Databricks, les raccordements d’arrêt ne sont pas exécutés de manière fiable.Due to the way the lifetime of Spark containers is managed in Azure Databricks, the shutdown hooks are not run reliably.

Configurer les paramètres du travail JARConfigure JAR job parameters

Les travaux JAR sont paramétrés avec un tableau de chaînes.JAR jobs are parameterized with an array of strings.

  • Dans l’interface utilisateur, vous entrez les paramètres dans la zone de texte arguments qui sont fractionnés en tableau en appliquant des règles d’analyse de Shell POSIX.In the UI, you input the parameters in the Arguments text box which are split into an array by applying POSIX shell parsing rules. Pour plus d’informations, consultez la documentation ShlEx.For more information, reference the shlex documentation.
  • Dans l’API, vous entrez les paramètres en tant que tableau JSON standard.In the API, you input the parameters as a standard JSON array. Pour plus d’informations, consultez SparkJarTask.For more information, reference SparkJarTask. Pour accéder à ces paramètres, inspectez le String tableau passé dans votre main fonction.To access these parameters, inspect the String array passed into your main function.

Afficher les détails de l’exécution du travail View job run details

Une page Détails de l’exécution du travail contient la sortie du travail et des liens vers les journaux :A job run details page contains job output and links to logs:

Détails de l’exécution du travailJob run details

Vous pouvez afficher les détails de l’exécution du travail à partir de la page travaux et de la page clusters.You can view job run details from the Jobs page and the Clusters page.

  • Cliquez sur l’icône tâches icône  tâches .Click the Jobs icon Jobs Menu Icon. Dans la colonne exécuter du tableau terminé au cours des 60 derniers jours , cliquez sur le lien Numéro d’exécution.In the Run column of the Completed in past 60 days table, click the run number link.

    Exécution du travail à partir de travauxJob run from Jobs

  • Cliquez sur l’icône clusters icône  clusters .Click the Clusters icon Clusters Icon. Dans une ligne de travail de la table clusters de travail , cliquez sur le lien exécuter la tâche .In a job row in the Job Clusters table, click the Job Run link.

    Exécution de travaux à partir de clustersJob run from Clusters

Exporter les résultats de l’exécution du travail Export job run results

Vous pouvez exporter les résultats d’exécution du bloc-notes et les journaux d’exécution des travaux pour tous les types de travaux.You can export notebook run results and job run logs for all job types.

Exporter les résultats de l’exécution du bloc-notesExport notebook run results

Vous pouvez conserver les exécutions de travaux en exportant leurs résultats.You can persist job runs by exporting their results. Pour les tâches du bloc-notes, vous pouvez Exporter un bloc-notes rendu qui peut être ensuite importé dans votre espace de travail Databricks.For notebook job runs, you can export a rendered notebook which can be later be imported into your Databricks workspace.

  1. Dans la page Détails du travail, cliquez sur le nom d’exécution du travail dans la colonne exécuter.In the job detail page, click a job run name in the Run column.

    Exécution du travailJob run

  2. Cliquez sur Exporter au format html.Click Export to HTML.

    Exporter le résultat de la sérieExport run result

Exporter les journaux d’exécution des travauxExport job run logs

Vous pouvez également exporter les journaux de l’exécution de votre travail.You can also export the logs for your job run. Pour automatiser ce processus, vous pouvez configurer votre travail afin qu’il remette automatiquement les journaux à DBFS via l’API Job.To automate this process, you can set up your job so that it automatically delivers logs to DBFS through the Job API. Pour plus d’informations, consultez les champs NewCluster et ClusterLogConf dans l’appel d’API de création de tâche.For more information, see the NewCluster and ClusterLogConf fields in the Job Create API call.

Modifier un travailEdit a job

Pour modifier un travail, cliquez sur le lien nom du travail dans la liste travaux.To edit a job, click the job name link in the Jobs list.

Supprimer un travailDelete a job

Pour supprimer un travail, cliquez sur le x dans la colonne action de la liste travaux.To delete a job, click the x in the Action column in the Jobs list.

Dépendances de bibliothèqueLibrary dependencies

Le pilote Spark a certaines dépendances de bibliothèque qui ne peuvent pas être remplacées.The Spark driver has certain library dependencies that cannot be overridden. Ces bibliothèques sont prioritaires par rapport à l’une de vos propres bibliothèques qui sont en conflit avec elles.These libraries take priority over any of your own libraries that conflict with them.

Pour obtenir la liste complète des dépendances de la bibliothèque de pilotes, exécutez la commande suivante à l’intérieur d’un bloc-notes attaché à un cluster de la même version Spark (ou du cluster avec le pilote que vous souhaitez examiner).To get the full list of the driver library dependencies, run the following command inside a notebook attached to a cluster of the same Spark version (or the cluster with the driver you want to examine).

%sh
ls /databricks/jars

Gérer les dépendances de bibliothèqueManage library dependencies

Une bonne règle empirique pour gérer les dépendances de bibliothèque lors de la création de fichiers jar pour les travaux consiste à répertorier Spark et Hadoop en tant que provided dépendances.A good rule of thumb when dealing with library dependencies while creating JARs for jobs is to list Spark and Hadoop as provided dependencies. Sur Maven, ajoutez Spark et/ou Hadoop comme dépendances fournies, comme indiqué dans l’exemple suivant.On Maven, add Spark and/or Hadoop as provided dependencies as shown in the following example.

<dependency>
  <groupId>org.apache.spark</groupId>
  <artifactId>spark-core_2.11</artifactId>
  <version>2.3.0</version>
  <scope>provided</scope>
</dependency>
<dependency>
  <groupId>org.apache.hadoop</groupId>
  <artifactId>hadoop-core</artifactId>
  <version>1.2.1</version>
  <scope>provided</scope>
</dependency>

Dans sbt , ajoutez Spark et Hadoop en tant que dépendances fournies, comme indiqué dans l’exemple suivant.In sbt, add Spark and Hadoop as provided dependencies as shown in the following example.

libraryDependencies += "org.apache.spark" %% "spark-core" % "2.3.0" % "provided"
libraryDependencies += "org.apache.hadoop" %% "hadoop-core" % "1.2.1" % "provided"

Conseil

Spécifiez la version Scala correcte pour vos dépendances en fonction de la version que vous exécutez.Specify the correct Scala version for your dependencies based on the version you are running.

Options de tâche avancéesAdvanced job options

Nombre maximal d’exécutions simultanéesMaximum concurrent runs

Nombre maximal d’exécutions qui peuvent être exécutées en parallèle.The maximum number of runs that can be run in parallel. Lors du démarrage d’une nouvelle exécution, Azure Databricks ignore l’exécution si le travail a déjà atteint son nombre maximal d’exécutions actives.On starting a new run, Azure Databricks skips the run if the job has already reached its maximum number of active runs. Définissez cette valeur sur une valeur supérieure à la valeur par défaut de 1 si vous souhaitez pouvoir exécuter plusieurs exécutions du même travail simultanément.Set this value higher than the default of 1 if you want to be able to perform multiple runs of the same job concurrently. Cela est utile par exemple si vous déclenchez un travail à intervalles fréquents et que vous souhaitez autoriser les exécutions consécutives à se chevaucher, ou si vous souhaitez déclencher plusieurs exécutions qui diffèrent par leurs paramètres d’entrée.This is useful for example if you trigger your job on a frequent schedule and want to allow consecutive runs to overlap with each other, or if you want to trigger multiple runs that differ by their input parameters.

AlertesAlerts

Alertes par courrier électronique envoyées en cas d’échec, de réussite ou d’expiration du travail.Email alerts sent in case of job failure, success, or timeout. Vous pouvez définir des alertes pour le début de la tâche, la réussite du travail et l’échec de la tâche (y compris les travaux ignorés), en fournissant plusieurs adresses de messagerie séparées par des virgules pour chaque type d’alerte.You can set alerts up for job start, job success, and job failure (including skipped jobs), providing multiple comma-separated email addresses for each alert type. Vous pouvez également refuser les alertes pour les exécutions de travaux ignorées.You can also opt out of alerts for skipped job runs.

Configurer des alertes par courrier électroniqueConfigure email alerts

Intégrez ces alertes par courrier électronique à vos outils de notification préférés, notamment :Integrate these email alerts with your favorite notification tools, including:

Délai d'expirationTimeout

Durée d’exécution maximale d’un travail.The maximum completion time for a job. Si la tâche n’est pas terminée dans ce délai, Databricks définit son état sur « expiré ».If the job does not complete in this time, Databricks sets its status to “Timed Out”.

Nouvelle tentativesRetries

Stratégie qui détermine à quel moment et à combien de fois les exécutions ayant échoué sont retentées.Policy that determines when and how many times failed runs are retried.

Stratégie de nouvelle tentativeRetry policy

Notes

Si vous configurez le délai d’expiration et les nouvelles tentatives, le délai d’attente s’applique à chaque nouvelle tentative.If you configure both Timeout and Retries, the timeout applies to each retry.

Contrôler l’accès aux travaux Control access to jobs

Le contrôle d’accès aux travaux permet aux propriétaires de travaux et aux administrateurs d’accorder des autorisations affinées sur leurs travaux.Job access control enable job owners and administrators to grant fine grained permissions on their jobs. Avec les contrôles d’accès aux travaux, les propriétaires de travaux peuvent choisir les utilisateurs ou les groupes qui peuvent afficher les résultats du travail.With job access controls, job owners can choose which other users or groups can view results of the job. Les propriétaires peuvent également choisir qui peut gérer les exécutions de leur travail (c’est-à-dire appeler exécuter maintenant et annuler).Owners can also choose who can manage runs of their job (that is, invoke Run Now and Cancel.)

Pour plus d’informations, consultez contrôle d’accès aux tâches .See Jobs access control for details.