Démarrage rapide sur les travaux

Cet article présente un travail de Azure Databricks qui orchestre les tâches de lecture et de traitement d’un exemple de jeu de données. Dans ce guide de démarrage rapide, vous :

  1. Créez un nouveau bloc-notes et ajoutez du code pour récupérer un exemple de jeu de données contenant des noms de bébé populaires par année.
  2. Enregistrez l’exemple de jeu de données sur DBFS.
  3. Créez un nouveau bloc-notes et ajoutez du code pour lire le jeu de données à partir de DBFS, le filtrer par année et afficher les résultats.
  4. Créez un nouveau travail et configurez deux tâches à l’aide des blocs-notes.
  5. Exécutez la tâche et affichez les résultats.

Spécifications

Les éléments suivants sont requis pour effectuer ce démarrage rapide :

Créer les blocs-notes

Récupérer et enregistrer des données

Pour créer un bloc-notes afin de récupérer l’exemple de jeu de données et l’enregistrer sur DBFS :

  1. Accédez à la page d’accueil de votre Azure Databricks, sélectionnez créer un bloc-notes vide ou cliquez sur créer une icônecréer dans la barre latérale et sélectionnez Notebook dans le menu. La boîte de dialogue créer un bloc-notes s’affiche.

  2. Dans la boîte de dialogue créer un bloc-notes , donnez un nom à votre bloc-notes. par exemple, Récupérez les noms des bébés. Sélectionnez python dans le menu déroulant langue par défaut . Vous pouvez conserver la valeur par défaut du paramètre cluster . Vous configurez le cluster lorsque vous créez une tâche à l’aide de ce bloc-notes.

  3. Cliquez sur Créer.

  4. Copiez le code python suivant et collez-le dans la première cellule du bloc-notes.

    import requests
    
    response = requests.get('http://health.data.ny.gov/api/views/myeu-hzra/rows.csv')
    csvfile = response.content.decode('utf-8')
    dbutils.fs.put("dbfs:/FileStore/babynames.csv", csvfile, True)
    

Lire et afficher des données filtrées

Pour créer un bloc-notes pour lire et présenter les données à filtrer :

  1. Accédez à la page d’accueil de votre Azure Databricks, sélectionnez créer un bloc-notes vide ou cliquez sur créer une icônecréer dans la barre latérale et sélectionnez Notebook dans le menu. La boîte de dialogue créer un bloc-notes s’affiche.

  2. Dans la boîte de dialogue créer un bloc-notes , donnez un nom à votre bloc-notes. par exemple, filtrez les noms d’enfants. Sélectionnez python dans le menu déroulant langue par défaut . Vous pouvez conserver la valeur par défaut du paramètre cluster . Vous configurez le cluster lorsque vous créez une tâche à l’aide de ce bloc-notes.

  3. Cliquez sur Créer.

  4. Copiez le code python suivant et collez-le dans la première cellule du bloc-notes.

    babynames = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("dbfs:/FileStore/babynames.csv")
    babynames.createOrReplaceTempView("babynames_table")
    years = spark.sql("select distinct(Year) from babynames_table").rdd.map(lambda row : row[0]).collect()
    years.sort()
    dbutils.widgets.dropdown("year", "2014", [str(x) for x in years])
    display(babynames.filter(babynames.Year == dbutils.widgets.get("year")))
    

Créer un travail

  1. Cliquez sur tâches icônetravaux dans la barre latérale.

  2. Cliquez sur le bouton créer une tâche.

    L’onglet tâches s’affiche avec la boîte de dialogue créer une tâche.

    Boîte de dialogue créer une première tâche

  3. Remplacez Ajouter un nom pour votre travail... avec le nom de votre travail.

  4. Dans le champ nom de la tâche , entrez un nom pour la tâche. par exemple, Retrieve-bébé-Names.

  5. Dans la liste déroulante type , sélectionnez Notebook.

  6. Utilisez l’Explorateur de fichiers pour rechercher le premier bloc-notes que vous avez créé, cliquez sur le nom du bloc-notes, puis sur confirmer.

  7. Cliquez sur créer une tâche.

  8. Cliquez sur le bouton Ajouter une tâche sous la tâche que vous venez de créer pour ajouter une autre tâche.

  9. Dans le champ nom de la tâche , entrez un nom pour la tâche. par exemple, Filter-bébé-Names.

  10. Dans la liste déroulante type , sélectionnez Notebook.

  11. Utilisez l’Explorateur de fichiers pour rechercher le deuxième bloc-notes que vous avez créé, cliquez sur le nom du bloc-notes, puis sur confirmer.

  12. Cliquez sur Ajouter sous paramètres. Dans le champ clé , entrez . Dans le champ valeur , entrez .

  13. Cliquez sur créer une tâche.

Exécuter le travail

Pour exécuter la tâche immédiatement, cliquez sur le bouton Exécuter maintenant dans le coin supérieur droit. Vous pouvez également exécuter la tâche en cliquant sur l’onglet exécutions , puis en cliquant sur Exécuter maintenant dans le tableau des exécutions actives .

Afficher les détails de l’exécution

  1. Cliquez sur l’onglet exécutions , puis sur afficher les détails dans le tableau exécutions actives ou dans le tableau exécutions terminées (60 derniers jours) .

  2. Cliquez sur l’une des tâches pour afficher la sortie et les détails. Par exemple, cliquez sur la tâche Filter-bébé-Names pour afficher l’État et la sortie de la tâche de filtre :

    Afficher les résultats des noms de filtre

Exécuter avec des paramètres différents

Pour réexécuter la tâche et filtrer les noms des bébés pour une autre année :

  1. Cliquez sur le signe insertion bleu en regard de Exécuter maintenant , puis sélectionnez Exécuter maintenant avec des paramètres différents ou cliquez sur Exécuter maintenant avec des paramètres différents dans le tableau des exécutions actives .
  2. Dans le champ valeur , entrez .
  3. Cliquez sur Exécuter.