Démarrage : interroger et visualiser des données à partir d’un notebook

Cet article de démarrage explique pas à pas comment utiliser un notebook Azure Databricks pour interroger des exemples de données stockés dans Unity Catalog en utilisant SQL, Python, Scala et R, puis comment visualiser les résultats de la requête dans le notebook.

Spécifications

Pour effectuer les tâches décrites dans cet article, vous devez répondre aux exigences suivantes :

Étape 1 : créer un notebook

Pour créer un notebook dans votre espace de travail :

  1. Cliquez sur Nouvelle icôneNouveau dans la barre latérale, puis sur Notebook.
  2. Sur la page Créer un notebook :
    • Attribuez un nom unique à votre notebook.
    • Définissez le langage par défaut de votre notebook, puis cliquez sur Confirmer si vous y êtes invité.
    • Utilisez le menu déroulant Connecter pour sélectionner une ressource de calcul. Pour créer une ressource de calcul, consultez Utiliser le calcul.

Pour en savoir plus sur la création et la gestion des notebooks, consultez Gérer les notebooks.

Étape 2 : interroger une table

Interrogez la table samples.nyctaxi.trips dans Unity Catalog en utilisant le langage de votre choix.

SQL

  1. Copiez et collez le code suivant dans la nouvelle cellule de notebook vide. Ce code affiche les résultats de l’interrogation de la table samples.nyctaxi.trips dans Unity Catalog.
SELECT * FROM samples.nyctaxi.trips

Python

  1. Copiez et collez le code suivant dans la nouvelle cellule de notebook vide. Ce code affiche les résultats de l’interrogation de la table samples.nyctaxi.trips dans Unity Catalog.
display(spark.read.table("samples.nyctaxi.trips"))

Scala

  1. Copiez et collez le code suivant dans la nouvelle cellule de notebook vide. Ce code affiche les résultats de l’interrogation de la table samples.nyctaxi.trips dans Unity Catalog.
display(spark.read.table("samples.nyctaxi.trips"))

R

  1. Copiez et collez le code suivant dans la nouvelle cellule de notebook vide. Ce code affiche les résultats de l’interrogation de la table samples.nyctaxi.trips dans Unity Catalog.
library(SparkR)
display(sql("SELECT * FROM samples.nyctaxi.trips"))
  1. Appuyez sur Shift+Enter pour exécuter la cellule et passer à la cellule suivante.

    Les résultats de la requête s’affichent dans le notebook.

Étape 3 : afficher les données

Affichez le prix moyen par distance de trajet, en regroupant les résultats selon le code postal au départ de la course.

  1. Près de l’onglet Table, cliquez sur +, puis sur Visualisation.

    L’éditeur de visualisation affiche.

  2. Dans la liste déroulante Type de visualisation, vérifiez que Barre est sélectionnée.

  3. Sélectionnez fare_amount pour la Colonne X.

  4. Sélectionnez trip_distance pour la Colonne Y.

  5. Sélectionnez Average comme type d’agrégation.

  6. Sélectionnez pickup_zip pour la colonne Regrouper par.

    Graphique à barres

  7. Cliquez sur Enregistrer.

Étapes suivantes