Démarrage rapide : Exécuter une tâche Spark sur Azure Databricks avec le portail AzureQuickstart: Run a Spark job on Azure Databricks using the Azure portal

Dans ce guide de démarrage rapide, vous allez utiliser le portail Azure pour créer un espace de travail Azure Databricks avec un cluster Apache Spark.In this quickstart, you use the Azure portal to create an Azure Databricks workspace with an Apache Spark cluster. Vous exécutez un travail sur le cluster et utilisez des graphiques personnalisés pour produire des rapports en temps réel à partir de données de sécurité Boston.You run a job on the cluster and use custom charts to produce real-time reports from Boston safety data.

PrérequisPrerequisites

Connectez-vous au portail Azure.Sign in to the Azure portal

Connectez-vous au portail Azure.Sign in to the Azure portal.

Notes

Ce didacticiel ne peut pas être suivi avec un abonnement d’essai gratuit Azure.This tutorial cannot be carried out using Azure Free Trial Subscription. Si vous avez un compte gratuit, accédez à votre profil et modifiez votre abonnement sur Paiement à l’utilisation.If you have a free account, go to your profile and change your subscription to pay-as-you-go. Pour plus d’informations, consultez la page Compte Azure gratuit.For more information, see Azure free account. Ensuite, supprimez la limite de dépense, et demandez une augmentation du quota pour les processeurs virtuels dans votre région.Then, remove the spending limit, and request a quota increase for vCPUs in your region. Lorsque vous créez votre espace de travail Azure Databricks, vous pouvez sélectionner le tarif Version d’évaluation (Premium - 14 jours de DBU offerts) pour donner à l’accès de l’espace de travail un accès gratuit aux DBU d’Azure Databricks pendant 14 jours.When you create your Azure Databricks workspace, you can select the Trial (Premium - 14-Days Free DBUs) pricing tier to give the workspace access to free Premium Azure Databricks DBUs for 14 days.

Créer un espace de travail Azure DatabricksCreate an Azure Databricks workspace

Dans cette section, vous créez un espace de travail Azure Databricks en utilisant le portail Azure.In this section, you create an Azure Databricks workspace using the Azure portal.

  1. Dans le portail Azure, sélectionnez Créer une ressource > Analytique > Azure Databricks.In the Azure portal, select Create a resource > Analytics > Azure Databricks.

    Databricks sur le portail AzureDatabricks on Azure portal

  2. Sous Service Azure Databricks, renseignez les valeurs pour créer un espace de travail Databricks.Under Azure Databricks Service, provide the values to create a Databricks workspace.

    Créer un espace de travail Azure DatabricksCreate an Azure Databricks workspace

    Renseignez les valeurs suivantes :Provide the following values:

    PropriétéProperty DescriptionDescription
    Nom de l’espace de travailWorkspace name Renseignez un nom pour votre espace de travail Databricks.Provide a name for your Databricks workspace
    AbonnementSubscription Sélectionnez votre abonnement Azure dans la liste déroulante.From the drop-down, select your Azure subscription.
    Groupe de ressourcesResource group Indiquez si vous souhaitez créer un groupe de ressources Azure ou utiliser un groupe existant.Specify whether you want to create a new resource group or use an existing one. Un groupe de ressources est un conteneur réunissant les ressources associées d’une solution Azure.A resource group is a container that holds related resources for an Azure solution. Pour plus d’informations, consultez Présentation des groupes de ressources Azure.For more information, see Azure Resource Group overview.
    LieuLocation Sélectionnez USA Ouest 2.Select West US 2. Pour les autres régions disponibles, consultez Disponibilité des services Azure par région.For other available regions, see Azure services available by region.
    Niveau tarifairePricing Tier Choisissez Standard, Premium ou Essai.Choose between Standard, Premium, or Trial. Pour plus d’informations sur ces niveaux, consultez la page de tarification Databricks.For more information on these tiers, see Databricks pricing page.
  3. Sélectionnez Vérifier + créer, puis Créer.Select Review + Create, and then Create. La création de l’espace de travail dure quelques minutes.The workspace creation takes a few minutes. Pendant la création de l'espace de travail, vous pouvez consulter l'état du déploiement dans Notifications.During workspace creation, you can view the deployment status in Notifications. À l’issue de ce processus, votre compte d’utilisateur est automatiquement ajouté comme utilisateur administrateur dans l’espace de travail.Once this process is finished, your user account is automatically added as an admin user in the workspace.

    Vignette de déploiement DatabricksDatabricks deployment tile

    Lorsque le déploiement d’un espace de travail échoue, l’espace de travail est malgré tout créé en état d’échec.When a workspace deployment fails, the workspace is still created in a failed state. Supprimez l’espace de travail défaillant et créez un espace de travail qui résout les erreurs de déploiement.Delete the failed workspace and create a new workspace that resolves the deployment errors. Lorsque vous supprimez l’espace de travail défaillant, le groupe de ressources managé et toutes les ressources déployées correctement sont également supprimés.When you delete the failed workspace, the managed resource group and any successfully deployed resources are also deleted.

Créer un cluster Spark dans DatabricksCreate a Spark cluster in Databricks

Notes

Pour utiliser un compte gratuit pour créer le cluster Azure Databricks, avant de créer le cluster, accédez à votre profil et définissez votre abonnement sur paiement à l’utilisation.To use a free account to create the Azure Databricks cluster, before creating the cluster, go to your profile and change your subscription to pay-as-you-go. Pour plus d’informations, consultez la page Compte Azure gratuit.For more information, see Azure free account.

  1. Dans le portail Azure, accédez à l’espace de travail Databricks que vous avez créé, puis cliquez sur Initialiser l’espace de travail.In the Azure portal, go to the Databricks workspace that you created, and then click Launch Workspace.

  2. Vous êtes redirigé vers le portail Azure Databricks.You are redirected to the Azure Databricks portal. Sur le portail, cliquez sur Nouveau cluster.From the portal, click New Cluster.

    Databricks sur AzureDatabricks on Azure

  3. Dans la page Nouveau cluster, renseignez les valeurs pour créer un cluster.In the New cluster page, provide the values to create a cluster.

    Créer un cluster Databricks Spark sur AzureCreate Databricks Spark cluster on Azure

    Acceptez toutes les valeurs par défaut autres que les suivantes :Accept all other default values other than the following:

    • Entrez un nom pour le cluster.Enter a name for the cluster.

    • Pour cet article, créez un cluster avec le runtime 5.3.For this article, create a cluster with 5.3 runtime.

    • Veillez à cocher la case Arrêter après __ minutes d’inactivité.Make sure you select the Terminate after __ minutes of inactivity checkbox. Spécifiez une durée (en minutes) pour arrêter le cluster, si le cluster n’est pas utilisé.Provide a duration (in minutes) to terminate the cluster, if the cluster is not being used.

      Sélectionnez Créer un cluster.Select Create cluster. Une fois que le cluster est en cours d’exécution, vous pouvez y attacher des notebooks et exécuter des travaux Spark.Once the cluster is running, you can attach notebooks to the cluster and run Spark jobs.

Pour plus d’informations sur la création de clusters, consultez Créer un cluster Spark dans Azure Databricks.For more information on creating clusters, see Create a Spark cluster in Azure Databricks.

Exécuter un travail Spark SQLRun a Spark SQL job

Procédez comme suit pour créer un notebook dans Databricks, le configurer pour lire les données d'une instance d'Azure Open Datasets, puis exécuter un travail Spark SQL sur les données.Perform the following tasks to create a notebook in Databricks, configure the notebook to read data from an Azure Open Datasets, and then run a Spark SQL job on the data.

  1. Dans le volet gauche, sélectionnez Azure Databricks.In the left pane, select Azure Databricks. Dans Tâches courantes, sélectionnez Nouveau notebook.From the Common Tasks, select New Notebook.

    Créer un notebook dans DatabricksCreate notebook in Databricks

  2. Dans la boîte de dialogue Créer un notebook, entrez un nom, sélectionnez Python comme langage, puis sélectionnez le cluster Spark que vous avez créé précédemment.In the Create Notebook dialog box, enter a name, select Python as the language, and select the Spark cluster that you created earlier.

    Créer un notebook dans DatabricksCreate notebook in Databricks

    Sélectionnez Create (Créer).Select Create.

  3. Au cours de cette étape, créez un DataFrame Spark avec les données de sécurité Boston d'Azure Open Datasets, et utilisez SQL pour interroger les données.In this step, create a Spark DataFrame with Boston Safety Data from Azure Open Datasets, and use SQL to query the data.

    La commande suivante définit les informations d'accès au stockage Azure.The following command sets the Azure storage access information. Collez ce code PySpark dans la première cellule et appuyez sur Maj+Entrée pour exécuter le code.Paste this PySpark code into the first cell and use Shift+Enter to run the code.

    blob_account_name = "azureopendatastorage"
    blob_container_name = "citydatacontainer"
    blob_relative_path = "Safety/Release/city=Boston"
    blob_sas_token = r"?st=2019-02-26T02%3A34%3A32Z&se=2119-02-27T02%3A34%3A00Z&sp=rl&sv=2018-03-28&sr=c&sig=XlJVWA7fMXCSxCKqJm8psMOh0W4h7cSYO28coRqF2fs%3D"
    

    La commande suivante permet à Spark de lire à distance le stockage d'objets Blob.The following command allows Spark to read from Blob storage remotely. Collez ce code PySpark dans la cellule suivante et appuyez sur Maj+Entrée pour exécuter le code.Paste this PySpark code into the next cell and use Shift+Enter to run the code.

    wasbs_path = 'wasbs://%s@%s.blob.core.windows.net/%s' % (blob_container_name, blob_account_name, blob_relative_path)
    spark.conf.set('fs.azure.sas.%s.%s.blob.core.windows.net' % (blob_container_name, blob_account_name), blob_sas_token)
    print('Remote blob path: ' + wasbs_path)
    

    La commande suivante crée un DataFrame.The following command creates a DataFrame. Collez ce code PySpark dans la cellule suivante et appuyez sur Maj+Entrée pour exécuter le code.Paste this PySpark code into the next cell and use Shift+Enter to run the code.

    df = spark.read.parquet(wasbs_path)
    print('Register the DataFrame as a SQL temporary view: source')
    df.createOrReplaceTempView('source')
    
  4. Exécutez une instruction SQL pour renvoyer les 10 premières lignes de données de la vue temporaire appelée source.Run a SQL statement return the top 10 rows of data from the temporary view called source. Collez ce code PySpark dans la cellule suivante et appuyez sur Maj+Entrée pour exécuter le code.Paste this PySpark code into the next cell and use Shift+Enter to run the code.

    print('Displaying top 10 rows: ')
    display(spark.sql('SELECT * FROM source LIMIT 10'))
    
  5. Vous voyez une sortie tabulaire, comme celle qui est montrée dans la capture d’écran suivante (seules certaines colonnes apparaissent) :You see a tabular output like shown in the following screenshot (only some columns are shown):

    Exemples de donnéesSample data

  6. Vous allez maintenant créer une représentation visuelle de ces données pour indiquer le nombre d'événements de sécurité signalés à l'aide de l'application Citizens Connect et de l'application City Worker au lieu d'autres sources.You now create a visual representation of this data to show how many safety events are reported using the Citizens Connect App and City Worker App instead of other sources. Dans le bas de la sortie tabulaire, sélectionnez l'icône Graphique à barres, puis cliquez sur Options de traçage.From the bottom of the tabular output, select the Bar chart icon, and then click Plot Options.

    Créer un graphique à barresCreate bar chart

  7. Dans Personnaliser le traçage, faites un glisser-déplacer des valeurs comme indiqué dans la capture d’écran.In Customize Plot, drag-and-drop values as shown in the screenshot.

    Personnaliser le graphique à secteursCustomize pie chart

    • Définissez Clés sur source.Set Keys to source.

    • Définissez Valeurs sur <\id> .Set Values to <\id>.

    • Définissez Agrégation sur COUNT.Set Aggregation to COUNT.

    • Définissez Type d'affichage sur Graphique en secteurs.Set Display type to Pie chart.

      Cliquez sur Appliquer.Click Apply.

Nettoyer les ressourcesClean up resources

Une fois l’article terminé, vous pouvez arrêter le cluster.After you have finished the article, you can terminate the cluster. Pour cela, dans l’espace de travail Azure Databricks, dans le volet gauche, sélectionnez Clusters.To do so, from the Azure Databricks workspace, from the left pane, select Clusters. Pour le cluster que vous voulez arrêter, déplacez le curseur sur les points de suspension dans la colonne Actions, puis sélectionnez l’icône Arrêter.For the cluster you want to terminate, move the cursor over the ellipsis under Actions column, and select the Terminate icon.

Arrêter un cluster DatabricksStop a Databricks cluster

Si vous n’arrêtez pas le cluster manuellement, il s’arrête automatiquement, à condition d’avoir coché la case Arrêter après __ minutes d’inactivité durant la création du cluster.If you do not manually terminate the cluster it will automatically stop, provided you selected the Terminate after __ minutes of inactivity checkbox while creating the cluster. Dans ce cas, le cluster s’arrête automatiquement s’il a été inactif pendant la période renseignée.In such a case, the cluster automatically stops, if it has been inactive for the specified time.

Étapes suivantesNext steps

Dans cet article, vous avez créé un cluster Spark dans Azure Databricks et exécuté un travail Spark avec des données d'Azure Open Datasets.In this article, you created a Spark cluster in Azure Databricks and ran a Spark job using data from Azure Open Datasets. Vous pouvez également consulter Sources de données Spark pour découvrir comment importer des données à partir d’autres sources de données dans Azure Databricks.You can also look at Spark data sources to learn how to import data from other data sources into Azure Databricks. Passez à l’article suivant pour savoir comment effectuer une opération ETL (extraction, transformation et chargement de données) à l’aide d’Azure Databricks.Advance to the next article to learn how to perform an ETL operation (extract, transform, and load data) using Azure Databricks.