Schnellstart: Ausführen eines Spark-Auftrags in Azure Databricks über das Azure-PortalQuickstart: Run a Spark job on Azure Databricks using the Azure portal

In dieser Schnellstartanleitung verwenden Sie das Azure-Portal, um einen Azure Databricks-Arbeitsbereich mit einem Apache Spark-Cluster zu erstellen.In this quickstart, you use the Azure portal to create an Azure Databricks workspace with an Apache Spark cluster. Sie führen einen Auftrag für den Cluster aus und verwenden benutzerdefinierte Diagramme, um Echtzeitberichte aus Boston-Sicherheitsdaten zu erstellen.You run a job on the cluster and use custom charts to produce real-time reports from Boston safety data.

VoraussetzungenPrerequisites

Melden Sie sich auf dem Azure-Portal an.Sign in to the Azure portal

Melden Sie sich beim Azure-Portal an.Sign in to the Azure portal.

Hinweis

Dieses Tutorial kann nicht mit dem kostenlosen Azure-Testabonnement absolviert werden.This tutorial cannot be carried out using Azure Free Trial Subscription. Wenn Sie ein kostenloses Konto haben, rufen Sie Ihr Profil auf, und ändern Sie Ihr Abonnement auf Nutzungsbasierte Bezahlung.If you have a free account, go to your profile and change your subscription to pay-as-you-go. Weitere Informationen finden Sie unter Kostenloses Azure-Konto.For more information, see Azure free account. Entfernen Sie das dann Ausgabenlimit, und fordern Sie die Erhöhung des Kontingents für vCPUs in Ihrer Region an.Then, remove the spending limit, and request a quota increase for vCPUs in your region. Wenn Sie Ihren Azure Databricks-Arbeitsbereich erstellen, können Sie den Tarif Testversion (Premium – 14 Tage kostenlosen DBUs) auswählen, damit Sie über den Arbeitsbereich 14 Tage lang auf kostenlose Premium Azure Databricks-DBUs zugreifen können.When you create your Azure Databricks workspace, you can select the Trial (Premium - 14-Days Free DBUs) pricing tier to give the workspace access to free Premium Azure Databricks DBUs for 14 days.

Erstellen eines Azure Databricks-ArbeitsbereichsCreate an Azure Databricks workspace

In diesem Abschnitt erstellen Sie einen Azure Databricks-Arbeitsbereich über das Azure-Portal.In this section, you create an Azure Databricks workspace using the Azure portal.

  1. Klicken Sie im Azure-Portal auf Ressource erstellen > Analysen > Azure Databricks.In the Azure portal, select Create a resource > Analytics > Azure Databricks.

    Databricks im Azure-PortalDatabricks on Azure portal

  2. Geben Sie unter Azure Databricks-Dienst die Werte für die Erstellung eines Databricks-Arbeitsbereichs an.Under Azure Databricks Service, provide the values to create a Databricks workspace.

    Erstellen eines Azure Databricks-ArbeitsbereichsCreate an Azure Databricks workspace

    Geben Sie außerdem die folgenden Werte an:Provide the following values:

    EigenschaftProperty BESCHREIBUNGDescription
    ArbeitsbereichsnameWorkspace name Geben Sie einen Namen für Ihren Databricks-Arbeitsbereich an.Provide a name for your Databricks workspace
    AbonnementSubscription Wählen Sie in der Dropdownliste Ihr Azure-Abonnement aus.From the drop-down, select your Azure subscription.
    RessourcengruppeResource group Geben Sie an, ob Sie eine neue Ressourcengruppe erstellen oder eine vorhandene Ressourcengruppe verwenden möchten.Specify whether you want to create a new resource group or use an existing one. Eine Ressourcengruppe ist ein Container, der verwandte Ressourcen für eine Azure-Lösung enthält.A resource group is a container that holds related resources for an Azure solution. Weitere Informationen finden Sie in der Übersicht über den Azure Resource Manager.For more information, see Azure Resource Group overview.
    LocationLocation Wählen Sie USA, Westen 2 aus.Select West US 2. Informationen zu weiteren verfügbaren Regionen finden Sie unter Verfügbare Produkte nach Region.For other available regions, see Azure services available by region.
    TarifPricing Tier Wählen Sie zwischen Standard, Premium oder Testversion.Choose between Standard, Premium, or Trial. Weitere Informationen zu diesen Tarifen, finden Sie unter Azure Databricks – Preise.For more information on these tiers, see Databricks pricing page.
    Virtual NetworkVirtual Network Stellen Sie einen Azure Databricks-Arbeitsbereich in Ihrem virtuellen Netzwerk (VNet) bereit.Choose to deploy an Azure Databricks workspace in your own Virtual Network (VNet). Weitere Informationen finden Sie unter Bereitstellen von Azure Databricks in Ihrem virtuellen Azure-Netzwerk (VNet Injection).For more information, see Deploy Azure Databricks in your Azure Virtual Network (VNet Injection).

    Klicken Sie auf Erstellen.Select Create.

  3. Die Erstellung des Arbeitsbereichs dauert einige Minuten.The workspace creation takes a few minutes. Während der Erstellung des Arbeitsbereichs können Sie den Bereitstellungsstatus in Benachrichtigungen anzeigen.During workspace creation, you can view the deployment status in Notifications.

    Databricks-BereitstellungskachelDatabricks deployment tile

Erstellen eines Spark-Clusters in DatabricksCreate a Spark cluster in Databricks

Hinweis

Navigieren Sie vor dem Erstellen des Clusters zu Ihrem Profil, und legen Sie für Ihr Abonnement die nutzungsbasierte Bezahlung fest, um für die Erstellung des Azure Databricks-Clusters ein kostenloses Konto zu verwenden.To use a free account to create the Azure Databricks cluster, before creating the cluster, go to your profile and change your subscription to pay-as-you-go. Weitere Informationen finden Sie unter Kostenloses Azure-Konto.For more information, see Azure free account.

  1. Navigieren Sie im Azure-Portal zum erstellten Databricks-Arbeitsbereich, und klicken Sie auf Launch Workspace (Arbeitsbereich starten).In the Azure portal, go to the Databricks workspace that you created, and then click Launch Workspace.

  2. Sie werden zum Azure Databricks-Portal weitergeleitet.You are redirected to the Azure Databricks portal. Klicken Sie im Portal auf Neuer Cluster.From the portal, click New Cluster.

    Databricks in AzureDatabricks on Azure

  3. Geben Sie auf der Seite Neuer Cluster die erforderlichen Werte an, um einen Cluster zu erstellen.In the New cluster page, provide the values to create a cluster.

    Erstellen eines Databricks Spark-Clusters in AzureCreate Databricks Spark cluster on Azure

    Übernehmen Sie alle anderen Standardwerte bis auf Folgendes:Accept all other default values other than the following:

    • Geben Sie einen Namen für den Cluster ein.Enter a name for the cluster.

    • Erstellen Sie im Rahmen dieses Artikels einen Cluster mit der Runtime 5.3.For this article, create a cluster with 5.3 runtime.

    • Aktivieren Sie das Kontrollkästchen Terminate after __ minutes of inactivity (Nach __ Minuten Inaktivität beenden).Make sure you select the Terminate after __ minutes of inactivity checkbox. Geben Sie an, nach wie vielen Minuten der Cluster beendet werden soll, wenn er nicht verwendet wird.Provide a duration (in minutes) to terminate the cluster, if the cluster is not being used.

      Klicken Sie auf Cluster erstellen.Select Create cluster. Sobald der Cluster ausgeführt wird, können Sie Notizbücher an den Cluster anfügen und Spark-Aufträge ausführen.Once the cluster is running, you can attach notebooks to the cluster and run Spark jobs.

Weitere Informationen zum Erstellen von Clustern in Azure Databricks finden Sie unter Creating Clusters (Erstellen von Clustern).For more information on creating clusters, see Create a Spark cluster in Azure Databricks.

Ausführen eines Spark SQL-AuftragsRun a Spark SQL job

Führen Sie die folgenden Aufgaben aus, um ein Notizbuch in Databricks zu erstellen, das Notizbuch zum Lesen von Daten aus einem Azure Open Datasets zu konfigurieren und anschließend einen Spark SQL-Auftrag für die Daten auszuführen:Perform the following tasks to create a notebook in Databricks, configure the notebook to read data from an Azure Open Datasets, and then run a Spark SQL job on the data.

  1. Wählen Sie im linken Bereich Azure Databricks aus.In the left pane, select Azure Databricks. Wählen Sie in Allgemeine Aufgaben die Aufgabe Neues Notizbuch aus.From the Common Tasks, select New Notebook.

    Erstellen eines Notebooks in DatabricksCreate notebook in Databricks

  2. Geben Sie im Dialogfeld Notizbuch erstellen einen Namen ein, wählen Sie Python als Sprache und dann den zuvor erstellten Spark-Cluster aus.In the Create Notebook dialog box, enter a name, select Python as the language, and select the Spark cluster that you created earlier.

    Erstellen eines Notebooks in DatabricksCreate notebook in Databricks

    Klicken Sie auf Erstellen.Select Create.

  3. In diesem Schritt erstellen Sie einen Spark-Datenrahmen mit Boston-Sicherheitsdaten aus Azure Open Datasets und verwenden SQL zum Abfragen der Daten.In this step, create a Spark DataFrame with Boston Safety Data from Azure Open Datasets, and use SQL to query the data.

    Der folgende Befehl legt die Informationen für den Azure-Speicherzugriff fest.The following command sets the Azure storage access information. Fügen Sie diesen PySpark-Code in die erste Zelle ein, und führen Sie den Code mithilfe von UMSCHALT+EINGABE aus.Paste this PySpark code into the first cell and use Shift+Enter to run the code.

    blob_account_name = "azureopendatastorage"
    blob_container_name = "citydatacontainer"
    blob_relative_path = "Safety/Release/city=Boston"
    blob_sas_token = r"?st=2019-02-26T02%3A34%3A32Z&se=2119-02-27T02%3A34%3A00Z&sp=rl&sv=2018-03-28&sr=c&sig=XlJVWA7fMXCSxCKqJm8psMOh0W4h7cSYO28coRqF2fs%3D"
    

    Der folgende Befehl ermöglicht es Spark, remote aus dem Blobspeicher zu lesen.The following command allows Spark to read from Blob storage remotely. Fügen Sie diesen PySpark-Code in die nächste Zelle ein, und führen Sie den Code mithilfe von UMSCHALT+EINGABE aus.Paste this PySpark code into the next cell and use Shift+Enter to run the code.

    wasbs_path = 'wasbs://%s@%s.blob.core.windows.net/%s' % (blob_container_name, blob_account_name, blob_relative_path)
    spark.conf.set('fs.azure.sas.%s.%s.blob.core.windows.net' % (blob_container_name, blob_account_name), blob_sas_token)
    print('Remote blob path: ' + wasbs_path)
    

    Der folgende Befehl erstellt einen Datenrahmen.The following command creates a DataFrame. Fügen Sie diesen PySpark-Code in die nächste Zelle ein, und führen Sie den Code mithilfe von UMSCHALT+EINGABE aus.Paste this PySpark code into the next cell and use Shift+Enter to run the code.

    df = spark.read.parquet(wasbs_path)
    print('Register the DataFrame as a SQL temporary view: source')
    df.createOrReplaceTempView('source')
    
  4. Führen Sie eine SQL-Anweisung aus, um die ersten 10 Datenzeilen aus der temporären Ansicht namens Quelle zurückzugeben.Run a SQL statement return the top 10 rows of data from the temporary view called source. Fügen Sie diesen PySpark-Code in die nächste Zelle ein, und führen Sie den Code mithilfe von UMSCHALT+EINGABE aus.Paste this PySpark code into the next cell and use Shift+Enter to run the code.

    print('Displaying top 10 rows: ')
    display(spark.sql('SELECT * FROM source LIMIT 10'))
    
  5. Sie erhalten eine tabellarische Ausgabe wie im folgenden Screenshot, der allerdings nur einen Teil der Spalten zeigt:You see a tabular output like shown in the following screenshot (only some columns are shown):

    BeispieldatenSample data

  6. Sie erstellen jetzt eine visuelle Darstellung dieser Daten, um zu zeigen, wie viele Sicherheitsereignisse über die Citizens Connect-App und die City Worker-App statt aus anderen Quellen gemeldet werden.You now create a visual representation of this data to show how many safety events are reported using the Citizens Connect App and City Worker App instead of other sources. Wählen Sie im unteren Bereich der tabellarischen Ausgabe das Symbol Balkendiagramm aus, und klicken Sie auf Zeichnungsoptionen.From the bottom of the tabular output, select the Bar chart icon, and then click Plot Options.

    Erstellen eines BalkendiagrammsCreate bar chart

  7. Platzieren Sie per Drag & Drop Werte in Customize Plot (Zeichnung anpassen), wie im folgenden Screenshot zu sehen.In Customize Plot, drag-and-drop values as shown in the screenshot.

    Anpassen eines KreisdiagrammsCustomize pie chart

    • Legen Sie Schlüssel auf Quelle fest.Set Keys to source.

    • Legen Sie Werte auf <\id> fest.Set Values to <\id>.

    • Legen Sie Aggregation auf ANZAHL fest.Set Aggregation to COUNT.

    • Legen Sie Anzeigetyp auf Kreisdiagramm fest.Set Display type to Pie chart.

      Klicken Sie auf Anwenden.Click Apply.

Bereinigen von RessourcenClean up resources

Am Ende dieses Artikels können Sie den Cluster beenden.After you have finished the article, you can terminate the cluster. Klicken Sie hierzu im linken Bereich des Azure Databricks-Arbeitsbereichs auf Cluster.To do so, from the Azure Databricks workspace, from the left pane, select Clusters. Bewegen Sie den Cursor zum Beenden des Clusters auf die Auslassungspunkte in der Spalte Aktionen, und klicken Sie auf das Symbol Beenden.For the cluster you want to terminate, move the cursor over the ellipsis under Actions column, and select the Terminate icon.

Beenden eines Databricks-ClustersStop a Databricks cluster

Wenn Sie den Cluster nicht manuell beenden, wird er automatisch beendet, sofern Sie bei der Erstellung des Clusters das Kontrollkästchen Terminate after __ minutes of inactivity (Nach __ Minuten Inaktivität beenden) aktiviert haben.If you do not manually terminate the cluster it will automatically stop, provided you selected the Terminate after __ minutes of inactivity checkbox while creating the cluster. Der Cluster wird dann automatisch beendet, wenn er für den angegebenen Zeitraum inaktiv war.In such a case, the cluster automatically stops, if it has been inactive for the specified time.

Nächste SchritteNext steps

In diesem Artikel haben Sie einen Spark-Cluster in Azure Databricks erstellt und einen Spark-Auftrag mit Daten aus Azure Open Datasets ausgeführt.In this article, you created a Spark cluster in Azure Databricks and ran a Spark job using data from Azure Open Datasets. Unter Spark Data Sources (Spark-Datenquellen) erfahren Sie, wie Sie Daten aus anderen Datenquellen in Azure Databricks importieren.You can also look at Spark data sources to learn how to import data from other data sources into Azure Databricks. Im nächsten Artikel erfahren Sie, wie Sie unter Verwendung von Azure Databricks einen ETL-Vorgang zum Extrahieren, Transformieren und Laden von Daten ausführen.Advance to the next article to learn how to perform an ETL operation (extract, transform, and load data) using Azure Databricks.