Quickstart: Een Spark-taak uitvoeren in Azure Databricks werkruimte met behulp van de Azure Portal
In deze quickstart gebruikt u het Azure-portal om een Azure Databricks-werkruimte te maken met een Apache Spark-cluster. U kunt een taak uitvoeren in het cluster en aangepaste grafieken gebruiken om realtimerapporten te maken op basis van veiligheidsgegevens in Seattle.
Vereisten
Azure-abonnement: maak er gratis een. Deze zelfstudie kan niet worden uitgevoerd met behulp van een gratis Azure-proefabonnement. Als u een gratis account hebt, gaat u naar uw profiel en wijzigt u uw abonnement in Betalen per gebruik. Zie Gratis Azure-account voor meer informatie. Vervolgens verwijdert u de bestedingslimiet en vraagt u een quotumverhoging aan voor vCPU’s in uw regio. Wanneer u uw Azure Databricks-werkruimte maakt, kunt u de prijscategorie Proefversie (Premium - 14 dagen gratis DBU’s) selecteren om de werkruimte 14 dagen lang toegang te geven tot gratis Premium Azure Databricks DBU’s.
Meld u aan bij de Azure-portal.
Notitie
Als u een Azure Databricks-werkruimte wilt maken in de commerciële Azure-cloud die nalevingscertificeringen voor de Amerikaanse overheid bevat, zoals FedRAMP High, neemt u contact op met uw Microsoft- of Databricks-vertegenwoordiger om toegang te krijgen tot deze ervaring.
Een Azure Databricks-werkruimte maken
In deze sectie maakt u een Azure Databricks werkruimte met behulp van de Azure Portal of de Azure CLI.
Selecteer in Azure Portal de optie Een resourceanalysemakenAzure Databricks.

Geef bij Azure Databricks Service de waarden op voor het maken van een Databricks-werkruimte.

Geef de volgende waarden op:
Eigenschap Beschrijving Werkruimtenaam Geef een naam op voor uw Databricks-werkruimte. Abonnement Selecteer uw Azure-abonnement in de vervolgkeuzelijst. Resourcegroep Geef aan of u een nieuwe resourcegroep wilt maken of een bestaande groep wilt gebruiken. Een resourcegroep is een container met gerelateerde resources voor een Azure-oplossing. Zie Overzicht van Azure Resource Manager voor meer informatie. Locatie Selecteer VS - west 2. Zie Producten beschikbaar per regio voor andere beschikbare regio's. Prijscategorie U kunt kiezen tussen Standard, Premium en Trial. Bekijk de pagina Prijzen voor Databricks voor meer informatie over deze categorieën. Selecteer Controleren en maken en vervolgens Maken. Het maken van de werkruimte duurt enkele minuten. Tijdens het maken van de werkruimte kunt u de implementatiestatus weergeven bij Meldingen. Zodra dit proces is voltooid, wordt uw gebruikersaccount automatisch als een gebruiker met beheerdersrechten toegevoegd in de werkruimte.

Wanneer de implementatie van een werkruimte mislukt, wordt de werkruimte nog steeds gemaakt, maar krijgt deze de status Mislukt. Verwijder de mislukte werkruimte en maak een nieuwe werkruimte waarin de implementatiefouten zijn opgelost. Wanneer u de mislukte werkruimte verwijdert, worden de beheerde resourcegroep en de resources die wel zijn geïmplementeerd ook verwijderd.
Een Spark-cluster maken in Databricks
Notitie
Als u een gratis account wilt gebruiken om het Azure Databricks-cluster te maken, gaat u voordat het cluster is gemaakt naar uw profiel en wijzigt u uw abonnement in betalen per gebruik. Zie Gratis Azure-account voor meer informatie.
Ga in Azure Portal naar de Databricks-werkruimte die u hebt gemaakt en klik op Werkruimte starten.
U wordt omgeleid naar de Azure Databricks-portal. Klik in de portal Nieuw cluster.

Op de pagina Nieuw cluster geeft u de waarden op waarmee een nieuw cluster wordt gemaakt.

Accepteer alle andere standaardwaarden, anders dan de volgende:
Voer een naam in voor het cluster.
Voor dit artikel maakt u een cluster met runtime (5.X,6.X,7.X).
Zorg ervoor dat u het selectievakje Beëindigen na __ minuten van inactiviteit incheckt. Geef een duur (in minuten) op waarna het cluster moet worden beëindigd als het niet wordt gebruikt.
Selecteer Cluster maken. Zodra het cluster wordt uitgevoerd, kunt u notitieblokken koppelen aan het cluster en Spark-taken uitvoeren.
Zie Een Spark-cluster maken in Azure Databricks voor meer informatie over het maken van clusters.
Een Spark SQL-taak uitvoeren
Voer de volgende taken uit om een notitieblok in Databricks te maken. Configureer het notitieblok om de gegevens te lezen uit een Azure Open Datasets en voer vervolgens een Spark SQL-taak uit op de gegevens.
Selecteer de knop Azure Databricks in het linkerdeelvenster. Selecteer in de Algemene takenNieuwe notebook.
maken inVoer in het dialoogvenster Notitieblok maken een naam in, selecteer Python als taal en selecteer het Spark-cluster dat u eerder hebt gemaakt.

Selecteer Maken.
In deze stap maakt u een Spark DataFrame met Seattle Safety Data van Azure Open Datasetsen gebruikt u SQL query's uit te voeren op de gegevens.
Met de volgende opdracht stelt u de toegangsinformatie voor Azure Storage in. Plak deze PySpark-code in de eerste cel en gebruik Shift + Enter om de code uit te voeren.
blob_account_name = "azureopendatastorage" blob_container_name = "citydatacontainer" blob_relative_path = "Safety/Release/city=Seattle" blob_sas_token = r"?st=2019-02-26T02%3A34%3A32Z&se=2119-02-27T02%3A34%3A00Z&sp=rl&sv=2018-03-28&sr=c&sig=XlJVWA7fMXCSxCKqJm8psMOh0W4h7cSYO28coRqF2fs%3D"Met de volgende opdracht kan Spark vanop afstand de Blob Storage lezen. Plak deze PySpark-code in de volgende cel en gebruik Shift + Enter om de code uit te voeren.
wasbs_path = 'wasbs://%s@%s.blob.core.windows.net/%s' % (blob_container_name, blob_account_name, blob_relative_path) spark.conf.set('fs.azure.sas.%s.%s.blob.core.windows.net' % (blob_container_name, blob_account_name), blob_sas_token) print('Remote blob path: ' + wasbs_path)Met de volgende opdracht maakt u een DataFrame. Plak deze PySpark-code in de volgende cel en gebruik Shift + Enter om de code uit te voeren.
df = spark.read.parquet(wasbs_path) print('Register the DataFrame as a SQL temporary view: source') df.createOrReplaceTempView('source')Voer een SQL-instructie uit om de bovenste 10 rijen met gegevens op te halen uit de tijdelijke weergave bron. Plak deze PySpark-code in de volgende cel en gebruik Shift + Enter om de code uit te voeren.
print('Displaying top 10 rows: ') display(spark.sql('SELECT * FROM source LIMIT 10'))U ziet uitvoer in tabelvorm zoals weergegeven in de volgende schermafbeelding (alleen bepaalde kolommen worden weergegeven):

U maakt nu een visuele weergave van deze gegevens om te laten zien hoeveel beveiligingsgebeurtenissen worden gerapporteerd via de burgers Connect App en de City Worker App in plaats van andere bronnen. Selecteer onder in de tabel met uitvoer op het pictogram voor het staafdiagram en klik vervolgens op Tekenopties.

In Tekening aanpassen sleept en zet u de waarden neer zoals in de schermafbeelding wordt weergegeven.

Stel Sleutels in op bron.
Stel Waarden in op \id .
Stel Aggregatie in op AANTAL.
Stel Weergavetype in op Cirkeldiagram.
Klik op Toepassen.
Resources opschonen
Nadat u het artikel hebt doorgenomen, kunt u het cluster beëindigen. Dit doet u door vanuit de Azure Databricks-werkruimte in het linkerdeelvenster Clusters te selecteren. Voor het cluster dat u wilt beëindigen, plaatst u de cursor op het weglatingsteken onder de kolom Acties en selecteert u het beëindigingspictogram.

Als u het cluster niet handmatig beëindigt, stopt het cluster automatisch, op voorwaarde dat het selectievakje Beëindigen na __ minuten inactiviteit is ingeschakeld tijdens het maken van het cluster. In dat geval stopt het cluster automatisch als het gedurende de opgegeven tijd inactief is geweest.
Volgende stappen
In dit artikel hebt u een Spark-cluster in Azure Databricks gemaakt en een Spark-taak met gegevens uit Azure Storage Open Datasets. U kunt ook zoeken op Spark gegevensbronnen voor meer informatie over het importeren van gegevens uit andere gegevensbronnen in Azure Databricks. Ga naar het volgende artikel voor informatie over het uitvoeren van een ETL-bewerking (Extraction, Transformation, and Loading) met behulp van Azure Databricks.


