Snabbstart: Köra ett Spark-jobb på Azure Databricks arbetsyta med hjälp av Azure Portal
I den här snabbstarten använder du Azure Portal för att skapa en Azure Databricks arbetsyta med ett Apache Spark kluster. Du kör ett jobb i klustret och använder anpassade diagram för att skapa realtidsrapporter från Seattle-säkerhetsdata.
Förutsättningar
Azure-prenumeration – skapa en utan kostnad. Den här självstudien kan inte utföras med en kostnadsfri utvärderingsprenumeration på Azure. Om du har ett kostnadsfritt konto går du till din profil och ändrar prenumerationen till Betala per prenumeration. Mer information finns i Kostnadsfritt Azure-konto. Ta sedan bort utgiftsgränsen ochbegär en kvotökning för vPU:er i din region. När du skapar din Azure Databricks-arbetsyta kan du välja prisnivån Utvärderingsversion (Premium – 14 dagars kostnadsfria DBUs) för att ge arbetsytan åtkomst till kostnadsfria Premium Azure Databricks DBPu:er i 14 dagar.
Logga in på Azure-portalen.
Anteckning
Om du vill skapa en Azure Databricks-arbetsyta i Azure Commercial Cloud som har efterlevnadscertifieringar för amerikanska myndigheter, till exempel FedRAMP High, kan du kontakta din Microsoft- eller Databricks-representant för att få åtkomst till den här upplevelsen.
Skapa en Azure Databricks-arbetsyta
I det här avsnittet skapar du Azure Databricks en arbetsyta med Azure Portal eller Azure CLI.
Välj Skapa en resursAnalysAzure Databricks i Azure-portalen.

Under Azure Databricks-tjänst anger du värden för att skapa en Databricks-arbetsyta.

Ange följande värden:
Egenskap Beskrivning Namn på arbetsyta Ange ett namn för Databricks-arbetsytan Prenumeration I listrutan väljer du din Azure-prenumeration. Resursgrupp Ange om du vill skapa en ny resursgrupp eller använda en befintlig. En resursgrupp är en container som innehåller relaterade resurser för en Azure-lösning. Mer information finns i översikten över Azure-resursgrupper. Plats Välj USA, västra 2. För andra tillgängliga regioner läser du informationen om Azure-tjänsttillgänglighet per region. Prisnivå Välj mellan Standard, Premiumeller Utvärderingsversion. Mer information om de här nivåerna finns på prissättningssidan för Databricks. Välj Granska + skapaoch sedan Skapa. Det tar några minuter att skapa arbetsytan. När arbetsytan skapas kan du visa distributionsstatusen i Meddelanden. När den här processen är klar läggs ditt användarkonto automatiskt till som en administratörsanvändare i arbetsytan.

När en arbetsytedistribution misslyckas skapas arbetsytan fortfarande i ett misslyckat tillstånd. Ta bort arbetsytan som misslyckades och skapa en ny arbetsyta som löser distributionsfelen. När du tar bort den misslyckade arbetsytan tas även den hanterade resursgruppen och eventuella distribuerade resurser bort.
Skapa ett Spark-kluster i Databricks
Anteckning
Om du vill använda ett kostnadsfritt konto för att skapa Azure Databricks-klustret ska du innan du skapar klustret gå till din profil och ändra prenumerationen till betala per användning. Mer information finns i Kostnadsfritt Azure-konto.
I Azure Portal går du till arbetsytan Databricks som du skapade och klickar sedan på Starta arbetsyta.
Du omdirigeras till Azure Databricks-portalen. Från portalen klickar du på Nytt kluster.

På sidan Nytt kluster anger du värdena för att skapa ett kluster.

Godkänn alla övriga standardvärden, förutom följande:
Ange ett namn för klustret.
I den här artikeln skapar du ett kluster med körningen (5.X, 6.X, 7.X).
Se till att markera kryssrutan Avsluta efter __ minuters inaktivitet. Ange en varaktighet (i minuter) för att avsluta klustret om klustret inte används.
Välj Skapa kluster. När klustret körs kan du ansluta anteckningsböcker till klustret och köra Spark-jobb.
Mer information om att skapa kluster finns i Skapa ett Spark-kluster i Azure Databricks.
Köra ett Spark SQL-jobb
Utför följande uppgifter för att skapa en notebook-dator i Databricks, konfigurera anteckningsboken för att läsa data från en Azure Open Datasets och sedan köra ett Spark SQL-jobb på data.
I den vänstra rutan väljer du Azure Databricks. I Vanliga uppgifter väljerdu Ny notebook-.

I dialogrutan Skapa anteckningsbok anger du ett namn, väljer Python som språk och väljer det Spark-kluster som du skapade tidigare.

Välj Skapa.
I det här steget skapar du en Spark DataFrame med Säkerhetsdata för Seattle från Azure Open Datasetsoch använder SQL för att köra frågor mot data.
Följande kommando anger åtkomstinformationen för Azure Storage. Klistra in den här PySpark-koden i den första cellen och kör koden med Skift+Retur.
blob_account_name = "azureopendatastorage" blob_container_name = "citydatacontainer" blob_relative_path = "Safety/Release/city=Seattle" blob_sas_token = r"?st=2019-02-26T02%3A34%3A32Z&se=2119-02-27T02%3A34%3A00Z&sp=rl&sv=2018-03-28&sr=c&sig=XlJVWA7fMXCSxCKqJm8psMOh0W4h7cSYO28coRqF2fs%3D"Med följande kommando kan Spark fjärrläsa från Blob Storage. Klistra in den här PySpark-koden i nästa cell och kör koden med Skift+Retur.
wasbs_path = 'wasbs://%s@%s.blob.core.windows.net/%s' % (blob_container_name, blob_account_name, blob_relative_path) spark.conf.set('fs.azure.sas.%s.%s.blob.core.windows.net' % (blob_container_name, blob_account_name), blob_sas_token) print('Remote blob path: ' + wasbs_path)Följande kommando skapar en DataFrame. Klistra in den här PySpark-koden i nästa cell och kör koden med Skift+Retur.
df = spark.read.parquet(wasbs_path) print('Register the DataFrame as a SQL temporary view: source') df.createOrReplaceTempView('source')Kör en SQL-instruktion som returnerar de översta 10 raderna med data från den tillfälliga vyn med namnet source. Klistra in den här PySpark-koden i nästa cell och kör koden med Skift+Retur.
print('Displaying top 10 rows: ') display(spark.sql('SELECT * FROM source LIMIT 10'))Du ser en tabellvy som i följande skärmbild (endast vissa kolumner visas):

Nu skapar du en visuell representation av dessa data för att visa hur många säkerhetshändelser som rapporteras med hjälp av Anslut App och City Worker-appen i stället för andra källor. Längst ned i tabellutdata väljer du ikonen Stapeldiagram och klickar sedan på Ritalternativ.

I Anpassa ritning drar och släpper du värden enligt skärmbilden.

Ange Nycklar till källa.
Ange Värden till \id .
Ställ in Sammansättning på COUNT (Antal).
Ange Visningstyp till Cirkeldiagram.
Klicka på Applicera.
Rensa resurser
När du är klar med artikeln kan du avsluta klustret. Detta gör du genom att välja Kluster i det vänstra fönstret i Azure Databricks-arbetsytan. Gå till klustret som du vill avsluta och rör markören över de tre punkterna under kolumnen Åtgärder. Välj sedan ikonen Avsluta.

Om du inte manuellt avslutar klustret kommer det att stoppas automatiskt, förutsatt att du har markerat kryssrutan Avsluta efter ___ minuters inaktivitet när klustret skapades. I sådant fall stoppas klustret automatiskt om det har varit inaktivt under den angivna tiden.
Nästa steg
I den här artikeln skapade du ett Spark-kluster i Azure Databricks och körde ett Spark-jobb med hjälp av data från Azure Open Datasets. Du kan också titta på Spark-datakällor för att lära dig att importera data från andra datakällor till Azure Databricks. Gå till nästa artikel om du vill lära dig hur du utför en ETL-åtgärd (extrahera, transformera och läsa in data) med Azure Databricks.


