Självstudie om VSCode-tillägget för Databricks: Kör Python på ett kluster och som ett jobb

Artikel
04/19/2024

Den här självstudien visar hur du kommer igång med Databricks-tillägget för Visual Studio Code genom att köra en grundläggande Python-kodfil i ett Azure Databricks-kluster och som ett Azure Databricks-jobb som körs på fjärrarbetsytan. Se Vad är Databricks-tillägget för Visual Studio Code?.

Vad ska du göra i den här självstudien?

I den här praktiska självstudien gör du följande:

Skapa ett Azure Databricks-kluster som du vill köra din lokala Python-kod på.
Installera Visual Studio Code och Databricks-tillägget för Visual Studio Code.
Konfigurera Azure Databricks-autentisering och konfigurera Databricks-tillägget för Visual Studio Code med den här informationen.
Konfigurera Databricks-tillägget för Visual Studio Code med information om fjärrklustret och ha tillägget för att starta klustret.
Konfigurera Databricks-tillägget för Visual Studio Code med platsen på din fjärranslutna Azure Databricks-arbetsyta för att ladda upp din lokala Python-kod till och få tillägget att börja lyssna efter koduppladdningshändelser.
Skriv och spara lite Python-kod, vilket utlöser en koduppladdningshändelse.
Använd Databricks-tillägget för Visual Studio Code för att köra den uppladdade koden i fjärrklustret och sedan köra den med klustret som en fjärrjobbkörning.

Den här självstudien visar bara hur du kör en Python-kodfil, och den här självstudien visar bara hur du konfigurerar U2M-autentisering (OAuth user-to-machine). Information om hur du felsöker Python-kodfiler, kör och felsöker notebook-filer och konfigurerar andra autentiseringstyper finns i Nästa steg.

Steg 1: Skapa ett kluster

Om du redan har ett Fjärranslutet Azure Databricks-kluster som du vill använda kan du anteckna klustrets namn och gå vidare till steg 2 för att installera Visual Studio Code. Om du vill visa tillgängliga kluster klickar du på Beräkning i arbetsytans sidofält.

Databricks rekommenderar att du skapar ett personligt beräkningskluster för att komma igång snabbt. Gör följande för att skapa det här klustret:

I din Azure Databricks-arbetsyta klickar du på Beräkning i sidofältet.
Klicka på Skapa med personlig beräkning.
Klicka på Skapa beräkning.
Anteckna klustrets namn eftersom du behöver det senare i steg 5 när du lägger till klusterinformation i tillägget.

Steg 2: Installera Visual Studio Code

Om du vill installera Visual Studio Code följer du anvisningarna för macOS, Linux eller Windows.

Om du redan har Visual Studio Code installerat kontrollerar du om det är version 1.69.1 eller senare. Om du vill göra detta går du till Visual Studio Code på huvudmenyn och klickar på Koda > om Visual Studio Code för macOS eller Hjälp > om för Linux eller Windows.

Om du vill uppdatera Visual Studio Code går du till huvudmenyn och klickar på Kodkontroll > för Uppdateringar för macOS eller Hjälpkontroll > för Uppdateringar för Linux eller Windows.

Steg 3: Installera Databricks-tillägget

Installera Visual Studio Code-tillägget

I sidofältet i Visual Studio Code klickar du på ikonen Tillägg .
I Söktillägg på Marketplace anger du Databricks.
I posten med etiketten Databricks med underrubriken IDE-stöd för Databricks från Databricks klickar du på Installera.

Steg 4: Konfigurera Azure Databricks-autentisering

I det här steget aktiverar du autentisering mellan Databricks-tillägget för Visual Studio Code och din fjärranslutna Azure Databricks-arbetsyta på följande sätt:

Från Visual Studio Code öppnar du en tom mapp på din lokala utvecklingsdator som du ska använda för att innehålla Python-koden som du skapar och kör senare i steg 7. Det gör du genom att klicka på Öppna > mapp på huvudmenyn och följa anvisningarna på skärmen.
I sidofältet i Visual Studio Code klickar du på ikonen för Databricks-logotypen .
I fönstret Konfiguration klickar du på Konfigurera Databricks.
I kommandopaletten för Databricks Host anger du url:en per arbetsyta, till exempel https://adb-1234567890123456.7.azuredatabricks.net. Tryck sedan på RETUR.
Välj OAuth (användare till dator).
Slutför autentisera med Azure Databricks genom att följa anvisningarna på skärmen i webbläsaren. Om du uppmanas till det tillåter du all-apis-åtkomst .

Steg 5: Lägg till klusterinformation i Databricks-tillägget och starta klustret

Med fönstret Konfiguration redan öppen från föregående steg där du konfigurerar autentisering klickar du på kugghjulsikonen (Konfigurera kluster) bredvid Kluster.
I kommandopaletten väljer du namnet på klustret som du skapade i steg 1.
Starta klustret om det inte redan har startats: Klicka på det bredvid Kluster om uppspelningsikonen (Startklustret) visas.

Starta klustret

Steg 6: Lägg till platsen för koduppladdning i Databricks-tillägget och starta uppladdningslyssnaren

Med konfigurationsfönstret redan öppet från föregående steg där du lade till klusterinformation klickar du på kugghjulsikonen (Konfigurera synkroniseringsmål) bredvid Synkroniseringsmål.
I kommandopaletten väljer du Skapa nytt synkroniseringsmål.
Tryck Enter på för att bekräfta namnet på den genererade fjärruppladdningskatalogen.
Starta uppladdningslyssnaren om den inte redan har startats: Klicka på den bredvid Synkroniseringsmål om ikonen för den pilade cirkeln (Starta synkronisering) är synlig.

Starta uppladdningslyssnaren

Steg 7: Skapa och köra Python-kod

Skapa en lokal Python-kodfil: I sidofältet klickar du på mappikonen (Explorer).
På huvudmenyn klickar du på Arkiv > Ny fil. Ge filen namnet demo.py och spara den i projektets rot.

Lägg till följande kod i filen och spara den sedan. Den här koden skapar och visar innehållet i en grundläggande PySpark DataFrame:

from pyspark.sql import SparkSession
from pyspark.sql.types import *

spark = SparkSession.builder.getOrCreate()

schema = StructType([
   StructField('CustomerID', IntegerType(), False),
   StructField('FirstName',  StringType(),  False),
   StructField('LastName',   StringType(),  False)
])

data = [
   [ 1000, 'Mathijs', 'Oosterhout-Rijntjes' ],
   [ 1001, 'Joost',   'van Brunswijk' ],
   [ 1002, 'Stan',    'Bokenkamp' ]
]

customers = spark.createDataFrame(data, schema)
customers.show()

# Output:
#
# +----------+---------+-------------------+
# |CustomerID|FirstName|           LastName|
# +----------+---------+-------------------+
# |      1000|  Mathijs|Oosterhout-Rijntjes|
# |      1001|    Joost|      van Brunswijk|
# |      1002|     Stan|          Bokenkamp|
# +----------+---------+-------------------+

Högerklicka på demo.py filen i utforskarvyn och klicka sedan på Ladda upp och kör fil på Databricks. Utdata visas i fönstret Felsökningskonsol .

Ladda upp och köra fil på Databricks

Steg 8: Kör koden som ett jobb

I föregående steg körde du Python-koden direkt i fjärrklustret. I det här steget initierar du ett arbetsflöde som använder klustret för att köra koden som ett Azure Databricks-jobb i stället. Se Vad är Azure Databricks-jobb?.

Om du vill köra den här koden som ett jobb högerklickar du på filen i utforskarvyn och klickar sedan på Kör fil som arbetsflöde på Databricks.demo.py Utdata visas på en separat redigeringsflik bredvid demo.py filredigeraren.

Kör fil som arbetsflöde på Databricks

Du har nått slutet av den här självstudien.

Nästa steg

Nu när du har använt Databricks-tillägget för Visual Studio Code för att ladda upp en lokal Python-fil och köra den via fjärranslutning kan du läsa mer om hur du använder tillägget:

Lär dig mer om ytterligare sätt att konfigurera autentisering för tillägget. Se Autentiseringskonfiguration för Databricks-tillägget för VS Code.
Lär dig hur du aktiverar kodkomplettering av PySpark och Databricks Utilities, kör eller felsöker Python-kod med Databricks Anslut, kör en fil eller en notebook-fil som ett Azure Databricks-jobb, kör tester med pytest, använder miljövariabeldefinitionsfiler, skapar anpassade körningskonfigurationer med mera. Se Utvecklingsuppgifter för Databricks-tillägget för Visual Studio Code.

Share via