Azure Databricks för Scala-utvecklare

Artikel
05/03/2024

Den här artikeln innehåller en guide för att utveckla notebook-filer och jobb i Azure Databricks med hjälp av Scala-språket. Det första avsnittet innehåller länkar till självstudier för vanliga arbetsflöden och uppgifter. Det andra avsnittet innehåller länkar till API:er, bibliotek och nyckelverktyg.

Ett grundläggande arbetsflöde för att komma igång är:

Importera kod och kör den med hjälp av en interaktiv Databricks-notebook-fil: Importera antingen din egen kod från filer eller Git-lagringsplatser eller prova en självstudie som visas nedan.
Kör koden i ett kluster: Skapa antingen ett eget kluster eller se till att du har behörighet att använda ett delat kluster. Koppla anteckningsboken till klustret och kör notebook-filen.

Utöver detta kan du förgrena dig till mer specifika ämnen:

Arbeta med större datamängder med Apache Spark
Lägga till visualiseringar
Automatisera din arbetsbelastning som ett jobb
Utveckla i IDE:er

Självstudier

Självstudierna nedan innehåller exempelkod och notebook-filer för att lära dig mer om vanliga arbetsflöden. Mer information om hur du importerar notebook-exempel till din arbetsyta finns i Importera en notebook-fil .

Självstudie: Läsa in och transformera data med Apache Spark DataFrames
Självstudie: Delta Lake innehåller Scala-exempel.
Snabbstart Java och Scala hjälper dig att lära dig grunderna i att spåra maskininlärningsträningskörningar med MLflow i Scala.
Använd XGBoost i Azure Databricks är ett Scala-exempel.

Referens

I underavsnitten nedan visas viktiga funktioner och tips som hjälper dig att börja utveckla i Azure Databricks med Scala.

Scala-API

De här länkarna ger en introduktion till och referens för Apache Spark Scala-API:et.

Hantera kod med notebook-filer och Databricks Git-mappar

Databricks notebook-filer stöder Scala. Dessa notebook-filer tillhandahåller funktioner som liknar Jupyter, men med tillägg som inbyggda visualiseringar med stordata, Apache Spark-integreringar för felsökning och prestandaövervakning och MLflow-integreringar för att spåra maskininlärningsexperiment. Kom igång genom att importera en notebook-fil. När du har åtkomst till ett kluster kan du koppla en notebook-fil till klustret och köra notebook-filen.

Dricks

Om du vill återställa tillståndet för notebook-filen helt kan det vara användbart att starta om kerneln. För Jupyter-användare motsvarar alternativet "starta om kernel" i Jupyter att koppla från och återansluta en notebook-fil i Databricks. Om du vill starta om kerneln i en notebook-fil klickar du på beräkningsväljaren i notebook-verktygsfältet och hovra över det anslutna klustret eller SQL-lagret i listan för att visa en sidomeny. Välj Koppla från och koppla om. Detta kopplar från notebook-filen från klustret och kopplar om den, vilket startar om processen.

Med Databricks Git-mappar kan användare synkronisera notebook-filer och andra filer med Git-lagringsplatser. Databricks Git-mappar hjälper till med kodversioner och samarbete, och det kan förenkla importen av en fullständig lagringsplats med kod till Azure Databricks, visa tidigare notebook-versioner och integrera med IDE-utveckling. Kom igång genom att klona en fjärransluten Git-lagringsplats. Du kan sedan öppna eller skapa notebook-filer med lagringsplatsens klon, koppla anteckningsboken till ett kluster och köra notebook-filen.

Kluster och bibliotek

Azure Databricks Compute tillhandahåller beräkningshantering för kluster av valfri storlek: från kluster med en enda nod upp till stora kluster. Du kan anpassa klustermaskinvara och bibliotek efter dina behov. Dataexperter börjar vanligtvis arbeta antingen genom att skapa ett kluster eller använda ett befintligt delat kluster. När du har åtkomst till ett kluster kan du koppla en notebook-fil till klustret eller köra ett jobb i klustret.

För små arbetsbelastningar som bara kräver enskilda noder kan dataexperter använda beräkning med en nod för kostnadsbesparingar.
Detaljerade tips finns i Metodtips för beräkningskonfiguration
Administratörer kan konfigurera klusterprinciper för att förenkla och vägleda skapandet av kluster.

Azure Databricks-kluster använder en Databricks Runtime som tillhandahåller många populära bibliotek, inklusive Apache Spark, Delta Lake med mera. Du kan också installera ytterligare bibliotek från tredje part eller anpassade bibliotek som ska användas med notebook-filer och jobb.

Börja med standardbiblioteken i versionsanteckningarna för Databricks Runtime och kompatibilitet. Fullständiga listor över förinstallerade bibliotek finns i Versionsanteckningar för Databricks Runtime och kompatibilitet.
Du kan också installera Scala-bibliotek i ett kluster.
Mer information finns i Bibliotek.

Visualiseringar

Azure Databricks Scala-notebook-filer har inbyggt stöd för många typer av visualiseringar. Du kan också använda äldre visualiseringar:

Samverkan

I det här avsnittet beskrivs funktioner som stöder samverkan mellan Scala och SQL.

Projekt

Du kan automatisera Scala-arbetsbelastningar som schemalagda eller utlösta jobb i Azure Databricks. Jobb kan köra notebook-filer och JAR:er.

Mer information om hur du skapar ett jobb via användargränssnittet finns i Skapa ett jobb.
Med Databricks SDK:er kan du skapa, redigera och ta bort jobb programmatiskt.
Databricks CLI tillhandahåller ett bekvämt kommandoradsgränssnitt för att automatisera jobb.

ID:er, utvecklarverktyg och SDK:er

Förutom att utveckla Scala-kod i Azure Databricks-notebook-filer kan du utveckla externt med hjälp av integrerade utvecklingsmiljöer (IDE:er) som IntelliJ IDEA. Om du vill synkronisera arbetet mellan externa utvecklingsmiljöer och Azure Databricks finns det flera alternativ:

Kod: Du kan synkronisera kod med Git. Se Git-integrering med Databricks Git-mappar.
Bibliotek och jobb: Du kan skapa bibliotek externt och ladda upp dem till Azure Databricks. Dessa bibliotek kan importeras i Azure Databricks-notebook-filer, eller så kan de användas för att skapa jobb. Se Bibliotek och Skapa och kör Azure Databricks-jobb.
Fjärrdatorkörning: Du kan köra kod från din lokala IDE för interaktiv utveckling och testning. IDE kan kommunicera med Azure Databricks för att köra stora beräkningar på Azure Databricks-kluster. Du kan till exempel använda IntelliJ IDEA med Databricks Anslut.

Databricks tillhandahåller en uppsättning SDK:er som stöder automatisering och integrering med externa verktyg. Du kan använda Databricks SDK:er för att hantera resurser som kluster och bibliotek, kod och andra arbetsyteobjekt, arbetsbelastningar och jobb med mera. Se Databricks SDK:er.

Mer information om IDE:er, utvecklarverktyg och SDK:er finns i Utvecklarverktyg och vägledning.

Ytterligare resurser

Databricks Academy erbjuder kurser i egen takt och instruktörsledda kurser i många ämnen.

Azure Databricks för Scala-utvecklare

Självstudier

Referens

Scala-API

Hantera kod med notebook-filer och Databricks Git-mappar

Kluster och bibliotek

Visualiseringar

Samverkan

Projekt

ID:er, utvecklarverktyg och SDK:er

Ytterligare resurser

Feedback

Feedback

Ytterligare resurser